Data augmentation using learned transformations for one-shot medical image segmentation-论文详解

本文主要是介绍Data augmentation using learned transformations for one-shot medical image segmentation-论文详解，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

这是一篇CVPR2019的论文，主要是做Magnetic resonance imaging(MRI)医学图像的分割（segmentation)。

MRI

磁共振成像（MRI）是一种用于放射学中的医学成像技术，用于形成人体解剖结构和生理过程的图片。MRI扫描仪使用强磁场，磁场梯度和无线电波来生成体内器官的图像。MRI不涉及X射线或使用电离辐射，这与CT或CAT扫描以及PET扫描不同。磁共振成像是一种医学上的应用的核磁共振（NMR）。NMR也可用于其他NMR应用（例如NMR光谱）中的成像。

虽然现在在大多数医学环境中都可以很好地控制X射线的危害，但MRI扫描仍可能比CT扫描更好。MRI在医院和诊所中广泛用于医疗诊断，疾病分期和随访，而无需将身体暴露于放射线下。与CT相比，MRI可能会产生不同的信息。风险和不适可能与MRI扫描有关。与CT扫描相比，MRI扫描通常需要更长的时间并且声音更大，并且通常需要对象进入狭窄的封闭管中。此外，体内装有某些医疗植入物或其他不可移动金属的人可能无法安全地进行MRI检查。

MRI最初称为NMRI（核磁共振成像），但为了避免负关联而放弃了“核”。[1]当置于外部磁场中时，某些原子核能够吸收和发射射频能量。在临床和研究MRI中，氢原子最常用于生成可检测到的射频信号，该信号被靠近要检查的解剖结构的天线接收。氢原子在人和其他生物有机体中自然丰富，尤其是在水和脂肪中。由于这个原因，大多数MRI扫描本质上都绘制了体内水和脂肪的位置图。无线电波脉冲激发核自旋能量跃迁和磁场梯度将信号定位在空间中。通过改变脉冲序列的参数，可以基于组织中氢原子的弛豫特性在组织之间产生不同的对比度。

image segmentation

图像分割为一个分区的过程的数字图像分成多个段（集的像素，也被称为图像对象）。分割的目的是将图像的表示简化和/或更改为更有意义且更易于分析的图像。[1] [2]图像分割通常用于在图像中定位对象和边界（线，曲线等）。更准确地说，图像分割是为图像中的每个像素分配标签，以使具有相同标签的像素共享某些特征的过程。

图像分割的结果是一组集体覆盖整个图像的片段，或者是从图像中提取的轮廓集（请参见边缘检测）。区域中的每个像素在某些特征或计算的属性（例如颜色，强度或纹理）方面都相似。相邻区域在相同特征方面存在显着差异。[1] 当应用于医学成像中典型的一叠图像时，图像分割后得到的轮廓可借助诸如Marching cubes之类的插值算法用于创建3D重建。

这篇文章要解决的问题是：由于利用MRI数据进行训练的过程中需要进行手动的标注数据，因此作者希望仅仅利用一个区域标注的数据来生成其他未标注的数据和标签。

$\large $$ \tau_{s}^{(i)}(x)=x \circ \phi^{(i)}, \quad \phi=g_{\theta_{s}}\left(x, y^{(i)}\right) $$$

$\large $$ \tau_{a}^{(i)}(x)=x+\psi^{(i)}, \quad \psi^{(i)}=h_{\theta_{\alpha}}\left(x, y^{(i)} \circ \phi^{-1}(i)\right) $$$

其中的x 就是带标签的MRI原始数据， y就是未被标注的MRI数据。 $\large $\phi$$ 是Spatial deformation function，主要是进行空间转换， $\large $\psi^{(i)}$$ 是per-voxel volume 的计算，也就是对区域的灰度计算的函数。

$\large $\tau_{s}^{(i)}(x)$$ 形式化表述为：x 经过了Spatial transformation。

$\large $\tau_{a}^{(i)}(x)$$ 形式化表述为：X 经过了appearance transformation。

通俗的理解就是：Spatial transformation 就是对空间的变换， appearance transformation：是对像素灰度的变换。当然这里面的变换都是在三维的。

下面是整个的模型架构图：

最后整个的loss:

$\large ${\mathcal{L}_{\alpha}\left(x, y^{(i)}, \phi^{(i)}, \phi^{-1(i)}, \psi^{(i)}, c_{\alpha}\right)}{=\mathcal{L}_{s i m}\left(\left(x+\psi^{(i)}\right) \circ \phi^{(i)}, y^{(i)}\right)+\lambda_{\alpha} \mathcal{L}_{s m o o t h}\left(c_{\alpha}, \psi^{(i)}\right)}$$

其中第一项： $\large $\mathcal{L}_{\operatorname{sim}}\left(\left(x+\psi^{(i)}\right) \circ \phi^{(i)}, y^{(i)}\right)$$ 表示的是x经过变换后和y(未标注的)的相似度的损失。

注意：这里面的spatial transformation 和 appearance transformation 都是x和y共同训练所得到的。因此x 变换肯定接近于y的结构。

第二项： $\large $\mathcal{L}_{s m o o t h}\left(c_{\alpha}, \psi\right)=\left(1-c_{\alpha}\right) \nabla \psi$$ 其中的 $\large c_a$ 是带标注的二值图像，一旦图片确定，这个是一个确定值，因此我们需要最小化 $\large $\nabla \psi$$ ，这个表现为图像在变化的过程之中要保持平滑，避免图像的剧烈变化。