【论文笔记】基于深度学习的端到端无监督配准模型——变形图像配准网络（Deformable Image Registration Network, DIRNet）

本文主要是介绍【论文笔记】基于深度学习的端到端无监督配准模型——变形图像配准网络（Deformable Image Registration Network, DIRNet），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本文是论文 End-to-End Unsupervised Deformable Image Registration with a Convolutional Neural Network 的阅读笔记。

文章提出了一种端到端的无监督配准模型——变形图像配准网络（Deformable Image Registration Network, DIRNet），并在手写数字数据集 MNIST 和心脏电影 MR 数据集 SCD 上做了实验。这个模型包括三个部分：一个由 CNN 实现的回归器、空间变换网络、重采样器。该模型是第一个基于深度学习的无监督端对端的图像配准模型。

一、网络结构

DIRNet 由回归器、空间变换器和重采样器三部分组成。如上图所示，回归器以 fixed image 和 moving image 的图像块作为输入，其输出的形变参数作为空间变换器的输入，空间变换器产生一个形变场，然后输入到重采样器中，重采样器根据形变场对 moving image 进行变换，得到配准之后的图像。整个网络通过通过计算 fixed image 和 warped moving image 之间的相似性作为损失函数来更新网络的参数。

1. 回归器

回归器的输入是 fixed image 和 moving image 中对应的图像块（patch），它利用 CNN 预测一个局部的形变参数。其网络结构具体是：4 个 $3\times3$ 的卷积层，采用 0 填充，并且使用 $2\times2$ 的下采样层，下采样层具体使用的是平均池化操作，然后是一个 $1\times1$ 的卷积层作为全连接层。每一层中都使用了批正则化，除最后一个卷积层外每个卷积层后都跟着一个指数线性单元（ELU）作为激活函数。

2. 空间变换器

空间变换器的输入是回归器预测的形变参数，其输出是一个位移向量场（形变场），具体的，空间转换器会根据薄板样条产生一个形变场，这种更适合于预测全局的形变场，即输入是整幅图像；当输入是图像块时，预测的是局部的形变场，这时 B 样表转换则更适合。

3. 重采样器

重采样器的输入是一个形变场，其输出是变形后的 moving image。

模型的优化器采用的是随机梯度下降优化器，图像之间的相似度损失采用的是归一化的互相关。

二、实验结果

1. MNIST 数据集

在处理 MNIST 数据集时，由于有 0~9 十种不同的手写数字，所以是对每一类的图像分别进行训练的，并且在训练时随机选择一个图片作为 fixed image。

上图是对 MNIST 数据集进行训练的结果，第一行是每一类图像取平均值之后得到的，第二行是 fixed image，第三行是配准之后的结果。

2. SCD 数据集

为了评估不同的网络设置对效果的影响，在 SCD 数据集上进行训练时，以第二部分网络结构中提到的设置作为基准，分别对以下内容做了实验：

为了评估不同的下采样方法的影响，DIRNet-A1 模型使用的是最大池化操作，DIRNet-A2 模型使用的是步长为 2 的卷积操作。

为了评估不同的空间变换器的影响，DIRNet-B1 使用的是二次 B 样条变换器，DIRNet-B2 使用的是薄板样条变换器。

为了评估不同大小的接收野（即patch大小）的影响，DIRNet-C1 使用的是有重叠的图像块，该图像块大小与B样条控制点的捕获范围一致，这是通过在最终池层前后添加额外的 $3\times3$ 的卷积层来实现的；DIRNet-C2 通过将最后一层 $1\times1$ 的卷积层替换为 $3\times3$ 的卷积层，然后是一个下采样层、两个 1024 节点的完全连接层和一个 $16\times16$ 的二维控制点的最终输出层来分析每个控制点的全图像切片。

上图是根据上述不同的实验设置得到的训练结果，其中每一行分别表示配准之前的损失、SimpleElastix 模型训练的损失以及不同设置的 DIRNet 的损失。 $95^{th} SD$ 是 surface distance（表面距离）的缩写， $M A D$ 是 mean absolute surface distance（平均绝对表面距离的缩写）。在所有的模型中，B2 训练时收敛的较慢，但是效果比基准网络要好，C1 的效果是最好的。