[深度学习论文笔记]Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement and Gated Fusion

本文主要是介绍[深度学习论文笔记]Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement and Gated Fusion，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement and Gated Fusion
基于特征分离和门控融合的鲁棒多模式脑肿瘤分割

Published: Feb 2020
MICCAI 2019
论文：https://arxiv.org/pdf/2002.09708

摘要：
准确的医学图像分割通常需要有效地学习多模态数据中的互补信息。然而，在临床实践中，经常遇到成像模式缺失的问题。作者解决了这一挑战，并提出了一个新的多模态分割框架，它是鲁棒的缺席成像模式。网络使用特征解缠将输入模态分解为特定于每个模态的外观编码和模态不变的内容编码，后者吸收多模态信息用于分割任务。利用增强的模态不变性，将来自每个模态的解缠内容编码融合为共享表示，从而获得对缺失数据的鲁棒性。融合是通过一种基于学习的策略实现的，该策略将不同模式在不同位置的贡献融合。作者用BRATS2015挑战数据集验证了方法在重要而具有挑战性的多模式脑肿瘤分割任务上的有效性。由于具有与先进的全模态方法的竞争性能，作者的方法在各种缺失模态(ies)情况下实现了出色的鲁棒性，在整个肿瘤分割上，Dice平均超过先进方法16%。

问题动机：
脑肿瘤的准确分割对于定量评估肿瘤进展和制定术前治疗计划至关重要。肿瘤诱导的组织变化的测量依赖于多种磁共振成像(MRI)模式提供的互补生物学信息，即FLAIR、T1、T1对比增强(T1c)和T2。对这些多模态图像进行联合学习有助于提高分割精度。大量的多模态方法已经发展成为自动脑肿瘤分割的方法，通过连接多个MRI模态作为输入，或融合潜伏空间中每个模态的更高层次特征。然而，由于各种扫描方案和不同的患者情况，在现实世界中并不总是能够保证所需模式的全套可用性。在这方面，在推理过程中对一个或多个缺失模态的鲁棒性对于广泛适用的多模态学习方法是必不可少的。

思路来源：
一个典型的解决方案是将缺失的模态与可用的模态合成。这种方法需要从所有可能的模态组合中为每个模态建立一个特定的模型，这是很复杂的。另外，Havaei等人提出了异模态图像分割(HeMIS)，通过计算单个特征之间的统计数据(即平均值和方差)来融合多模态信息。该方法易于扩展到各种数据缺失的情况，因为潜在空间的融合适应任何数量的模式。此外，Chartsias等人[Multimodal mr synthesis via modality-invariant latent representation]和Van Tulder等人[Learning cross-modality representations from multimodal images]通过最小化不同模态特征的L1或L2距离来增强潜在表示的模态不变性。然而，不同的MRI模式的强度分布不同，具有模式特异性的外观，因此简单地使不同模式的特征在L1-或L2Norm下接近，可能无法获得理想的模式不变量的最佳表达。相反，并行工作[Brain tumor segmentation on mri with missing modalities]使用对抗性学习来确保模型在缺失模态的情况下与在完整模态的情况下生成相似的特征。
为了有效地提取传递肿瘤本质内容的模态不变表示，学习消除模态特异性信息可能会有所帮助。这可以通过将输入分解到可解释因子的潜在空间来实现。在医学成像中，解缠表示最近已经证明了对肝病变分级[Improving cnn training using disentanglement for liver lesion classification in ct]、心肌分割[Factorised spatial representation learning: application in semisupervised myocardial segmentation]和多模态变形配准[Unsupervised deformable registration for multi-modal images via disentangled representations]的有效性。然而，这些工作适用于单模态或双模态数据。据我们所知，在任意模态数下，特征解缠用于鲁棒多模态分割的潜力尚未被开发。

成果：
作者提出了一种新的多模态学习框架，该框架具有特征解缠和门控特征融合，对缺失模态，具有鲁棒性的网络将多模态特性分解为模态特定的外观编码和模态不变的内容编码。将每个模态的内容代码融合为一个包含判别信息的共享表示，用于分割任务。为了增强其模态不变性，共享表示需要在给定相应外观编码的情况下重构任何模态，甚至在缺少某些模态的情况下。此外，作者采用一种新的门控特征融合策略来自动学习权值映射，并在不同位置对不同模式的贡献进行门控。用BRATS挑战验证了提出的方法在多模态脑肿瘤分割任务上的有效性。方法对各种缺失模态的情况具有高度的鲁棒性，具有与先进的全模态方法竞争的性能。

主要方法:
图1是作者提出的多模态分割框架的概述。首先引入特征解缠，将多模态输入编码到模态特定的外观编码和模式不变的内容编码。接下来，作者提出了一种基于学习的门控策略，将互补的分离内容编码从单个模态集成到更具表达性的融合表示中，并在最后描述了详细的学习过程和网络架构。
在这里插入图片描述
图1、提出的多模态分割框架。左:多模态学习的特征解缠。右:门控特征融合模块的详细结构。

鲁棒多模态学习的特征解缠
       用{x1，…， xM}，其中M = 4在脑肿瘤分割任务中。每个模态xi分别输入到其自身的外观编码Eai和内容编码Eci，相应得到其解纠缠的外观编码ai= Eai(xi)和内容编码ci= Eci(xi)。对于外观编码，将其设为一个8位向量，假设其先验分布为一个中心各向同性高斯N(0,I)。计算KullbackLeibler (KL)散度是为了使p(ai)的估计分布尽可能接近正态分布。这样，得到LKL=PM i=1E[DKL(p(ai)||N(0, i))]的损耗，用于训练外观编码器{Ec i}。（公式建议对照论文研究）
       接下来，对于内容编码{ci}，将它们融合成一个完整的表示z=F({ci})，表示肿瘤的基本语义内容。{ci}期望在蒸发不同图像形式的程式化外观后获得形态不变。F是一种自动学习的融合策略，将在2.2节中详细阐述。从成功解缠的角度来看，获得的内容表示z应该能够在给定某种形态的任何外观编码的情况下重新呈现为原始图像。为了增强这种重建能力，通过引入一组特定于模态的解码器{Dr i}来发展伪周期一致性损失，如下所示:
在这里插入图片描述
       其中使用L1-Norm来减轻生成的图像变得模糊。通过伯努利指标δi，目标是赋予内容表示z对缺失数据额外的鲁棒性，即，即使在融合内容编码时没有ci，仍然产生一个高质量的重构ˆxi= Dr i(z, ai)。通过随机设置δi到 0来实现潜在空间的模态退出，从而在当前的学习迭代中关闭内容编码。
       对多模态数据进行解缠处理，剔除模态特定的外观特征的影响，同时从任意组合的多模态数据中收集互补的内容信息，从而实现准确、稳健的脑肿瘤分割。构建了一个分割解码器ˆY =Ds(z)，该解码器基于导出的具有代表性和鲁棒性的z学习判别模式。共同使用dice损失和加权交叉熵损失来处理多类分割中不平衡的对象大小:
在这里插入图片描述
       yj：第k类的体素j的ground truth
       qj：概率预测
       y^k: one-hot 编码输出
直接结合这两种分割损失在实践中效果很好，不需要特别调整它们之间的平衡权值。处理了交叉熵损失中的类不平衡。

学习门控的多模态内容融合
       在多模态学习框架中，有效地融合来自不同模式的互补信息是至关重要的。这也适用于我们的场景，尽管解开了内容编码并对丢失的数据加强了健壮性。事实上，特征融合在一些异常的推理情况下起着更重要的作用，例如某些模态不可用。如果不仔细考虑，融合后的表示会受到来自空白输入信道的噪声信息的影响，模型的性能将不可避免地下降。现有的方法使用平均或max操作来处理这个问题。然而，平均操作使得每个模态的贡献相等，这可能会忽视某个模态的高信息量特征。相反，max操作只保留最大的响应，而忽略其他所有响应的信息。
       代替硬编码融合操作，作者提出自动学习映射函数来集成多模态特征。一个模态的贡献权重在不同的地点不一定相同，因为一个模态包含了不同种类区域的不同数量的信息。例如，T1c表现为肿瘤增强的清晰结构，而浮肿部位则没有。在这方面，作者动态学习一个权重映射，以门从每个内容编码ci的信息规模，以体素逐体素的灵活性。然后，融合个体模态的门控内容，形成整合表征。
       具体来说，解开的内容编码{c1，…， cM}从每个模态连接，然后输入到一个卷积层，输出通道为M。在sigmoid激活下，得到了门权矩阵G，它可以被分解成M个独立的映射{g1，…， gM}，每种形态一个。接下来，通过元素级乘法将内容编码重新加权为(属于ci= ci·gix)。这些输出{属于ci}被连接并转发到一个瓶颈1×1卷积，随后是Leaky ReLU激活。如式(1)所示，为了增强模型对缺失数据的稳健性，在训练过程中，随机设置一些内容代码(s)为0，编码为{δi}。总的来说，得到了融合内容编码z = F(δic1，…， δMcM)，它具有与单个代码ci相同的特征图大小和通道。
       值得注意的是，基于学习的门策略对于多模态特征融合是通用的，通过适当地聚合具有数据相关权值的互补内容，优于现有的平均或最大硬编码方式。在作者的框架中，将其与解缠过程联合使用，形成了一种精确和鲁棒的端到端多模态学习方法。

学习过程与网络架构
       学习整个框架，总体目标函数为: 在这里插入图片描述
       其中λ， β是加权每个分量重要性的权衡参数，在实验中两者都被经验设置为0.1。使用初始学习率为1e−4的Adam优化器，在训练过程中逐步乘以。密集型组件与模型只允许设置批大小为1使用一个Nvidia Xp GPU。
       编码器{Ec i}和解码器Dsfor分割任务采用3D U-Net架构，除了每个输入模态使用一个独立的编码器。在每个降采样阶段，通过基于学习的门策略融合单个模态的内容特征，降低ci的δi到为零的概率为0.5。然后将每个融合特征跳接到相应的上采样阶段。每个Ec由4个剩余的块组成，这些块具有实例规范化和Leaky ReLU激活。在每个块之间，图像维数递减2，特征通道加倍。所有卷积的内核大小为3×3×3，初始通道号为16。Ds也有4个残块，类似于Eci，除了feature map大小被上采样2，通道数减半后每个阶段。对于图像重建，通常遵循[Multimodal unsupervised image-to-image translation]中的实践。具体来说，每个Eai包含5个卷积层，然后是一个全局平均池和一个完全连接层，以获得外观编码。每个Dri 使用4个残差块加上4个上采样和卷积层生成ˆxi。

实验与结果：
数据集和预处理：
用2015年脑瘤分割挑战(BRATS)数据集验证了提出的方法。训练集由274个案例组成，提供了ground truth。测试集包含110个案例，由组织者和评估人员持有参考标签可以通过在线系统获得。每个病例包含四种MRI模式:FLAIR、T1、T1c、T2。挑战的任务是分割三个肿瘤类别，即WT，ET和TC。该数据集经过预处理，由组织者进行颅骨剥离、共注册和重采样到各向同性1mm3分辨率。在脑组织区域内，进一步将每个体积的强度归一化为零均值和单位方差。在训练过程中随机裁剪一个大小为80×80×80的patch作为网络输入。

鲁棒性脑肿瘤分割性能
作者首先将方法与BRATS 2015全模式测试集上的最先进的方法进行比较。结果直接从在线评价系统中获得，并在没有后处理的情况下进行比较。在表1中，作者的方法获得了核心和增强肿瘤的最高的Dice分数，其他评价与排名第一的方法OM-Net[One-pass multi-task convolutional neural networks for efficient brain tumor segmentation]具有很强的竞争力，验证了分割骨干的有效性。
在这里插入图片描述
表1：BRATS 2015测试集对脑肿瘤分割性能的比较。这些值是通过向在线评估系统提交结果而获得的。

然后作者评估了方法对缺失模态推理的鲁棒性。模态i的缺失是通过将δi设为零来实现的。为了与HeMIS方法和使用多层感知器(MLP)[ Hetero-modal image segmentation]的图像合成方法进行直接比较，作者使用了与[Hetero-modal image segmentation]中相同的BRATS训练集数据分割，并直接引用了他们的论文结果。在表2中，作者的方法明显优于HeMIS和使用 MLP方法，适用于所有15种不可用模式的可能组合情况和所有3种肿瘤类别。这说明了作者的多模态分割方法具有良好的鲁棒性。从结果来看，FLAIR和T2模式对肿瘤完全分割的信息更丰富，而T1c对准确预测增强肿瘤具有鉴别能力。在图2中显示，随着缺失模态数量的增加，鲁棒模型产生的分割结果只是逐渐退化，而不是遭遇突然的失败。即使是单独使用T1，也可以很好地分割完整的肿瘤和肿瘤核心。
在这里插入图片描述
表2：方法对比HeMIS和使用 MLP在BRATS 2015训练集测试分割上的稳健性比较。dice分数将呈现在每种模式的组合情况下(X)或(−)。

在这里插入图片描述
&nbsp**;分割结果**：整个肿瘤(黄色)，肿瘤核心(红色)，和增强肿瘤(蓝色)。

消融实验:
研究了特征解缠和门控融合的有效性，这是方法的两个关键组成部分。首先建立了一种采用平均融合而不进行特征解缠的基线网络。然后在基线网络中依次加入特征解缠和门控融合。在图3 (a)中，比较了三种网络在Dice得分上的表现，平均了15种输入模式的可能组合情况。特征解缠绕和门控融合都提高了所有肿瘤部分的性能，在大多数情况下获得最高的Dice分数(完整肿瘤、肿瘤核心和增强肿瘤的15种情况中分别有10、13和11种情况)。图3 (b)为FLAIR和T2图像对应的外观码与不同输入方式组合的内容码融合的共享表示相结合的重建结果。即使某些形态缺失了，网络也可以仍然用共享表示重建缺失的形态，表明共享表示z成功地产生了本质的肿瘤内容。
在这里插入图片描述
图3：(a)方法中关键成分的消融研究。(b)不同输入方式组合下FLAIR和T2图像的实例重建。