MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model 论文阅读

本文主要是介绍MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model 论文阅读，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文地址:[2211.00611] MedSegDiff: Medical Image Segmentation with Diffusion Probabilistic Model (arxiv.org)

代码:GitHub - KidsWithTokens/MedSegDiff: Medical Image Segmentation with Diffusion Model

摘要。扩散概率模型(Diffusion probabilistic model, DPM)是近年来计算机视觉研究的热点之一。它在Imagen、Latent Diffusion Models和Stable Diffusion等图像生成应用中表现出了令人印象深刻的生成能力，引起了社区的广泛讨论。最近的许多研究还发现，它在许多其他视觉任务中也很有用，比如图像去模糊、超分辨率和异常检测。受DPM成功的启发，我们提出了第一个基于DPM的一般医学图像分割模型，我们将其命名为MedSegDiff。为了增强DPM在医学图像分割中的分步区域注意力，我们提出了动态条件编码，该编码为每个采样步建立状态自适应条件。我们进一步提出Feature Frequency Parser (FF-Parser)来消除高频噪声分量在此过程中的负面影响。我们在三种不同图像模式的医学分割任务上验证了MedSegDiff，即眼底图像的视杯分割、MRI图像的脑肿瘤分割和超声图像的甲状腺结节分割。实验结果表明，MedSegDiff算法在性能上明显优于SOTA算法，表明了该模型的泛化性和有效性。我们的代码发布在https://github.com/WuJunde/MedSegDiff。

1 简介

医学图像分割是将医学图像划分为有意义的区域的过程。分割是许多医学图像分析应用（例如诊断、手术规划和图像引导手术）中的基本步骤。这很重要，因为它可以让医生和其他医疗专业人员更好地了解他们正在查看的内容。它还可以更轻松地比较图像并跟踪随时间的变化。近年来，人们对自动医学图像分割方法越来越感兴趣。这些方法有可能减少手动分割所需的时间和精力，并提高结果的一致性和准确性。随着深度学习技术的发展，越来越多的研究成功地将基于神经网络（NN）的模型应用于医学图像分割任务，从流行的卷积神经网络（CNN）[11]到最近的视觉变换器（ViT） [3,22,12,28]。

最近，扩散概率模型（DPM）[9]作为一类强大的生成模型[27]而受到欢迎，它能够生成具有高多样性和合成质量的图像。最近的大型扩散模型，例如 DALLE2[17]、Imagen[19] 和 Stable Diffusion[18] 已显示出令人难以置信的生成能力。扩散模型最初应用于没有绝对真相的领域。然而，最近的研究表明，它对于地面实况唯一的问题也有效，例如超分辨率[20]和去模糊[24]。

受到 DPM 最近成功的启发，我们为医学图像分割任务设计了一种独特的基于 DPM 的分割模型。据我们所知，我们是第一个在不同图像模态的一般医学图像分割背景下提出基于DPM的模型。我们注意到，在医学图像分割任务中，病变/器官通常是不明确的并且难以与背景区分开。在这种情况下，自适应校准过程是获得精细结果的关键。遵循这种思维方式，我们提出基于普通 DPM 的动态条件编码来设计所提出的模型，名为 MedSegDiff。请注意，在迭代采样过程中，MedSegDiff 以图像先验条件每个步骤，以便从中学习分割图。为了实现自适应区域注意，我们将当前步骤的分割图集成到每一步的图像先验编码中。具体实现是在特征层面上以多尺度的方式将当前步骤的分割掩模与先验图像进行融合。这样，损坏的当前步掩模有助于动态增强条件特征，从而提高重建精度。为了消除此过程中损坏的给定掩模中的高频噪声，我们进一步提出特征频率解析器（FF-Parser）来过滤傅立叶空间中的特征。每个跳跃连接路径上都采用 FF-Parser 以进行多尺度集成。我们在三种不同的医学分割任务（视杯分割、脑肿瘤分割和甲状腺结节分割）上验证了 MedSegDiff。这些任务的图像有不同的模态，分别是眼底图像、脑部CT图像、超声图像。 MedSegDiff 在不同模式的所有三个任务上都优于之前的 SOTA，这表明了所提出方法的泛化性和有效性。简而言之，本文的贡献是： – 首次提出基于 DPM 的通用医学图像分割模型。

– 提出了动态条件编码策略以进行逐步关注。

– 提出FF-Parser来消除高频成分的负面影响。

– 在具有不同图像模式的三种不同医学分割任务上的 SOTA 性能。

2 方法

我们根据[9]中提到的扩散模型设计模型。扩散模型是由两个阶段组成的生成模型，即前向扩散阶段和反向扩散阶段。在前向过程中，分割标签x0通过一系列步骤T逐渐添加高斯噪声。在反向过程中，训练神经网络通过反转噪声过程来恢复原始数据，可以表示为：