论文阅读——Attention U-Net: Learning Where to Look for the Pancreas

2023-12-26 14:30

本文主要是介绍论文阅读——Attention U-Net: Learning Where to Look for the Pancreas,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文阅读之Attention UNet
将注意力机制引入到UNet辅助进行医学图像分割

摘要

本文创新之处在于提出了Attention Gate注意门用于学习不同形状/大小的目标。通过注意门可以有选择性的学习输入图像中相互关联的区域,抑制不相关区域的显著性,这就避免在网络搭建过程中引入额外人为的监督。

另一方面注意门(AGs)可以作为一种即插即用的模块引入各种网络(如UNet)从而提升模型的敏感度和精度。


本文将Attention UNet在两个大型的腹腔CT数据集上进行了多类别分割测试。






# Section I Introduction




由于对医学图像进行手动标注等十分费时费力,因此自动化的医学图像分割一直是医学图像分析领域的热门研究内容。



在医学图像分割领域,FCN和UNet是两大主流框架;除此之外基于级联的网络也有研究人员深入研究,但容易造成冗余,十分消耗算力。



因此本文提出了基于注意门(AGs)的Attention UNet用来自主学习图像显著性特征,在测试时AGs会隐式生成一些推荐区域,高亮出显著性区域,除此之外AG的引入并没有额外增加太多的计算成本。



AG通过抑制不相关区域的激活值从而提升模型的敏感度和精度,这种注意力机制常见于NLP、自适应的特征聚类等。
本文将AG引入UNet网络用于腹部胰腺CT图像的分割。





# Section II Related work




Attention Gates:主要用于NLP、机器翻译、图像分类等领域。注意力机制可分为两类:硬注意力和软注意力。
Hard Attention:借助于迭代推荐区域,不断裁剪
Soft Attention:基于概率统计,利用反向传播完成,无需蒙特克罗采样。比如像SE-Net中的channel-wise attention以及self-attention mechanism.



本文的工作总结如下:
本文提出了基于自注意力门的Attention UNet用于完成分割网络的密集预测任务。




(1)通过设定注意力系数可以更加关注与局部区域




(2)本文首次实现了将软注意力机制应用到前馈卷积神经网络中用于医学图像分析任务,可用于替代硬注意力用于图像分类、器官定位等任务



(3)这种自注意力门有效地扩展了UNet系列架构,进一步提升了UNet的分割精度。



# Section III Methodology




FCN



FCN
卷积神经网络通过提取高维图像表征从而可以将每一个像素点按照其语义特征进行分类。



主要得益于:




(1)使用SGD随机梯度下降优化方法来学习图像特征




(2)filter的权值在所有像素点均是共享的




(3)卷积运算可以很好的学习医学图像的结构信息




一些经典框架如FCN,UNet,DeepMedic在医学图像分析任务(心室分割、脑肿瘤分割、腹部CT等)都取得了较好的性能及鲁棒性。
卷积层通过逐层处理局部信息提取逐渐高维的特征表述,通过高维语义特征完成像素点的分类任务。在这一连续过程中,网络通过从一定感受野提取到的特征完成预测,每一层输入会经过线性变换+非线性激活获得每一层的输出。随后通过交叉熵损失、SGD等优化损失函数进行学习。




Attention Gates:





在标准CNN网络中为了获得各种感受野不同层次的特征,每一层的采样网格逐渐减少,这样就可以提取从细粒度的空间特征到粗粒度的语义特征。但由于一些较小物体形状差异等使得假阳性分类错误率居高不下,为了解决这一问题,一些现有的框架依赖于额外的模型定位出特定位置有选择的进行分割,本文通过Attention Gate实现同样的功能。






AG会逐层抑制不相关背景区域的响应,而无需裁剪出ROI区域。
在AG中的关键参数是注意力系数alpha,它会识别出图像的显著区域,只保留对分割任务有用的特征响应。






即AG的输出是输入特征和注意力系数做element-wise multiplication的结果。
门控向量可以认为包含了上下文的语义信息,通过gating vector门控向量决定每个像素的重要程度,从而定位出施加注意力的区域,抑制不相关区域的特征响应。
具体计算如下:

在这里插入图片描述
首先输入经过1x1conv线性变换转换到特定维度,完成X与G在每一点的相加,随后经过激活函数得到激活值,激活值再变换为标量经过sigmoid激活得到最终响应值。
为什么用sigmoid而不用softmax?是为了训练时有更好的收敛性,而softmax输出一般比较稀疏。
运算后得到的是每一层基于空间的注意力结果而不是全局的注意力图谱,因此AG使用在skip connection级联前用于聚合多尺度特征信息的。
在这里插入图片描述
AGs in UNet:

接下来讲如何在UNet中引入AG:在级联前使用AG,因此将skip connection中不相关信息以及噪声的激活响应抑制,只凸显相关信息的激活值。
而第一层skip connection中也没有使用AG,因为这一层并不表示高维信息的输入,在中间层做skip connection时使用AG,这样确保不同尺度的注意力单元能够借助更大范围内的相关性信息,而不仅仅依赖于局部信息进行密集预测。
在这里插入图片描述
Section IV Experiments
AG的好处就是可以移植到任意网络中进行应用,本文将AG用于UNet提出Attention UNet网络,用于腹部胰腺CT图像分割任务。这一任务的特殊之处在于,由于胰腺位置、形状的多变性使得边缘难以准确刻画。
Dataset:CT-150包含150张胃癌患者的腹部CT扫描图像;CT-82包含82张经对比度增强后的3D CT扫描图像
实验细节:
optimizer:Adam
data-agmentation:filp,random crop
分割结果:可视化了不同epoch中的attention map,详情见Fig4,可以看到最初对大部分区域施加一样的注意力,但随着训练的进行,注意力逐渐聚焦于更加精细的局部区域。
最终的分割性能对比见Table1-3.
在这里插入图片描述在这里插入图片描述在这里插入图片描述Section V Conclusion

本文将自注意力模块用于医学图像分割,避免使用额外的网络辅助定位物体进行分割。而且对不同尺寸的组织、器官的定位能力都很出色未来还将探索更细粒度的输入,减少额外启发信息的加入。

这篇关于论文阅读——Attention U-Net: Learning Where to Look for the Pancreas的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/539774

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

poj 1258 Agri-Net(最小生成树模板代码)

感觉用这题来当模板更适合。 题意就是给你邻接矩阵求最小生成树啦。~ prim代码:效率很高。172k...0ms。 #include<stdio.h>#include<algorithm>using namespace std;const int MaxN = 101;const int INF = 0x3f3f3f3f;int g[MaxN][MaxN];int n

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

2、PF-Net点云补全

2、PF-Net 点云补全 PF-Net论文链接:PF-Net PF-Net (Point Fractal Network for 3D Point Cloud Completion)是一种专门为三维点云补全设计的深度学习模型。点云补全实际上和图片补全是一个逻辑,都是采用GAN模型的思想来进行补全,在图片补全中,将部分像素点删除并且标记,然后卷积特征提取预测、判别器判别,来训练模型,生成的像

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

什么是 Flash Attention

Flash Attention 是 由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中 提出的, 论文可以从 https://arxiv.org/abs/2205.14135 页面下载,点击 View PDF 就可以下载。 下面我

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super