UACANet: Uncertainty Augmented Context Attention for Polyp Segmentation

本文主要是介绍UACANet: Uncertainty Augmented Context Attention for Polyp Segmentation,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

不确定性增强的上下文注意力用于息肉分割。添加链接描述
继续看不确定性的文章,这里是医学分割,和研究方向有一定的关系。
作者在特征图中考虑到了不确定区域。作者对U-Net进行了修改,(修改的完全看不到u-net的影子了),同时额外添加了encoder和decoder,在每一个预测结构都计算出一个特征图,并传播到下一个模块。有点类似于Cascade PSP的感觉。在每一个预测模块,之前的预测图用于计算前景,背景和不确定区域。然后我们计算特征图每一个像素和特征表示之间的关系。(不理解的话看框架就可以了,本文的框架设计的很巧妙很有意思。)
息肉分割是二分类问题,本文结合了前人ParNet网络的优势,又提出了自己的创新点。作者在本文使用encoder的输出和来自底下的decoder特征去结合高层次语义特征。
在这里插入图片描述
1:三个PAA-e的输出用来融合,输送进PAA-d,和UACA。再经过一个卷积,得到初始的输出图。
2:PAA-e和PAA-d的输出进行concat,输送到UACA,初始的输出图作为上下文引导也输入到UACA。UACA内部结构一会说。
3:UACA的输出经过1x1卷积核原始的输出图进行concat。得到第二个输出图。
4:接着将第二个PAA-e的输出和之前的UACA进行拼接。用于下一个UACA。
5:流程同上。
6:经过三个UACA后,最终的输出经过一个四倍的双线性上采样和sigmoid函数。
总结:backbone的输入到PAA-e编码,然后输送到PAA-d得到初始的特征图作为初始引导图。这样会是UACA更专注于学习除了初始特征图之外的残差特征图帮助连续的UACA专注于边界等不确定的区域而不是确定的区域。
我们使用了BCE loss和IoU loss,损失函数如下所示:
在这里插入图片描述
i表示同一个位置预测图和gt的像素值。y表示gt,yhat表示预测图。

PAA-e和PAA-d
对于语义分割,研究者致力于寻找一个结构可以提取丰富的特征图同时包含高层次语义信息和低层次细节信息。自注意力就是一个很好的方法。Axial attention(轴注意力)在单轴执行非局部操作,作者提出PPA,并行的轴注意力(水平和垂直)用于提取全局依赖和局部表征。如果是串行连接轴注意力需要添加可训练的位置编码,我们不使用,因为位置编码对于小物体用处不大。
使用并行的逐像素相加效果好于concat,input作为两个注意力的输入对最终的贡献相同。并且单一的注意力会导致图像的变形,逐像素相加可以弥补这种伪影。
在这里插入图片描述
U-Net使用低层特征而并没有进行通道缩减,冗余信息会降低最终的表现,为了不丢失细节信息且减少通道维度,我们设计了带有Receptive Field Block的PAA-e。如(a)所示
在这里插入图片描述
(a)的设计类似于PPM,本质上是为了扩大感受野,图中显示的在PAA之前使用的,将生成的结果concat后再与其他backbone的输出concat,输送到decoder中,中间加了PAA,目的是聚合不同层PPA-e的输出。
不确定增强的上下文注意力:
reverse attention可以带来模糊的边界引导而没有边界监督的清晰形状。什么是reverse attention?图片来源
在这里插入图片描述
预测图经过一个softmax,到的一个概率图(0-1之间),假如是前景的照片,用1减去概率图,得到的背景照片,然后与原图相乘,目的是突出背景。
作者发现,边界区域出现时,特征分通常在0.5,即有很大的不确定性。我们假设正常的特征图和反向特征图有等量的边界信息,因为1减去正向的就是反向的。作者提出UACA模块,一个结合不确定区域的注意力机制用来提取丰富的语言特征,并且不需要额外的边界引导。
之前计算的初始特征图作为m,前景mf,背景mb,不确定图mu
在这里插入图片描述
在这里插入图片描述
我们使用最大操作是为了分清三个区域,因为不确定区域已经代表了他们的共同区域。这些区域有大量的冗余信息。
reverse attention类似于CBAM,对特征图进行逐通道相乘。类似于OCR,三个区域的表征向量可以计算为:
在这里插入图片描述
在图片中表示为:
在这里插入图片描述

实验:
backbone:Res2Net
UACANet-S:所有卷积通道为32
UACANet-L:所有卷积通道为256
图像大小:352x352
优化器:Adam
epoch:240
学习率:0.0004

PPA消融实验:

在这里插入图片描述
不确定区域消融实验:
在这里插入图片描述
对比最好的结果:
在这里插入图片描述
可视化:
在这里插入图片描述

这篇关于UACANet: Uncertainty Augmented Context Attention for Polyp Segmentation的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/210514

相关文章

什么是 Flash Attention

Flash Attention 是 由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中 提出的, 论文可以从 https://arxiv.org/abs/2205.14135 页面下载,点击 View PDF 就可以下载。 下面我

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

context:component-scan使用说明!

<!-- 使用annotation 自动注册bean, 并保证@Required、@Autowired的属性被注入 --> <context:component-scan base-package="com.yuanls"/> 在xml配置了这个标签后,spring可以自动去扫描base-pack下面或者子包下面的java文件,如果扫描到有@Component @Controll

React的context学习总结

context是干什么的?为什么会存在这么一个东西? context字面意思是上下文,在react中存在是为了解决深层次组件传值困难的问题 这里涉及到组件的传值问题,大体商说分三总:兄弟间传值(通过父组件),父往子传值(通过props),子往父传(props函数回调),这是基础的传值问题,但是如果组件嵌套的太深,那么传值就变的非常麻烦,为了解决这样的问题才产生了context  这是cont

兔子--The method setLatestEventInfo(Context, CharSequence, CharSequence, PendingIntent) from the type

notification.setLatestEventInfo(context, title, message, pendingIntent);     不建议使用 低于API Level 11版本,也就是Android 2.3.3以下的系统中,setLatestEventInfo()函数是唯一的实现方法。  Intent  intent = new Intent(

时序预测|变分模态分解-双向时域卷积-双向门控单元-注意力机制多变量时间序列预测VMD-BiTCN-BiGRU-Attention

时序预测|变分模态分解-双向时域卷积-双向门控单元-注意力机制多变量时间序列预测VMD-BiTCN-BiGRU-Attention 文章目录 一、基本原理1. 变分模态分解(VMD)2. 双向时域卷积(BiTCN)3. 双向门控单元(BiGRU)4. 注意力机制(Attention)总结流程 二、实验结果三、核心代码四、代码获取五、总结 时序预测|变分模态分解-双向时域卷积

阅读笔记--Guiding Attention in End-to-End Driving Models

作者:Diego Porres1, Yi Xiao1, Gabriel Villalonga1, Alexandre Levy1, Antonio M. L ́ opez1,2 出版时间:arXiv:2405.00242v1 [cs.CV] 30 Apr 2024 这篇论文研究了如何引导基于视觉的端到端自动驾驶模型的注意力,以提高它们的驾驶质量和获得更直观的激活图。 摘 要   介绍

大语言模型的上下文窗口(Context Windows):对人工智能应用的影响

大语言模型(LLMs)极大地提升了人工智能在理解和生成类人文本方面的能力。其中一个影响其效用的基本方面是它们的 “上下文窗口”—— 这个概念直接影响着这些模型接收和生成语言的有效性。我将深入探讨上下文窗口是什么、它们对人工智能应用的影响以及组织在利用大语言模型时的一些考量。 澳鹏在提升大语言模型开发方面处于领先地位,提供一系列对超越当前性能基准至关重要的服务。我们专注于大语言模型创建的复杂细节,

基于 BiLSTM+Attention 实现降雨预测多变量时序分类——明日是否降雨

前言 系列专栏:【深度学习:算法项目实战】✨︎ 涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域,讨论了各种复杂的深度神经网络思想,如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记忆、自然语言处理、深度强化学习、大型语言模型和迁移学习。 降雨预测作为气象学和水文学领域的重要研究课题,‌对于农业、‌城市规划、

Show,Attend and Tell: Neural Image Caption Generation with Visual Attention

简单的翻译阅读了一下 Abstract 受机器翻译和对象检测领域最新工作的启发,我们引入了一种基于注意力的模型,该模型可以自动学习描述图像的内容。我们描述了如何使用标准的反向传播技术,以确定性的方式训练模型,并通过最大化变分下界随机地训练模型。我们还通过可视化展示了模型如何能够自动学习将注视固定在显着对象上,同时在输出序列中生成相应的单词。我们通过三个基准数据集(Flickr9k,Flickr