论文泛读: TransNeXt: Robust Foveal Visual Perception for Vision Transformers

本文主要是介绍论文泛读: TransNeXt: Robust Foveal Visual Perception for Vision Transformers，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

TransNeXt: Robust Foveal Visual Perception for Vision Transformers
- 论文中的知识补充
- - 非QKV注意力变体
  - 仿生视觉建模
- 动机
- - 现状
  - 问题
- 贡献
- 方法

TransNeXt: Robust Foveal Visual Perception for Vision Transformers

论文链接: https://openaccess.thecvf.com/content/CVPR2024/html/Shi_TransNeXt_Robust_Foveal_Visual_Perception_for_Vision_Transformers_CVPR_2024_paper.html
代码链接: https://github.com/DaiShiResearch/TransNeXt

论文中的知识补充

主要包含没有了解的论文中提到的知识(相关工作)

非QKV注意力变体

在自注意力中，动态亲和力矩阵是通过query和key之间的交互生成的。一些研究探索了使用可学习token作为原始query或key的替代来生成动态亲和力矩阵。如Involution和VOLO使用可学习标记来替换原始key，从而生成与query完全相关的动态关联矩阵。相比之下，QnA利用可学习的token来替换query,从而产生仅与key相关的动态关联矩阵。

仿生视觉建模

人类视觉对视觉焦点周围的特征表现出比较高的敏锐度，而对远处的特征表现出较低的敏锐度。这种仿生设计已集成到多种机器视觉模型中。具体说，Focal Transformer基于这个概念设计了视觉注意力，但它的操作基于窗口分区。位于窗口边缘的Token无法获得中心凹视觉，其窗口方式无法模拟人眼球的连续运动。

动机

现状

由于残差连接的深度退化效应，许多依赖堆叠层进行信息交互的高效Vision Transformers模型往往无法形成足够的信息混合，导致不自然的视觉感知。
ViT模型包含两个关键组件: 自注意力层(token混合器)和MLP层(通道混合器)。
自注意力机制通过query和key之间的相似度计算动态生成亲和力矩阵，在特征提取中发挥着至关重要的作用。这种全局信息聚合方法展示了显著的特征提取潜力，没有像卷积那样的归纳偏差，而且可以构建强大的数据驱动模型。
视觉Transformer的Transformer编码器设计最初是为语言建模而开发的，在下游计算机视觉任务重表现出固有的局限性。即自注意力中全局亲和力矩阵的计算由其二次复杂度和高内存消耗而提出了挑战，这限制了其在高分辨率图像特征上的应用。
为解决上面的问题，之前的研究中提出了大量的稀疏注意力机制，包含局部注意力和、对注意力的key和value进行空间下采样(如池化、网络采样)，但是普遍存在局限性。最近的研究将空间下采样注意力和局部注意力交替叠加，得到了不错的效果。
最近的研究表明具有残差块的深度网络类似于较浅网络的集合，这表明通过堆叠块实现的跨层信息交换可能不回像预期的那样有效。

问题

由于深度退化效应，许多高效的ViT模型无法通过堆叠形成足够的信息混合。即使有很深的层堆叠，其窗口划分的痕迹也总是形成不自然的伪影。

贡献

为了解决Vision Transformers无法形成足够的信息混合问题，提出了聚合注意力，一种基于仿生设计的token融合器，它模拟生物中心凹视觉和连接眼球运动，同时使特征图上的每个token都具有全局感知。
结合了与传统query和key交互的可学习token, 这进一步使亲和力矩阵的生成多样化，从而有效地避免深度退化并实现自然的视觉感知。提出聚合注意力，这是Pixel-focused Attention的增强版本，进一步将两类非QKV注意力机制聚合为像素聚焦注意力。
提出了Convolutional GLU，一种通道融合器，弥补了GLU和SE机制之间的差距，使每个token能够基于其最近邻图像特征进行通道注意，增强局部建模能力和模型鲁棒性。提出了聚合注意力机制Convolutional GLU结合起来的新视觉backbone——TransNeXt。

方法

引入Pixel-focused Attention, 它采用双路径设计。在一条路径中，每个query对最近邻也正进行细粒度关注，而另一条中，每个query对空间下采样特征进行粗粒度关注，从而实现全局感知。这种方法在每个像素的基础上运行，有效地模拟眼球的连续运动。
将query embedding和positional attention合并到Pixel-focused Attention中，从而提出了Aggregated Pixel-focused Attention，缩写为Aggregated Attention。它可以进一步使亲和力矩阵的生成多样化，而不仅仅是依赖query和key之间的相似性，从而实现了单个注意力层内多个注意力机制的聚合。
重新评估了视觉Transformer中通道融合器的设计要求，并提出了Convolutional GLU的新型通道融合器。它更适合图像任务，并集成基于局部特征的通道注意力以增强模型的鲁棒性。
引入TransNeXt, 一个分层视觉主干网络，它将Aggregated Attention作为token融合器。将Convolutional GLU作为通道融合器。

Pixel-focused Attention和Aggregated Attention的对比:
在这里插入图片描述