论文泛读: TransNeXt: Robust Foveal Visual Perception for Vision Transformers

本文主要是介绍论文泛读: TransNeXt: Robust Foveal Visual Perception for Vision Transformers,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • TransNeXt: Robust Foveal Visual Perception for Vision Transformers
    • 论文中的知识补充
      • 非QKV注意力变体
      • 仿生视觉建模
    • 动机
      • 现状
      • 问题
    • 贡献
    • 方法

TransNeXt: Robust Foveal Visual Perception for Vision Transformers

论文链接: https://openaccess.thecvf.com/content/CVPR2024/html/Shi_TransNeXt_Robust_Foveal_Visual_Perception_for_Vision_Transformers_CVPR_2024_paper.html
代码链接: https://github.com/DaiShiResearch/TransNeXt

论文中的知识补充

主要包含没有了解的论文中提到的知识(相关工作)

非QKV注意力变体

在自注意力中,动态亲和力矩阵是通过query和key之间的交互生成的。一些研究探索了使用可学习token作为原始query或key的替代来生成动态亲和力矩阵。如Involution和VOLO使用可学习标记来替换原始key,从而生成与query完全相关的动态关联矩阵。相比之下,QnA利用可学习的token来替换query,从而产生仅与key相关的动态关联矩阵。

仿生视觉建模

人类视觉对视觉焦点周围的特征表现出比较高的敏锐度,而对远处的特征表现出较低的敏锐度。这种仿生设计已集成到多种机器视觉模型中。具体说,Focal Transformer基于这个概念设计了视觉注意力,但它的操作基于窗口分区。位于窗口边缘的Token无法获得中心凹视觉,其窗口方式无法模拟人眼球的连续运动。

动机

现状

  • 由于残差连接的深度退化效应,许多依赖堆叠层进行信息交互的高效Vision Transformers模型往往无法形成足够的信息混合,导致不自然的视觉感知。
  • ViT模型包含两个关键组件: 自注意力层(token混合器)和MLP层(通道混合器)。
  • 自注意力机制通过query和key之间的相似度计算动态生成亲和力矩阵,在特征提取中发挥着至关重要的作用。这种全局信息聚合方法展示了显著的特征提取潜力,没有像卷积那样的归纳偏差,而且可以构建强大的数据驱动模型。
  • 视觉Transformer的Transformer编码器设计最初是为语言建模而开发的,在下游计算机视觉任务重表现出固有的局限性。即自注意力中全局亲和力矩阵的计算由其二次复杂度和高内存消耗而提出了挑战,这限制了其在高分辨率图像特征上的应用。
  • 为解决上面的问题,之前的研究中提出了大量的稀疏注意力机制,包含局部注意力和、对注意力的key和value进行空间下采样(如池化、网络采样),但是普遍存在局限性。最近的研究将空间下采样注意力和局部注意力交替叠加,得到了不错的效果。
  • 最近的研究表明具有残差块的深度网络类似于较浅网络的集合,这表明通过堆叠块实现的跨层信息交换可能不回像预期的那样有效。

问题

  • 由于深度退化效应,许多高效的ViT模型无法通过堆叠形成足够的信息混合。即使有很深的层堆叠,其窗口划分的痕迹也总是形成不自然的伪影。
    在这里插入图片描述

贡献

  • 为了解决Vision Transformers无法形成足够的信息混合问题,提出了聚合注意力,一种基于仿生设计的token融合器,它模拟生物中心凹视觉和连接眼球运动,同时使特征图上的每个token都具有全局感知。
  • 结合了与传统query和key交互的可学习token, 这进一步使亲和力矩阵的生成多样化,从而有效地避免深度退化并实现自然的视觉感知。提出聚合注意力,这是Pixel-focused Attention的增强版本,进一步将两类非QKV注意力机制聚合为像素聚焦注意力。
  • 提出了Convolutional GLU,一种通道融合器,弥补了GLU和SE机制之间的差距,使每个token能够基于其最近邻图像特征进行通道注意,增强局部建模能力和模型鲁棒性。提出了聚合注意力机制Convolutional GLU结合起来的新视觉backbone——TransNeXt。

方法

  • 引入Pixel-focused Attention, 它采用双路径设计。在一条路径中,每个query对最近邻也正进行细粒度关注,而另一条中,每个query对空间下采样特征进行粗粒度关注,从而实现全局感知。这种方法在每个像素的基础上运行,有效地模拟眼球的连续运动。
  • 将query embedding和positional attention合并到Pixel-focused Attention中,从而提出了Aggregated Pixel-focused Attention,缩写为Aggregated Attention。它可以进一步使亲和力矩阵的生成多样化,而不仅仅是依赖query和key之间的相似性,从而实现了单个注意力层内多个注意力机制的聚合。
  • 重新评估了视觉Transformer中通道融合器的设计要求,并提出了Convolutional GLU的新型通道融合器。它更适合图像任务,并集成基于局部特征的通道注意力以增强模型的鲁棒性。
  • 引入TransNeXt, 一个分层视觉主干网络,它将Aggregated Attention作为token融合器。将Convolutional GLU作为通道融合器。

Pixel-focused Attention和Aggregated Attention的对比:
在这里插入图片描述

常用通道融合器设计与Convolutional GLU的比较
在这里插入图片描述

TransNeXt体系结构

TransNeXt采用了与PVTv2相同的四阶段分层主干和重叠补丁嵌入。扩展比里为 8 : 8 : 4 : 4 8:8:4:4 8:8:4:4

在这里插入图片描述

这篇关于论文泛读: TransNeXt: Robust Foveal Visual Perception for Vision Transformers的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1121485

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

2024 年高教社杯全国大学生数学建模竞赛 C 题 农作物的种植策略 参考论文 无水印

持续更新中,2024年数学建模比赛思路代码论文都会发布到专栏内,只需订阅一次!  完整论文+代码+数据结果链接在文末!  订阅后可查看参考论文文件 第一问 1.1 问题重述 这个问题围绕的是华北山区的某乡村,在有限的耕地条件下,如何制定最优的农作物种植策略。乡村有 34 块露天耕地和 20 个大棚,种植条件包括粮食作物、蔬菜、水稻和食用菌。除了要考虑地块的面积、种植季节等,还要确保

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探