LaViT:Less-Attention Vision Transformer的特性与优点

2024-08-26 10:20

本文主要是介绍LaViT:Less-Attention Vision Transformer的特性与优点,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引言

https://arxiv.org/pdf/2406.00427
随着计算机视觉领域的发展,视觉Transformer(ViTs)逐渐成为一项重要技术。尽管ViTs在捕捉图像中的长距离依赖关系方面表现出色,但其沉重的计算负担和潜在的注意力饱和问题一直是实际应用的障碍。为解决这些问题,微软提出了Less-Attention Vision Transformer(LaViT),旨在通过引入一种新的注意力机制来提升视觉Transformer的效率和性能。

LaViT的特性

**1. Less-Attention 机制

LaViT的核心特性在于其提出的Less-Attention机制。与传统ViTs中的每一层都计算自注意力得分不同,LaViT仅在每个阶段的初始几个层中计算传统自注意力,并通过存储这些得分来在后续层中生成注意力矩阵。这种设计大幅减少了计算负担,并且解决了深层网络中的注意力饱和问题。

**2. 残差连接和注意力下采样

为了在下采样过程中保留关键上下文信息,LaViT引入了残差连接和注意力下采样模块。残差连接通过从前一阶段传递注意力得分来辅助当前阶段的注意力计算,确保重要信息的保留。而注意力下采样模块则通过深度卷积和卷积层,有效压缩前一阶段的注意力矩阵,以适配当前阶段的尺寸。

**3. 对角线保持损失

为确保转换后的注意力矩阵保留基本属性,LaViT设计了一种对角线保持损失函数。该函数有助于在转换过程中保持注意力矩阵的对角线特性和标记间的相对重要性,从而保持模型的语义完整性。

在这里插入图片描述

LaViT的优点

**1. 显著降低计算成本

由于Less-Attention机制的使用,LaViT显著降低了计算成本。相比于传统ViTs,LaViT能够在不牺牲性能的前提下,显著减少浮点运算次数(FLOPs)和内存消耗,从而适用于资源受限的场景。

**2. 提高性能表现

LaViT在各种视觉任务上均表现出色,包括图像分类、目标检测和语义分割。其提出的Less-Attention机制有效缓解了注意力饱和问题,使得深层网络能够捕获更多语义信息,提高模型的整体性能。

**3. 灵活的架构设计

LaViT的架构设计灵活,可以轻松融入各种现有ViT模型中。无论是层次结构还是非层次结构的ViT,LaViT的Less-Attention模块都能显著提高其性能。这种可扩展性使得LaViT成为一种具有广泛应用前景的视觉Transformer模型。

**4. 优秀的跨模态应用潜力

虽然当前LaViT主要应用于视觉任务,但其独特的注意力机制和高效的架构设计也为跨模态应用提供了可能性。未来,LaViT有望在图像与文本、语音等其他模态的融合中发挥重要作用,进一步推动AI技术的发展。

实验结果

为了评估LaViT模型的有效性,作者在各种基准数据集上进行了全面的实验,包括ImageNet-1K上的图像分类、COCO2017上的目标检测以及ADE20K上的语义分割。以下是具体的实验结果:

1. ImageNet-1K 图像分类

设置

  • 实验协议遵循DeiT中的流程,使用AdamW优化器从头开始训练模型300个周期(包含5个周期的预热)。
  • 初始学习率设置为0.005,使用余弦调度器进行调整。
  • 全局批量大小设置为1024,分布在4个GTX-3090 GPU上。
  • 测试时将输入图像调整到256像素,然后进行224x224像素的中心裁剪以评估分类准确性。

结果
在ImageNet-1K上的分类结果显示,LaViT模型在保持显著降低的计算成本的同时,取得了与现有最先进ViT模型相竞争的性能。具体来说:

  • 在微小模型群组中,LaViT模型至少超过了所有其他现有模型0.2%。
  • 在小型模型群组中,LaViT模型至少超过了所有其他现有模型0.5%。
  • 在基础尺寸模型中,LaViT-B(基于PVT的基础结构但包含Less-Attention组件)的性能优于两种基于PVT的模型(PVT-M和PVT-L)。
    在这里插入图片描述

2. COCO2017 目标检测

设置

  • 使用RetinaNet作为检测框架,使用从ImageNet-1K获得的预训练权重初始化主干网络。
  • 使用AdamW优化器,在8个GPU上以批量大小为16训练网络。

结果
LaViT模型在COCO2017数据集上的检测性能显著优于其他CNN和Transformer模型。具体来说:

  • LaViT-T相对于ResNet实现了9.9-12.5 AP的提升。
  • LaViT-S相对于其CNN对应版本提高了8.1-10.3 AP。
  • LaViT模型在检测性能上始终优于Swin Transformer,同时训练负担较小。

在这里插入图片描述

3. ADE20K 语义分割

设置

  • 使用Semantic FPN和UperNet作为分割的主干网络。
  • 遵循已建立的训练设置,将图像大小调整为进行训练。
  • 使用多项式调度器进行学习率衰减,在GTX3090 GPU上进行训练。

结果
LaViT模型在ADE20K数据集上的语义分割性能优于Swin Transformer和其他主流模型。具体来说:

  • 在Semantic FPN上,LaViT-S相对于Baseline(PVT-S)实现了mIoU +0.9的提升,同时显著减少了计算量。
  • 在UperNet架构中,LaViT实现了mIoU +2.7、+1.0和+1.4的显著提升。
  • 使用测试时间增强时,这些有竞争力的结果也能保持。
    在这里插入图片描述

消融研究

消融研究进一步证明了LaViT模型中各个组件的重要性和贡献:

  • Less-Attention模块:将Less-Attention层替换为MHSA的Baseline,预测准确度显著下降。
  • 注意力残差模块:移除注意力残差模块会导致预测准确度下降。
  • 对角线保持损失:仅依赖CE损失时,模型的预测会恶化,表明对角线保持损失对于保留注意力矩阵中的基本属性至关重要。

在这里插入图片描述

结论

LaViT作为微软提出的一种新型视觉Transformer模型,凭借其Less-Attention机制、残差连接、注意力下采样以及对角线保持损失等特性,在显著降低计算成本的同时提高了模型性能。其灵活的架构设计和广泛的适用性使其成为当前计算机视觉领域的一项重要技术。未来,随着LaViT的持续优化和应用拓展,我们有理由相信它将在更多领域展现出强大的潜力。

这篇关于LaViT:Less-Attention Vision Transformer的特性与优点的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1108286

相关文章

什么是 Flash Attention

Flash Attention 是 由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中 提出的, 论文可以从 https://arxiv.org/abs/2205.14135 页面下载,点击 View PDF 就可以下载。 下面我

前端技术(七)——less 教程

一、less简介 1. less是什么? less是一种动态样式语言,属于css预处理器的范畴,它扩展了CSS语言,增加了变量、Mixin、函数等特性,使CSS 更易维护和扩展LESS 既可以在 客户端 上运行 ,也可以借助Node.js在服务端运行。 less的中文官网:https://lesscss.cn/ 2. less编译工具 koala 官网 http://koala-app.

ActiveMQ—消息特性(延迟和定时消息投递)

ActiveMQ消息特性:延迟和定时消息投递(Delay and Schedule Message Delivery) 转自:http://blog.csdn.net/kimmking/article/details/8443872 有时候我们不希望消息马上被broker投递出去,而是想要消息60秒以后发给消费者,或者我们想让消息没隔一定时间投递一次,一共投递指定的次数。。。 类似

PostgreSQL核心功能特性与使用领域及场景分析

PostgreSQL有什么优点? 开源和免费 PostgreSQL是一个开源的数据库管理系统,可以免费使用和修改。这降低了企业的成本,并为开发者提供了一个活跃的社区和丰富的资源。 高度兼容 PostgreSQL支持多种操作系统(如Linux、Windows、macOS等)和编程语言(如C、C++、Java、Python、Ruby等),并提供了多种接口(如JDBC、ODBC、ADO.NET等

详解Tomcat 7的七大新特性和新增功能(1)

http://developer.51cto.com/art/201009/228537.htm http://tomcat.apache.org/tomcat-7.0-doc/index.html  Apache发布首个Tomcat 7版本已经发布了有一段时间了,Tomcat 7引入了许多新功能,并对现有功能进行了增强。很多文章列出了Tomcat 7的新功能,但大多数并没有详细解释它们

如何掌握面向对象编程的四大特性、Lambda 表达式及 I/O 流:全面指南

这里写目录标题 OOP语言的四大特性lambda输入/输出流(I/O流) OOP语言的四大特性 面向对象编程(OOP)是一种编程范式,它通过使用“对象”来组织代码。OOP 的四大特性是封装、继承、多态和抽象。这些特性帮助程序员更好地管理复杂的代码,使程序更易于理解和维护。 类-》实体的抽象类型 实体(属性,行为) -》 ADT(abstract data type) 属性-》成

《C++标准库》读书笔记/第一天(C++新特性(1))

C++11新特性(1) 以auto完成类型自动推导 auto i=42; //以auto声明的变量,其类型会根据其初值被自动推倒出来,因此一定需要一个初始化操作; static auto a=0.19;//可以用额外限定符修饰 vector<string> v;  auto pos=v.begin();//如果类型很长或类型表达式复杂 auto很有用; auto l=[] (int

12C 新特性,MOVE DATAFILE 在线移动 包括system, 附带改名 NID ,cdb_data_files视图坏了

ALTER DATABASE MOVE DATAFILE  可以改名 可以move file,全部一个命令。 resue 可以重用,keep好像不生效!!! system照移动不误-------- SQL> select file_name, status, online_status from dba_data_files where tablespace_name='SYSTEM'

Cmake之3.0版本重要特性及用法实例(十三)

简介: CSDN博客专家、《Android系统多媒体进阶实战》一书作者 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏: 多媒体系统工程师系列【原创干货持续更新中……】🚀 优质视频课程:AAOS车载系统+AOSP14系统攻城狮入门视频实战课 🚀 人生格言: 人生从来没有捷径,只有行动才是治疗恐惧

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04