新注意力!新主干!清华南开提出VAN:视觉注意力网络

2023-10-29 17:50

本文主要是介绍新注意力!新主干!清华南开提出VAN:视觉注意力网络,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达、

作者:Menghao Guo  |  已授权转载(源:知乎)

https://zhuanlan.zhihu.com/p/470850053

大家新年好哇,我来介绍我们最近期间做的一个工作啦。

该博文用于介绍我们最新的文章 :

3ce7254d6227c1d5c529e07653c01e36.png

Title : Visual Attention Network

Arxiv Link : https://arxiv.org/abs/2202.09741

Code Link : 

https://github.com/Visual-Attention-Network

1c10453207acbb210b89fd075111f171.png

概述:

最近各种 vision transformer 层出不穷,迅速占领了计算机视觉中的各个领域,可能大家对 transformer 和 self-attention 已经审美疲劳了。这篇文章中提出了一种全新的针对于视觉任务的注意力机制 Large-Kernel Attention (完全不同于 self-attention),基于该注意力机制,我们提出了一种新的简单且有效的视觉主干网络 Visual Attention Network (VAN), 该网络在图像分类、目标检测和语义分割任务上均取得了不错的效果。

研究动机(motivation):

自注意力(self-attention)首先成功应用于自然语言处理领域。近来,在计算机视觉中也取得了非常显著的效果。我们这时候就考虑一个问题: 简单的将自然语言处理中的自注意力机制拿到计算机视觉中是否合理 ? 思考之后,我认为最少有三个不足之处:

  1. 自注意力擅长处理一维的序列结构,如果直接用于处理图像,会忽略图像自身的二维结构信息。

  2. 由于自注意力自身的复杂度问题,难以用于处理高分辨率图像。

  3. 自注意力机制仅仅考虑了空间上了自适应性,而忽略了通道维度上的自适应性(已经在 SENet 等网络中证明了通道注意力的重要性)。

自注意力机制也有自己的优点:

  1. 可以捕捉长距离依赖。

  2. 具有空间维度上的自适应性。

除了自注意力机制,我们认为卷积操作本身也有可取之处,比如可以充分利用图像的 2D 结构信息。有了这些思考之后,我们就想为计算机视觉专门设计一种注意力机制,而不是简单沿用自然语言处理中的自注意力机制。

本文专门为计算机视觉设计了一种新的注意力机制:大核注意力(Large-kernel Attention (LKA)),该方法吸收了自注意力和卷积操作的优点,并且避免了自注意力和卷积的不足。

bebe5d15c6855402365ab2cbf0ce3f4a.png
图1:我们提出的大核注意力与自注意力机制和卷积操作的对比

下面正式开始介绍文章

注意力机制

首先,说一下我理解的注意力机制。明确一点,自注意力机制是一种特殊的注意力机制,不是说自注意力机制就等于注意力机制。我理解的注意力机制是神经网络对可以自动关注到重要的区域,然后对重要的区域进行处理。注意力过程是一个自适应(动态)过程,根据输入去调节输出的过程。注意力机制大概可以分成两个过程: 1. 得到注意力图 (attention map) 的过程,2. 根据 attention map 对输入进行处理的过程。

大核注意力 (Large Kernel Attention)

那么 attention map 是什么呢 ?attention map 应该反映不同特征的重要程度。对于 SENet 来说,attention map 是一个 C 维向量,该向量反映了每个通道的重要程度。对于自注意力来说,每个点都有一个 H x W 的 attention map,这个 attention map 反映的是空间中每个点的重要程度。

那么如何判断一个点的重要程度呢 ?其实根据单个点的信息,你难以判断这个点重要还是不重要,你需要知道它周围点的信息你才可以进行判断,所以我们需要根据周围点的信息,点越多越好(long-range dependence)。

23f074210cc7d2db8bc21b70c0cbb852.png
图2:左:输入特征;中:attention map,表示每个点的重要程度。右:你需要知道周围点的信息,才能判断一个黄色点的重要性。

有两种常见的方式去捕捉长距离的依赖:

  1. 使用自注意力机制。我们在开篇的 motivation 中已经讲述了在视觉中使用自注意力机制的不足。

  2. 使用大核卷积来捕捉长距离依赖。使用该方法的不足在于,大卷积核的参数量和计算量太大,难以接受。

c41b71778b479d488857607106302ef4.png

455b31517c876dbfdd5332f78ddac98e.png
图3:该图展示了将一个 13 x 13 的卷积分解成一个 5 x 5 的 depth-wise convolution 一个 5 x 5 的 depth-wise dilation convolution,其中 d = 3 和一个 1 x 1 的卷积。

该分解,和 mobilenet 中的分解的不同在于,我们对空间进行了二次分解,这使得该方法更加适用于大核卷积的分解。本文默认选择使用 21 x 21 的卷积(我们认为这个足够大了),通过计算(列公式 + 求导)可以发现,按照我们的分解方式,分解一个 21 x 21 的卷积时候,d = 3 可以使得参数量和计算量最小。同时我们也对比了我们的分解方式与原始卷积 以及 mobilenet 分解方式的参数量和计算量对比,如下所示,可以发现我们在分解大卷积核(捕捉长距离依赖方面有着明显的优势)。

13ad4c8819fda0407ad60ce0cdf6ba25.png
图4

介绍完了分解,那我们现在给出我们 attention map 的实现方式,其实就是 Attention map = Conv(x) ,只不过,我们这里使用的 conv kernel 比较大,并对 conv 进行了分解,整体的注意力过程如下所示:

9b7190611d6b1e34e6ea9552f0d8946e.png
图5 :这里 DW-Conv 表示 depth-wise convolution, DW-D-Conv 表示 depth-wise dilation convolution, Conv_{1x1} 表示 1 x 1 卷积。乘号表示逐元素相乘。

用图表示就是如下图(a)所示。

d9888127da386dcd2fdbcbcd96d97332.png
图6

至此,我们介绍完了我们的新型注意力机制,注意,我们是希望设计一种针对计算机视觉的注意力机制,该机制要有 (a)局部性(b)长距离依赖(c)空间和通道维度的自适应性。

视觉注意力网络 Visual Attention Network (VAN)

有了 Large kernel attention,我们就可以搭建一个新的基于注意力机制的视觉主干网络。我们使用了类似层次化 transformer 的结构,即 Attention - FFN 结构,具体结构如图 6 (d) 所示。我们给了四种不同大小的网络 (Tiny, Small, Base, Large),具体配置如下图所示。

67d9a17a3b6ce3c506fbc266d7252121.png
图 7:

至此,我们已经介绍完了我们的注意力机制 (LKA),以及所提出的视觉主干网络 (VAN),下面简单介绍下实验。

实验

我们主要在图像分类、检测和分割上做了实验,并和 Swin Transformer 以及 ConvNeXt 进行了详尽的对比和分析,具体请看论文。这里仅展示分类实验结果和可视化结果。

分类结果 :

403f230ba3c6f0de6faaf2e0f94ad89b.png

通过 Grad-CAM 进行可视化的结果:

028a26dc7ba061cc26afba852db5f142.png

最后,谢谢大家的阅读,代码已经开源,欢迎大家使用。

VAN论文和代码下载后台回复:VAN,即可下载上述论文和代码
ICCV和CVPR 2021论文和代码下载后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲长按加小助手微信,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号整理不易,请点赞和在看

这篇关于新注意力!新主干!清华南开提出VAN:视觉注意力网络的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/302339

相关文章

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依

poj 3181 网络流,建图。

题意: 农夫约翰为他的牛准备了F种食物和D种饮料。 每头牛都有各自喜欢的食物和饮料,而每种食物和饮料都只能分配给一头牛。 问最多能有多少头牛可以同时得到喜欢的食物和饮料。 解析: 由于要同时得到喜欢的食物和饮料,所以网络流建图的时候要把牛拆点了。 如下建图: s -> 食物 -> 牛1 -> 牛2 -> 饮料 -> t 所以分配一下点: s  =  0, 牛1= 1~

poj 3068 有流量限制的最小费用网络流

题意: m条有向边连接了n个仓库,每条边都有一定费用。 将两种危险品从0运到n-1,除了起点和终点外,危险品不能放在一起,也不能走相同的路径。 求最小的费用是多少。 解析: 抽象出一个源点s一个汇点t,源点与0相连,费用为0,容量为2。 汇点与n - 1相连,费用为0,容量为2。 每条边之间也相连,费用为每条边的费用,容量为1。 建图完毕之后,求一条流量为2的最小费用流就行了

poj 2112 网络流+二分

题意: k台挤奶机,c头牛,每台挤奶机可以挤m头牛。 现在给出每只牛到挤奶机的距离矩阵,求最小化牛的最大路程。 解析: 最大值最小化,最小值最大化,用二分来做。 先求出两点之间的最短距离。 然后二分匹配牛到挤奶机的最大路程,匹配中的判断是在这个最大路程下,是否牛的数量达到c只。 如何求牛的数量呢,用网络流来做。 从源点到牛引一条容量为1的边,然后挤奶机到汇点引一条容量为m的边

【Tools】大模型中的自注意力机制

摇来摇去摇碎点点的金黄 伸手牵来一片梦的霞光 南方的小巷推开多情的门窗 年轻和我们歌唱 摇来摇去摇着温柔的阳光 轻轻托起一件梦的衣裳 古老的都市每天都改变模样                      🎵 方芳《摇太阳》 自注意力机制(Self-Attention)是一种在Transformer等大模型中经常使用的注意力机制。该机制通过对输入序列中的每个元素计算与其他元素之间的相似性,

如何通俗理解注意力机制?

1、注意力机制(Attention Mechanism)是机器学习和深度学习中一种模拟人类注意力的方法,用于提高模型在处理大量信息时的效率和效果。通俗地理解,它就像是在一堆信息中找到最重要的部分,把注意力集中在这些关键点上,从而更好地完成任务。以下是几个简单的比喻来帮助理解注意力机制: 2、寻找重点:想象一下,你在阅读一篇文章的时候,有些段落特别重要,你会特别注意这些段落,反复阅读,而对其他部分

配置InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE) 网络

配置InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE) 网络 服务器端配置 在服务器端,你需要确保安装了必要的驱动程序和软件包,并且正确配置了网络接口。 安装 OFED 首先,安装 Open Fabrics Enterprise Distribution (OFED),它包含了 InfiniBand 所需的驱动程序和库。 sudo

【机器学习】高斯网络的基本概念和应用领域

引言 高斯网络(Gaussian Network)通常指的是一个概率图模型,其中所有的随机变量(或节点)都遵循高斯分布 文章目录 引言一、高斯网络(Gaussian Network)1.1 高斯过程(Gaussian Process)1.2 高斯混合模型(Gaussian Mixture Model)1.3 应用1.4 总结 二、高斯网络的应用2.1 机器学习2.2 统计学2.3

【Tools】大模型中的注意力机制

摇来摇去摇碎点点的金黄 伸手牵来一片梦的霞光 南方的小巷推开多情的门窗 年轻和我们歌唱 摇来摇去摇着温柔的阳光 轻轻托起一件梦的衣裳 古老的都市每天都改变模样                      🎵 方芳《摇太阳》 在大模型中,注意力机制是一种重要的技术,它被广泛应用于自然语言处理领域,特别是在机器翻译和语言模型中。 注意力机制的基本思想是通过计算输入序列中各个位置的权重,以确