[ICCV2021]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

本文主要是介绍[ICCV2021]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

标题:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
链接:https://arxiv.org/pdf/2103.14030

动机

现在在CV中使用transformer的最大问题是运算量太大,因为图片的信息量远远大过NLP中文本的信息量,然后再做self attention会导致N平方的复杂度,这是不可以接受的,因此如何减少运算量是很重要的。而这篇文章就是提出了一个线性计算量的transformer结构

方法

之前的ViT考虑的是直接将一个图片分割,然后每个小块做embedding取到局部特征(?),然后再对所有分割的块做self attention取到全局特征。这样的计算复杂度是随着图片增大而呈平方增大的。
而这篇文章提出的Swin Transformer是按照hierarchical的方式来一层层做transformer的。
大体结构就是先将图片分成小区,然后针对每个小区块做embedding,之后输入一个swing transformer block,然后将相邻区块合并,成为稍微大点的区,再输入另一个swing transformer block,之后类似的操作还会做两次,从而得到最终的输出。
其中最主要的点就是swing transformer block是啥。swing transformer block实际上是由两层组成的,第一层就是一个简单的transformer block(self attention+feedforward),第二层结构类似第一层,只不过attention层变成了shift window multihead self attention,本质上就是比前面的那个self attention多了一个shift功能。
这个shift功能是用来处理边界问题的。因为在将图片分成不同区域之后,区域与区域之间的交互信息就丢失了,而这个shift就是说将原本的2*2的窗口变成3*3个窗口,就像下面这个图这样:

微信截图_20211013225745.png


然后再对每个小窗口内部做self attention,从而获得了边界上的交互信息。但是由于这么划分之后区域变多
了,反而增加了运算量,因此本文使用了mask attention,结合他们提出的cyclic shift来简化运算。如下图所示:

微信截图_20211013230626.png


也就是说划分完九块之后,正中间的大方块和右上,左下的小方块不动,然后将左上角的A,B,C三个块移动到右下角,从而重新拼成一个正方形。之后再对四个方块里的每部分做masked self attention就可以得到原来九个区域的self attention结果了。计算完后再将A,B,C移动回去就可以继续下一步操作。

结果

结果来说,swin transformer不仅减少了运算量,而且在众多CV任务上都取得了很大的进步,之后的衍生文章打破了很多SOTA。

这篇关于[ICCV2021]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/706574

相关文章

Python Transformer 库安装配置及使用方法

《PythonTransformer库安装配置及使用方法》HuggingFaceTransformers是自然语言处理(NLP)领域最流行的开源库之一,支持基于Transformer架构的预训练模... 目录python 中的 Transformer 库及使用方法一、库的概述二、安装与配置三、基础使用:Pi

Redis在windows环境下如何启动

《Redis在windows环境下如何启动》:本文主要介绍Redis在windows环境下如何启动的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Redis在Windows环境下启动1.在redis的安装目录下2.输入·redis-server.exe

Windows Server服务器上配置FileZilla后,FTP连接不上?

《WindowsServer服务器上配置FileZilla后,FTP连接不上?》WindowsServer服务器上配置FileZilla后,FTP连接错误和操作超时的问题,应该如何解决?首先,通过... 目录在Windohttp://www.chinasem.cnws防火墙开启的情况下,遇到的错误如下:无法与

Python解析器安装指南分享(Mac/Windows/Linux)

《Python解析器安装指南分享(Mac/Windows/Linux)》:本文主要介绍Python解析器安装指南(Mac/Windows/Linux),具有很好的参考价值,希望对大家有所帮助,如有... 目NMNkN录1js. 安装包下载1.1 python 下载官网2.核心安装方式3. MACOS 系统安

Windows系统下如何查找JDK的安装路径

《Windows系统下如何查找JDK的安装路径》:本文主要介绍Windows系统下如何查找JDK的安装路径,文中介绍了三种方法,分别是通过命令行检查、使用verbose选项查找jre目录、以及查看... 目录一、确认是否安装了JDK二、查找路径三、另外一种方式如果很久之前安装了JDK,或者在别人的电脑上,想

Windows命令之tasklist命令用法详解(Windows查看进程)

《Windows命令之tasklist命令用法详解(Windows查看进程)》tasklist命令显示本地计算机或远程计算机上当前正在运行的进程列表,命令结合筛选器一起使用,可以按照我们的需求进行过滤... 目录命令帮助1、基本使用2、执行原理2.1、tasklist命令无法使用3、筛选器3.1、根据PID

Python中Windows和macOS文件路径格式不一致的解决方法

《Python中Windows和macOS文件路径格式不一致的解决方法》在Python中,Windows和macOS的文件路径字符串格式不一致主要体现在路径分隔符上,这种差异可能导致跨平台代码在处理文... 目录方法 1:使用 os.path 模块方法 2:使用 pathlib 模块(推荐)方法 3:统一使

Windows server服务器使用blat命令行发送邮件

《Windowsserver服务器使用blat命令行发送邮件》在linux平台的命令行下可以使用mail命令来发送邮件,windows平台没有内置的命令,但可以使用开源的blat,其官方主页为ht... 目录下载blatBAT命令行示例备注总结在linux平台的命令行下可以使用mail命令来发送邮件,Win

Windows环境下安装达梦数据库的完整步骤

《Windows环境下安装达梦数据库的完整步骤》达梦数据库的安装大致分为Windows和Linux版本,本文将以dm8企业版Windows_64位环境为例,为大家介绍一下达梦数据库的具体安装步骤吧... 目录环境介绍1 下载解压安装包2 根据安装手册安装2.1 选择语言 时区2.2 安装向导2.3 接受协议

jdk21下载、安装详细教程(Windows、Linux、macOS)

《jdk21下载、安装详细教程(Windows、Linux、macOS)》本文介绍了OpenJDK21的下载地址和安装步骤,包括Windows、Linux和macOS平台,下载后解压并设置环境变量,最... 目录1、官网2、下载openjdk3、安装4、验证1、官网官网地址:OpenJDK下载地址:Ar