文献阅读(59)CVPR2021-Swin Transformer-Hierarchical Vision Transformer using Shifted Windows

本文主要是介绍文献阅读(59)CVPR2021-Swin Transformer-Hierarchical Vision Transformer using Shifted Windows,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文是对《Swin Transformer-Hierarchical Vision Transformer using Shifted Windows》一文的浅显翻译与理解,如有侵权即刻删除。

更多相关文章,请移步:
文献阅读总结:计算机视觉

文章目录

  • Title
  • 总结
    • 1 整体框架
    • 2 移动窗口

Title

《Swin Transformer-Hierarchical Vision Transformer using Shifted Windows》

——CVPR2021

Author: 刘泽

总结

该文是CVPR的best paper,作者胡瀚对其进行了介绍:https://www.bilibili.com/video/BV1eb4y1k7fj?from=search&seid=4785679647044800045&spm_id_from=333.337.0.0

Transformer在NLP领域的成果吸引了CV领域研究者的注意,期待为NLP和CV建立一个通用的模型架构。本文提出了Swin Transformer算法,将transformer结构引入到了CV领域中,并加入了先验知识如层次性hierarchy、局部性locality和平移不变性translational invariance等。此外,还构造了移动窗口shifted window来代替常用的滑动窗口,相比使用卷积架构的方法,效果更佳。

1 整体框架

文章将transformer结构代替了传统的卷积网络结构,将给定的图像切分为多个区块,在每个区块patch中使用self-attention方法提取特征。具体而言,每个区块会被初始化为44的大小,每个像素点有用RGB值进行表示,因此每个区块的大小为443,这些区块可以用经典方法表示成为维度大小为C的向量。而后,通过叠加多层Swin Transformer blocks,来不断压缩和提取信息。每次将22范围的区块信息压缩成一个区块,同时生成2C长度的向量。其结构如下所示:

在这里插入图片描述

右图是对单层transformer结构模型的拆解,W-MSA即基于window的multi-head self attention,其公式如下所示:

在这里插入图片描述

2 移动窗口

注意到,文章对每个区块进行了自注意力的信息提取,但没有考虑多个区块间的联系。因此,文章提出了移动窗口shifted window来替换传统的滑动窗口sliding window,建模区块与区块间的联系。滑动窗口往往按照规定的步长在数据间进行滑动提取信息,但这样的方法往往计算较为复杂。进而,文章通过利用图像不断循环滑动,来实现了窗口的移动。

在这里插入图片描述

如图所示,上图最左侧区块大小不同的切分图,正是由第二个图的变换得到的,将右下方ABC三部分提取出来,拼接到左上方,就得到了最左侧的切分图,其实际效果如下:

在这里插入图片描述

此外,文章还提出了模型的多个变体,在此不再赘述。

这篇关于文献阅读(59)CVPR2021-Swin Transformer-Hierarchical Vision Transformer using Shifted Windows的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/377483

相关文章

jdk21下载、安装详细教程(Windows、Linux、macOS)

《jdk21下载、安装详细教程(Windows、Linux、macOS)》本文介绍了OpenJDK21的下载地址和安装步骤,包括Windows、Linux和macOS平台,下载后解压并设置环境变量,最... 目录1、官网2、下载openjdk3、安装4、验证1、官网官网地址:OpenJDK下载地址:Ar

Windows设置nginx启动端口的方法

《Windows设置nginx启动端口的方法》在服务器配置与开发过程中,nginx作为一款高效的HTTP和反向代理服务器,被广泛应用,而在Windows系统中,合理设置nginx的启动端口,是确保其正... 目录一、为什么要设置 nginx 启动端口二、设置步骤三、常见问题及解决一、为什么要设置 nginx

在 Windows 上安装 DeepSeek 的完整指南(最新推荐)

《在Windows上安装DeepSeek的完整指南(最新推荐)》在Windows上安装DeepSeek的完整指南,包括下载和安装Ollama、下载DeepSeekRXNUMX模型、运行Deep... 目录在www.chinasem.cn Windows 上安装 DeepSeek 的完整指南步骤 1:下载并安装

windows系统下shutdown重启关机命令超详细教程

《windows系统下shutdown重启关机命令超详细教程》shutdown命令是一个强大的工具,允许你通过命令行快速完成关机、重启或注销操作,本文将为你详细解析shutdown命令的使用方法,并提... 目录一、shutdown 命令简介二、shutdown 命令的基本用法三、远程关机与重启四、实际应用

Windows自动化Python pyautogui RPA操作实现

《Windows自动化PythonpyautoguiRPA操作实现》本文详细介绍了使用Python的pyautogui库进行Windows自动化操作的实现方法,文中通过示例代码介绍的非常详细,对大... 目录依赖包睡眠:鼠标事件:杀死进程:获取所有窗口的名称:显示窗口:根据图片找元素:输入文字:打开应用:依

javafx 如何将项目打包为 Windows 的可执行文件exe

《javafx如何将项目打包为Windows的可执行文件exe》文章介绍了三种将JavaFX项目打包为.exe文件的方法:方法1使用jpackage(适用于JDK14及以上版本),方法2使用La... 目录方法 1:使用 jpackage(适用于 JDK 14 及更高版本)方法 2:使用 Launch4j(

windows端python版本管理工具pyenv-win安装使用

《windows端python版本管理工具pyenv-win安装使用》:本文主要介绍如何通过git方式下载和配置pyenv-win,包括下载、克隆仓库、配置环境变量等步骤,同时还详细介绍了如何使用... 目录pyenv-win 下载配置环境变量使用 pyenv-win 管理 python 版本一、安装 和

Python使用pysmb库访问Windows共享文件夹的详细教程

《Python使用pysmb库访问Windows共享文件夹的详细教程》本教程旨在帮助您使用pysmb库,通过SMB(ServerMessageBlock)协议,轻松连接到Windows共享文件夹,并列... 目录前置条件步骤一:导入必要的模块步骤二:配置连接参数步骤三:实例化SMB连接对象并尝试连接步骤四:

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear