Swin Transformer:Hierarchical Vision Transformer using Shifted Windows Abstract 本文提出了一种新的视觉转换器,称为Swin Transformer,它可以很好地作为计算机视觉的通用主干。将Transformer从语言转换为视觉的挑战来自这两个领域之间的差异,例如视觉实体的大小差异很大,图像中的像素与文本中的文字相比
文章目录 1、前言2、Introduction3、Method3.1、Overall ArchitectureSwin Transformer block3.2、Shifted Window based Self-AttentionSelf-attention in non-overlapped windowsShifted window partitioning in successive