shunted专题

Shunted Self-Attention via Multi-Scale Token Aggregation

近期提出的ViT模型在各种计算机视觉任务上展现了令人鼓舞的结果，这要归功于能够通过自注意力对补丁或令牌的长期依赖性进行建模。然而这些方法通常指定每个令牌相似感受野。这种约束不可避免地限制了每个自注意力层在捕捉多尺度特征的能力。本文提出一种新的注意力，称为分流自注意力（Shunted Self-attention，SAA），允许ViT在每个注意力层的混合尺度上对注意力进行建模。SAA关键思想是将异构