secvit专题

CV技术指南 | 中科院又一创举 SecViT | 多功能视觉 Backbone 网络，图像分类、目标检测、实例分割和语义分割都性能起飞！

本文来源公众号“CV技术指南”，仅用于学术分享，侵权删，干货满满。原文链接：中科院又一创举 SecViT | 多功能视觉 Backbone 网络，图像分类、目标检测、实例分割和语义分割都性能起飞！前言视觉 Transformer （ViT）因其卓越的关系建模能力而受到关注。然而，其全局注意力机制的二次复杂度带来了相当大的计算负担。常见的解决方法是空间地分组 Token 以进行自注意力