阅读文献：LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference

本文主要是介绍阅读文献：LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference

1.四个问题
要解决什么问题
在高速状态下，平衡图像分类方法的精度和效率
用什么方法解决
提出一种网络模型LeViT方法，在ViT模型基础上，引入卷积模块而不是学习类卷积特征的转换器组件，用特征金字塔替换Transformer中用以的结构（类似LeNet架构）

本文的贡献是允许 ViT 模型在宽度和空间分辨率方面缩小的技术：
使用注意力作为下采样机制的多级转换器架构；
一个计算效率高的补丁描述符，它减少了第一层中的特征数量；
一种学习的、每头平移不变的注意力偏差，取代了 ViT 的位置嵌入；
重新设计的 Attention-MLP 模块，可提高给定计算时间的网络容量

效果如何
在速度或精度权衡方面强于现有的方法，与用于数据中心或手机特征提取的其他高效神经网络相比，LeViT 在可比精度下快 1.5 到 5 倍。

还存在什么问题
没有进行试验，没有证明任何有效性，也没有发现问题

论文简介
摘要： 我们设计了一系列图像分类架构，在高速状态下优化精度和效率之间的权衡。我们的工作利用了基于注意力的架构的最新发现，这些架构在高度并行的处理硬件上具有竞争力。我们重新审视了大量关于卷积神经网络的文献中的原理，将它们应用于转换器，特别是分辨率降低的激活图。我们还介绍了注意力偏差，这是一种在视觉转换器中整合位置信息的新方法。
因此，我们提出了 LeVIT：一种用于快速推理图像分类的混合神经网络。我们在不同的硬件平台上考虑不同的效率衡量标准，以最好地反映广泛的应用场景。我们广泛的实验凭经验验证了我们的技术选择，并表明它们适用于大多数架构。总体而言，LeViT 在速度/精度权衡方面明显优于现有的 convnets 和视觉转换器。例如，在 80% ImageNet top-1 准确率下，LeViT 在 CPU 上比 EfficientNet 快 5 倍。我们在https://github.com/facebookresearch/LeViT 发布代码

网络结构：
在这里插入图片描述
LeViT在transformer架构中集成了ResNet stage。在各个stage中，该体系结构类似于一个visual transformer:一个带有交替MLP和激活块的残差模块。下面是注意块的修改。