场景文本检测识别学习 day06（Vi-Transformer论文精读）

本文主要是介绍场景文本检测识别学习 day06（Vi-Transformer论文精读），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Vi-Transformer论文精读

在NLP领域，基于注意力的Transformer模型使用的非常广泛，但是在计算机视觉领域，注意力更多是和CNN一起使用，或者是单纯将CNN的卷积替换成注意力，但是整体的CNN 架构没有发生改变
VIT说明，纯Transformer不使用CNN也可以在视觉领域表现很好，尤其是当我们在大规模数据集上做预训练，再去小数据集上做微调，可以获得跟最好的CNN相媲美的结果
在NLP领域，BERT提出的方法已经成为主流：先在大规模的数据集上做预训练，再去小数据集上做微调，同时由于Transformer模型的高扩展性和高效性，现在的数据集和模型可以做的越来越大，同时还没有任何性能饱和的现象，因此VIT想将Transformer应用到计算机视觉中
但是Transformer有以下的问题：
1. Transformer中最主要的操作是自注意力操作，而自注意力操作是需要所有元素都要和所有元素去交互，两两相互的，计算得到的Attention，再将这个Attention去做加权平均，最后得到输出，因此自注意力的计算复杂度为 $O(n^2)$ ，但是目前硬件能支持的这个序列长度n为几百或者上千，在BERT中n为512
2. 但是在计算机视觉领域，如果我们想把2D的图片变成1D的序列，那么最简单最直观的方法就是把图片中的所有像素点当成序列的元素，直接拉直并输入进Transformer，一般来说在视觉领域，输入图片的尺寸为224224、800800等，将它直接拉直送入Transformer，得到的序列长度直接过万，计算复杂度太高，硬件跟不上