vilt专题

ViLT学习

多模态里程碑式的文章，总结了四种多模态方法，根据文字和图像特征特征抽取方式不通。文章的贡献主要是速度提高了，使用了数据增强，文本的mask 学习自b站朱老师的论文讲解

ViLT 浅析

ViLT 浅析论文链接：ViLT 文章目录 ViLT 浅析创新点网络结构总结创新点本文先分析了4种不同类型的Vision-and-Language Pretraining(VLP) 其中每个矩形的高表示相对计算量大小，VE、TE和MI分别是visual embedding、text embedding和modality interaction的简写。根据上述

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

论文地址：https://arxiv.org/pdf/2102.03334.pdf 代码地址：https://github.com/dandelin/vilt. 摘要目前的VLP方法严重依赖于图像特征提取过程，其中大部分涉及区域监督（如目标检测）和卷积体系结构（如ResNet）。虽然在文献中被忽略了，但我们发现在效率/速度方面存在问题，简单地提取输入特征比多模态交互步骤需要更多的计算，本文在