首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
vilt专题
ViLT学习
多模态里程碑式的文章,总结了四种多模态方法,根据文字和图像特征特征抽取方式不通。 文章的贡献主要是速度提高了,使用了数据增强,文本的mask 学习自b站朱老师的论文讲解
阅读更多...
ViLT 浅析
ViLT 浅析 论文链接:ViLT 文章目录 ViLT 浅析创新点网络结构总结 创新点 本文先分析了4种不同类型的Vision-and-Language Pretraining(VLP) 其中每个矩形的高表示相对计算量大小,VE、TE和MI分别是visual embedding、text embedding和modality interaction的简写。 根据上述
阅读更多...
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
论文地址:https://arxiv.org/pdf/2102.03334.pdf 代码地址:https://github.com/dandelin/vilt. 摘要 目前的VLP方法严重依赖于图像特征提取过程,其中大部分涉及区域监督(如目标检测)和卷积体系结构(如ResNet)。虽然在文献中被忽略了,但我们发现在效率/速度方面存在问题,简单地提取输入特征比多模态交互步骤需要更多的计算,本文在
阅读更多...