ViLT 浅析

2024-05-12 12:20
文章标签 浅析 vilt

本文主要是介绍ViLT 浅析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ViLT 浅析

论文链接:ViLT

文章目录

  • ViLT 浅析
    • 创新点
    • 网络结构
    • 总结

创新点

本文先分析了4种不同类型的Vision-and-Language Pretraining(VLP)

img

其中每个矩形的高表示相对计算量大小,VE、TE和MI分别是visual embedding、text embedding和modality interaction的简写。

根据上述划分原则

  • VSE、VSE++和SCAN属于(a)类型。对图像和文本独立使用encoder,图像的相对复杂,文本的相对简单,使用简单的点积或者浅层attention层来表示两种模态特征的相似性。
  • CLIP属于(b)类型。每个模态单独使用重的transformer encoder,使用池化后的图像特征点积计算特征相似性。
  • ViLBERT、UNTER和Pixel-BERT属于©类型。这些方法使用更深的transformer进行模态融合,但是由于VE仍然使用相对复杂的卷积网络进行特征抽取,导致计算量依然很大。
  • 而作者提出的ViLT模型属于d类,ViLT是首个将VE设计的如TE一样轻量的方法,该方法的主要计算量都集中在模态交互上。

img

文本一般使用transformer的线性嵌入,而以前的图像特征则采用CNN提取相关特征,而作者提出了采用一个线性嵌入来提出特征

网络结构

img

对于图像特征的提取作者采用了类似ViT一样的Patch Embedding结构,首先将图片划分为一小个的Patch并输入到线性投影层,而对于文本特征的提取作者采用了对完整的单词进行mask的方式。然后对于提取到的特征分别进行位置编码添加其位置信息,然后进行模态编码其中使用0表示文本特征,1表示图像特征,同时给文本与图像特征添加一个额外的可学习[class] embedding,方便和下游任务对接,最后两个特征进行拼接,并输入到transformer编码器中。

  • ImageText Matching:用来判断图像文本是否匹配
  • Masked Language Modeling:预测被掩盖的单词
  • word patch alignment:计算teextual subset和visual subset的对齐分数

总结

文章主要受到了ViT的影响设计一个Patch Embedding结构将图像特征序列化,并与文本特征进行模态融合。

采用Patch Embedding结构使得整个模型训练大幅度加快,同时在许多任务上保持着较高的准确率。

img

img

img

img

这篇关于ViLT 浅析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/982614

相关文章

浅析如何使用Swagger生成带权限控制的API文档

《浅析如何使用Swagger生成带权限控制的API文档》当涉及到权限控制时,如何生成既安全又详细的API文档就成了一个关键问题,所以这篇文章小编就来和大家好好聊聊如何用Swagger来生成带有... 目录准备工作配置 Swagger权限控制给 API 加上权限注解查看文档注意事项在咱们的开发工作里,API

浅析Rust多线程中如何安全的使用变量

《浅析Rust多线程中如何安全的使用变量》这篇文章主要为大家详细介绍了Rust如何在线程的闭包中安全的使用变量,包括共享变量和修改变量,文中的示例代码讲解详细,有需要的小伙伴可以参考下... 目录1. 向线程传递变量2. 多线程共享变量引用3. 多线程中修改变量4. 总结在Rust语言中,一个既引人入胜又可

浅析Spring Security认证过程

类图 为了方便理解Spring Security认证流程,特意画了如下的类图,包含相关的核心认证类 概述 核心验证器 AuthenticationManager 该对象提供了认证方法的入口,接收一个Authentiaton对象作为参数; public interface AuthenticationManager {Authentication authenticate(Authenti

(入门篇)JavaScript 网页设计案例浅析-简单的交互式图片轮播

网页设计已经成为了每个前端开发者的必备技能,而 JavaScript 作为前端三大基础之一,更是为网页赋予了互动性和动态效果。本篇文章将通过一个简单的 JavaScript 案例,带你了解网页设计中的一些常见技巧和技术原理。今天就说一说一个常见的图片轮播效果。相信大家在各类电商网站、个人博客或者展示页面中,都看到过这种轮播图。它的核心功能是展示多张图片,并且用户可以通过点击按钮,左右切换图片。

风暴项目个性化推荐系统浅析

风暴项目的主要任务是搭建自媒体平台,作为主开发人员的我希望把工作重心放在个性化推荐系统上。 目前风暴项目的个性化推荐是基于用户行为信息记录实现的,也就是说对于每条资讯,数据库中有字段标明其类型。建立一张用户浏览表,对用户的浏览行为进行记录,从中可以获取当前用户对哪类资讯感兴趣。 若用户第一次登陆,则按默认规则选取热点资讯做推荐,及所有资讯按浏览量降序排序,取前4个。另外,我考虑到后期可能有商业

中国书法——孙溟㠭浅析碑帖《越州石氏帖》

孙溟㠭浅析碑帖《越州石氏帖》 《越州石氏帖》  是一部汇集多本摹刻的帖,南宋时期的会稽石邦哲(字熙明)把家藏的一些法书碑帖集中一起摹刻成的,宋理宗时临安书商陈思《宝刻丛编》有记載这部帖的目录。现在还存有宋代时拓的残缺本,大多是相传的晋朝唐朝的小楷,后人多有临摹学习,并以此版本重新摹刻。 (图片来源于网络) 图文/氿波整理

浅析网页不安装插件播放RTSP/FLV视频的方法

早期很多摄像头视频流使用的是RTSP、RTMP协议,播放这类协议的视频通常是在网页上安装插件。但现在越来越多的用户,对于网页安装插件比较反感,且随着移动设备的普及,用户更多的希望使用手机、平板等移动设备,直接可以查看这些协议的视频。那是否有什么方案可以直接网页打开RTSP、RTMP协议的视频,直接观看不用安装插件呢?而且对于摄像头的数据,尽可能低延迟的获取实时画面。  其实很多摄像头厂家也注意到

浅析c/c++中 struct的区别

(1)C的struct与C++的class的区别。 (2)C++中的struct和class的区别。 在第一种情况下,struct与class有着非常明显的区别。C是一种过程化的语言,struct只是作为一种复杂数据类型定义,struct中只能定义成员变量,不能定义成员函数(在纯粹的C语言中,struct不能定义成员函数,只能定义变量)。例如下面的C代码片断: 复制代码代码如下:

Flink Exactly-Once 投递实现浅析

本文作者:Paul Lin 文章来源:https://www.whitewood.me 随着近来越来越多的业务迁移到 Flink 上,对 Flink 作业的准确性要求也随之进一步提高,其中最为关键的是如何在不同业务场景下保证 exactly-once 的投递语义。虽然不少实时系统(e.g. 实时计算/消息队列)都宣称支持 exactly-once,exactly-once 投递似乎是一个已被解

烟道灰酸洗废水稀有金属铼回收工艺浅析

铼是一种重要的稀有金属,因其独特的物理和化学性质,在航空航天、电子工业、石油化工等领域有着广泛的应用。由于铼的稀有性和重要性,从烟道灰中回收铼的技术和方法成为了研究的热点。以下是几种主要的烟道灰回收铼技术: ●    化学溶解法:通过选择合适的化学溶剂,如硝酸、硫酸等强酸,以及过氧化氢等氧化剂,将含铼废弃物中的铼溶解出来。 ●    溶剂萃取法:利用有机溶剂从含铼废水中萃取铼,通过选择合适的萃取剂