Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks 解析+总结

本文主要是介绍Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks 解析+总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

paper: 2004.06165.pdf (arxiv.org)

code:  microsoft/Oscar: Oscar and VinVL (github.com)

多模态学习初入门

最近,视觉和语言预训练(Vision-Language Pretraining, 简称VLP)在解决多模态学习方面已显示出巨大的进步。这类方法最有代表性地通常包括如下两步:

预训练:是以自监督的方式在海量 "图像-文本"数据(Image-Text Pair,或者叫做“图文对”)上训练大型的基于Transformer的模型(例如根据上下文预测被掩盖掉的语言或者图像的元素)

微调:可以对预训练模型的跨模态表示进行微调,以适应各种下游视觉和语言任务

摘要

关键问题:现有的VLP方法只是将图像区域特征和文本特征连接起来作为模型的输入以进行预训练,并不为模型提供任何线索,希望模型能利用Transformer的自我注意机制,使用蛮力来学习图像文本语义对齐方式。

解决方法:一种新的多模态预训练方法Oscar,它使用在图像中检测到的物体标签作为锚点,从而显著简化了路线的学习。在650万个文本-图像对的公共语料库上预先训练了Oscar模型,并在下游任务上对其进行了微调,从而在六种完善的视觉语言理解和生成任务上创建了最新的技术。

关键字: 对象语义,视觉和语言,预训练

1 Introduction

VLP:可从大量图像-文本对中学习有效学习通用表示形式,并对VLP模型针对特定任务进行微调实现SOTA。

通过使用诸如Faster R-CNN之类的预训练物体检测器 (object detector),可以将图像表示为一组视觉区域特征,每个视觉区域特征都与一个物体标签关联。因此,可以使用诸如BERT的预训练语言模型将句子表示为一系列单词嵌入。重要的是,在Oscar中,我们使用来自预先训练的BERT的对应词嵌入来构造物体标签的表示。

相关工作

视觉语言预训练 针对现有的V+L问题(视觉问答,图文检索和图像描述),采用类似BERT的目标学习来自语言标记嵌入和视觉区域特征拼接好的序列的跨模态表示。他们在很大程度上依靠Transformer的自我注意机制来学习联合表征,这些表征在两种模式下都有适当的上下文。例如,早期的努力,如[22,38]提出了一个基于two-stream and three-stream Transformer的框架,分别用co-attention来融合这两种模式。Chen等人[5]对不同的预训练目标对所学通用表征的影响进行了全面研究。Zhou等人[46]提出了第一个统一的模型来处理理解和生成任务,只使用VQA和图像字幕作为下游任务。本文将Oscar模型应用于更广泛的下游任务,包括理解和生成任务,并在大多数任务中实现了新的SoTA。与现有的 VLP方法相比,所提出的Oscar最突出的区别是使用了 对象标签来对齐两种模式中的元素。它缓解了VLP模型必须从头开始计算跨模态语义对齐的挑战,从而提高了学习效率。事实上,我们的基础模型已经在大多数V+L任务上已经超过了现有的大型VLP模型。

物体标签 Anderson等人[2]引入了自下而上的机制,通过Faster R-CNN[28]将图像表示为一组视觉区域,每个区域都有一个相关的特征向量。它使得注意力可以在物体层面上被计算出来并迅速成为细粒度图像理解任务的事实上的标准。在本文中,我们建议使用对象标签来调整[2]中的对象-区域特征。[2]中的对象-区域特征在预先训练好的语义空间中对齐。利用对象标签的想法已经被探索用于图像理解[42,43,46]。Wu等人[42]基于CNN的网格区域特征,采用预测的物体标签作为LSTM的输入,而You等人[43]同时考虑标签和区域特征。则同时考虑标签和区域特征。基于由物体检测器提出的突出区域。Zhou等人[46]基于物体检测器提出的突出区域,将物体预测概率向量与区域特征连接起来,作为视觉上的输入。遗憾的是,这些工作中的标签并没有同时与物体区域和文本的词嵌入,导致缺乏基础。我们构建的物体标签与其相应的区域特征和词嵌入产生了更加完整和翔实的对象表征,特别是当语言实体嵌入是预先训练过的,如下所述。

多模态嵌入 已有研究表明,V+L任务可以从共享的嵌入空间中获益,以调整图像和文本之间的模式间对应关系。Socher等人[33]的早期尝试是利用核化的冠状相关将单词和图像区域投射到一个共同的空间,使用核化的典型相关分析,并在注释和分割方面取得了良好的效果。类似的想法被用于图像说明[14]和基于文本的图像检索[29]。特别是,开创性的工作DeViSE[8]提出了使用从无序的语义信息中收集的视觉对象,从未经注释的文本中收集的语义信息来识别视觉对象。这种语义信息被用来预测在训练期间没有观察到的图像标签,并在成千上万个从未见过的新标签中极大地改善了零点预测。视觉模型从未见过的新标签。这个想法已经被 观点在[34,15,25]中得到了扩展,表明利用预先训练好的语言学知识 对于调整语义和提高跨模式转移学习的样本效率非常有效。在这一研究思路的启发下,我们重新审视了这一想法并 建议在神经语言模型预训练的时代,利用从学习到的词嵌入中获得神经语言模型预训练时代的丰富语义。事实上,我们对novel objects的结果表明,Oscar有助于提高预训练模型的可扩展性和通用性。

Oscar训练方式

 

Oscar输入数据:将图文对表示为三元组(橙色单词序列,蓝色物体标签,绿色图片区域特征)。Oscar提出用物体来堆砌跨域语义;删除物体的话,Oscar退化为以前的预训练方法。此三元组可以从两个角度理解:模态视角和字典视角

  • 输入表示。将每个(图像-文本)样本定义为一个三元组(单词序列,物体标签,区域特征)。

  • 预训练目标。根据三元组中三个项目的分组方式,我们从两个不同的角度查看输入:模态视角和字典视角。每一种视角都允许我们设计一个新颖的预训练目标:1)字典视图的掩盖码恢复损失,它衡量模型根据上下文恢复丢失元素(单词或对象标签)的能力; 2)模态视角的对比损失,它衡量模型区分原始三元组及其“污染”版本(即原始物体标签被随机采样的标签替换)的能力。

在六个任务上进行微调和评估:

  • Visual Question Answering (VQA)

  • Graph Question Answering (GQA)

  • Natural Language Visual Reasoning for Real (NLVR2)

  • Image-Text Retrieval

  • Text-Image Retrieval

  • Image Captioning on COCO dataset

  • Novel Object Captioning (NoCaps)

整体预训练+微调的流程:  Oscar以三元组作为输入,以两个损失函数为目标进行预训练(在单词和标签上掩盖恢复损失,以及在标签和其他标签之间的对比损失),然后对其进行微调以实现五个理解和两个生成任务。

实验效果

为了考虑参数的利用效率,我们在下表中比较了不同大小的模型。Oscar在六项任务上均达到了最新水平。在大多数任务上,我们的基本款模型 (base model)要优于以前的大型模型(large model),通常情况下会大大提高。它表明Oscar具有很高的参数利用效率,我们认为部分原因是物体的使用大大简化了图像和文本之间语义对齐的学习。在这里,VLP基线方法是从UNITER, VilBERT, LXMERT, VLP, VL-BERT, Unicoder-VL, 和 12-in-1收集的。请注意,Oscar接受了650万对的预训练,这比UNITER的918万对和IXME的960万对都少,这也说明了Oscar的数据利用率很高。

 

结论

在本文中,我们提出了一个新的预训练方法Oscar,该方法使用对象标签作为锚点,将图像和语言模式统一在一个共享语义空间。我们在一个有650万个文本-图像对的公共语料库上进行预训练来验证该模式。这些预训练的模型在六项既定的V+L理解和生成任务上归档了新的先进技术。

这篇关于Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks 解析+总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/276389

相关文章

Python中实现进度条的多种方法总结

《Python中实现进度条的多种方法总结》在Python编程中,进度条是一个非常有用的功能,它能让用户直观地了解任务的进度,提升用户体验,本文将介绍几种在Python中实现进度条的常用方法,并通过代码... 目录一、简单的打印方式二、使用tqdm库三、使用alive-progress库四、使用progres

使用Python实现批量访问URL并解析XML响应功能

《使用Python实现批量访问URL并解析XML响应功能》在现代Web开发和数据抓取中,批量访问URL并解析响应内容是一个常见的需求,本文将详细介绍如何使用Python实现批量访问URL并解析XML响... 目录引言1. 背景与需求2. 工具方法实现2.1 单URL访问与解析代码实现代码说明2.2 示例调用

SSID究竟是什么? WiFi网络名称及工作方式解析

《SSID究竟是什么?WiFi网络名称及工作方式解析》SID可以看作是无线网络的名称,类似于有线网络中的网络名称或者路由器的名称,在无线网络中,设备通过SSID来识别和连接到特定的无线网络... 当提到 Wi-Fi 网络时,就避不开「SSID」这个术语。简单来说,SSID 就是 Wi-Fi 网络的名称。比如

SpringCloud配置动态更新原理解析

《SpringCloud配置动态更新原理解析》在微服务架构的浩瀚星海中,服务配置的动态更新如同魔法一般,能够让应用在不重启的情况下,实时响应配置的变更,SpringCloud作为微服务架构中的佼佼者,... 目录一、SpringBoot、Cloud配置的读取二、SpringCloud配置动态刷新三、更新@R

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

Android数据库Room的实际使用过程总结

《Android数据库Room的实际使用过程总结》这篇文章主要给大家介绍了关于Android数据库Room的实际使用过程,详细介绍了如何创建实体类、数据访问对象(DAO)和数据库抽象类,需要的朋友可以... 目录前言一、Room的基本使用1.项目配置2.创建实体类(Entity)3.创建数据访问对象(DAO

在C#中合并和解析相对路径方式

《在C#中合并和解析相对路径方式》Path类提供了几个用于操作文件路径的静态方法,其中包括Combine方法和GetFullPath方法,Combine方法将两个路径合并在一起,但不会解析包含相对元素... 目录C#合并和解析相对路径System.IO.Path类幸运的是总结C#合并和解析相对路径对于 C

深入探讨Java 中的 Object 类详解(一切类的根基)

《深入探讨Java中的Object类详解(一切类的根基)》本文详细介绍了Java中的Object类,作为所有类的根类,其重要性不言而喻,文章涵盖了Object类的主要方法,如toString()... 目录1. Object 类的基本概念1.1 Object 类的定义2. Object 类的主要方法3. O

Java向kettle8.0传递参数的方式总结

《Java向kettle8.0传递参数的方式总结》介绍了如何在Kettle中传递参数到转换和作业中,包括设置全局properties、使用TransMeta和JobMeta的parameterValu... 目录1.传递参数到转换中2.传递参数到作业中总结1.传递参数到转换中1.1. 通过设置Trans的

Java解析JSON的六种方案

《Java解析JSON的六种方案》这篇文章介绍了6种JSON解析方案,包括Jackson、Gson、FastJSON、JsonPath、、手动解析,分别阐述了它们的功能特点、代码示例、高级功能、优缺点... 目录前言1. 使用 Jackson:业界标配功能特点代码示例高级功能优缺点2. 使用 Gson:轻量