论文笔记--ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs

本文主要是介绍论文笔记--ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文笔记--ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs

  • 1. 文章简介
  • 2. 文章概括
  • 3 文章重点技术
    • 3.1 模型架构
    • 3.2 Scene Graph Prediction(SGP)
  • 4. 文章亮点
  • 5. 原文传送门
  • 6. References

1. 文章简介

  • 标题:ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs
  • 作者:Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
  • 日期:2021
  • 期刊:AAAI

2. 文章概括

  文章提出了一种基于Scene Graph Prediction(SGP)来进行多模态模型预训练的方法,得到预训练模型ERNIE-ViL。实验证明,ERNIE-ViL在多个NLP任务中达到了SOTA水平,且在VCR任务上实现3.7%的提升,表明SGP预训练目标对“需求模型理解详细语义对齐”的任务有显著的帮助。

3 文章重点技术

3.1 模型架构

  文章的目的是训练一个多模态模型。常用的多模态模型训练方法包括统一的视觉-文本模型和双流Transformer两类。文章选用的是双流跨模态Transformer。具体来说,

  • 针对文本部分,文章采用了类BERT架构,通过wordpiece进行分词,输入内容为单词、位置和分隔id的结合,最终通过[CLS]来表示最终的句子嵌入;
  • 针对图像部分,文章首先通过一个目标检测器将图像中的目标区域提取出来,假设输入图片的宽度为 W W W,高度为 H H H,检测到的目标的左上角坐标为 ( x 1 , y 1 ) (x_1, y_1) (x1,y1),右上角坐标为 ( x 2 , y 2 ) (x_2, y_2) (x2,y2),则构建每个目标区域的位置向量为 ( x 1 W , y 1 H , x 2 W , y 2 H , ( y 2 − y 1 ) ( x 2 − x 1 ) W H ) (\frac {x_1}W, \frac {y_1}{H}, \frac {x_2}W, \frac {y_2}{H}, \frac {(y_2-y_1)(x_2-x_1)}{WH}) (Wx1,Hy1,Wx2,Hy2,WH(y2y1)(x2x1)),包含目标的位置和面积信息,接下来将位置向量投影得到位置特征,再和该区域的视觉特征(图像数组)结合输入到模型。在每个图像的开端增加一个[IMG]token表示该图像的整体信息。
  • Vision-Languge Encoder:给定上述图像目标区域输入 { [ I M G ] , v 1 , … , v I } \{[IMG], v_1, \dots, v_I\} {[IMG],v1,,vI}和文本输入 { [ C L S ] , w 1 , … , w T , [ S E P ] } \{[CLS], w_1, \dots, w_T, [SEP]\} {[CLS],w1,,wT,[SEP]},我们将两个输入拼接输入到ERNIE-ViL的两个Transformer中,其中每个Transformer采用的是cross-attended方式进行分数计算的,最终得到图像、文本的表示 h [ I M G ] , h [ C L S ] h_{[IMG]}, h_{[CLS]} h[IMG],h[CLS]

3.2 Scene Graph Prediction(SGP)

  首先简要介绍下Scene Graph(SG)的概念。Scene Graph指包含视觉场景的结构化知识,其中graph的节点为图像中的目标(对应目标检测中的目标),边为目标之间的关系。Scene graph中包含了很多语义信息。参考ERNIE2.0[1]模型知识掩码的思想,ERNIE-ViL将SG中的信息进行掩码和预测,具体包含目标预测、属性预测和关系预测三个目标,如下图左边所示
整体架构
  首先文章通过已有的Scene Graph Parser工具从文本中提取出SG,如上图右边所示。具体来说,给定句子 w w w,SG可表示为 G ( w ) = < O ( w ) , E ( w ) , K ( w ) > G(w) = <O(w), E(w), K(w)> G(w)=<O(w),E(w),K(w)>,其中 O ( w ) O(w) O(w)为句子 w w w中出现的目标集合, E ( w ) E(w) E(w)为句子中出现的目标之间关系集合, K ( w ) K(w) K(w)为句子中出现的目标的属性集合。
  接下来文章通过三个预测任务来学习SG中出现的高级知识

  • Object prediction:通过对目标节点的掩码来增强模型对目标级别的视觉-语言联系的学习。首先随机选择30%的目标,对这些目标 a) 80%的概率用[MASK]替换 b) 10%的概率用任意随机token进行替换 c) 10%的概率不变。然后通过目标 w o i w_{o_i} woi的上下文 w \ o i w_{\backslash o_i} w\oi和全部输入的图像 v v v预测目标 w o i w_{o_i} woi,损失函数为 L o b j ( θ ) = − E ( w , v ) ∼ D log ⁡ P ( w o i ∣ w \ o i , v ) . \mathcal{L}_{obj}(\theta) = - E_{(w, v) \sim D} \log P(w_{o_i} | w_{\backslash o_i}, v). Lobj(θ)=E(w,v)DlogP(woiw\oi,v).
  • Attribute Prediction:通过对目标属性的掩码来增强模型学习到视觉场景中的更高级的特征。首先从SG中随机选择30%的属性对,掩码策略同上。注意这里保留属性连接的目标节点信息,只是掩码掉被选中的属性token(s) w a i w_{a_i} wai,然后通过目标节点信息 w o i w_{o_i} woi和属性的上下文信息 w \ a i w_{\backslash a_i} w\ai以及全部的输入图像 v v v预测被掩码的属性,损失函数为 L a t t r ( θ ) = − E ( w , v ) ∼ D log ⁡ P ( w a i ∣ w o i , w \ a i , v ) . \mathcal{L}_{attr}(\theta) = - E_{(w, v) \sim D} \log P(w_{a_i} | w_{o_i}, w_{\backslash a_i},v). Lattr(θ)=E(w,v)DlogP(waiwoi,w\ai,v).
  • Relationship Prediction:通过对目标之间的关系掩码来增强模型对相同物体不同关系的视觉场景的区分。给定SG三元组 < w o i , 1 , w r i , w o i , 2 > <w_{o_{i,1}}, w_{r_i}, w_{o_{i,2}}> <woi,1,wri,woi,2>中的两个目标节点,我们将关系token(s) w r i w_{r_i} wri进行掩码,通过目标节点 w o i , 1 , w o i , 2 w_{o_{i,1}}, w_{o_{i,2}} woi,1,woi,2和关系的上下文 w \ r i w_{\backslash r_i} w\ri以及整个图像输入 v v v来预测被掩码的关系,损失函数为 L r e l ( θ ) = − E ( w , v ) ∼ D log ⁡ P ( w r i ∣ w o i , 1 , w o i , 2 , w \ r i , v ) . \mathcal{L}_{rel}(\theta) = - E_{(w, v) \sim D} \log P(w_{r_i} | w_{o_{i,1}},w_{o_{i,2}}, w_{\backslash r_i},v). Lrel(θ)=E(w,v)DlogP(wriwoi,1,woi,2,w\ri,v).
      最终模型采用上述预训练任务结合MLM、MRM、ITM训练得到一个统一的模型ERNIE-ViL,其中
  • MLM: Masked Language Modeling,随机对文本进行掩码,尝试还原掩码文本。详见BERT模型[2]
  • MRM: Masked Region Prediction,随机对图像进行掩码,尝试还原掩码图像。掩码方式同MLM
  • ITM:Image-Text Matching,判断图像-文本对是否匹配,即分类任务。具体将 < I M G > <IMG> <IMG>token和 < C L S > <CLS> <CLS>token进行element-wise点积然后增加一层MLP进行分类。

4. 文章亮点

  文章提出了ERNIE-ViL模型,首次将Scene Graph知识引入到预训练的多模态模型,在包括VCR等下游任务中超过SOTA。

5. 原文传送门

ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs

6. References

[1] 论文笔记–ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding
[2] 论文笔记–BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

这篇关于论文笔记--ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/471153

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓

忽略某些文件 —— Git 学习笔记 05

忽略某些文件 忽略某些文件 通过.gitignore文件其他规则源如何选择规则源参考资料 对于某些文件,我们不希望把它们纳入 Git 的管理,也不希望它们总出现在未跟踪文件列表。通常它们都是些自动生成的文件,比如日志文件、编译过程中创建的临时文件等。 通过.gitignore文件 假设我们要忽略 lib.a 文件,那我们可以在 lib.a 所在目录下创建一个名为 .gi