论文笔记 ACL 2020|Cross-media Structured Common Space for Multimedia Event Extraction

本文主要是介绍论文笔记 ACL 2020|Cross-media Structured Common Space for Multimedia Event Extraction,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 1 简介
      • 1.1 动机
      • 1.2 创新
    • 2 背景知识
    • 3 方法
      • 3.1 文本事件抽取
      • 3.2 图像事件抽取
      • 3.3 跨媒体联合训练
      • 3.4 跨媒体联合推断
    • 4 实验
    • 5 总结

1 简介

论文题目:Cross-media Structured Common Space for Multimedia Event Extraction
论文来源:ACL 2020
论文链接:https://arxiv.org/pdf/2005.02472.pdf

1.1 动机

  • 传统的事件抽取目标为单模态,如文本、图像、视频。然而当代新闻业通过多媒体传播新闻。

1.2 创新

  • 提出一个新任务:多模态事件抽取,构建第一个跨媒体的新闻数据集。
  • 提出一个弱监督训练框架,利用现存的单模态标注数据,不使用跨媒体标注进行联合推测。
  • 提出一个弱对齐结构嵌入方法(WASE),第一个利用结构化表示和基于图的神经网络进行多媒体公共空间嵌入。

2 背景知识

每一个输入文档包括图片集 M = { m 1 , m 2 , . . . } M=\{m_1,m_2,...\} M={m1,m2,...}和句子集 S = { s 1 , s 2 , . . . } S=\{s_1,s_2,...\} S={s1,s2,...},每个句子被表示为一个token序列 s = ( w 1 , w 2 , . . . ) s=(w_1,w_2,...) s=(w1,w2,...),输入还包括一个实体集 τ = { t 1 , t 2 , . . . } \tau=\{t_1,t_2,...\} τ={t1,t2,...} 。多媒体事件抽取( M 2 E 2 M^2E^2 M2E2)的目标分为两个:

  1. 事件抽取:抽取一系列事件提及,每一个事件提及e有一个类型 y e y_e ye和一个文本触发词w或者图像m或者两者都有: e = ( y e , { w , m } ) e=(y_e,\{w,m\}) e=(ye,{w,m})
  2. 论元抽取:抽取事件提及e的一系列论元,每一个论元a有一个论元角色 y a y_a ya和文本实体t或者图像对象(被表示作为一个边界框)或者两者都有: a = ( y a , { t , o } ) a=(y_a,\{t,o\}) a=(ya,{t,o})

标注多媒体事件存在一个挑战:在复杂的情况(一群人或者一组物体)下定位图像论元,为解决这个问题定义两种边界框:

  1. 联合边界框:对每一个角色,使用一个最小的边界框覆盖全部的组成部分。
  2. 实例边界框:对每一个角色,标注一系列边界框,每一个边界框是一个覆盖单个参与者的最小区间。

3 方法

模型的整个框架如下图,训练阶段分为三个任务:文本事件抽取、图像情形识别和跨媒体对齐。学习得到了一个跨媒体共享的编码器、一个共享的事件分类器和一个共享的论元分类器。在测试阶段,给定一个多媒体的新闻文章,编码句子和图像到一个结构的通用空间,联合抽取文本和图像事件和论元。
在这里插入图片描述

3.1 文本事件抽取

在这里插入图片描述
如上图所示,首先选择AMR(Abstract Meaning Representation)表示文本,因为它包含150个语义角色。为了编码文本句子,基于命名实体识别和词性标注(使用Stanford CoreNLP得到),使用CAMR分析程序生成一个AMR图。使用预训练的GloVe词编码、词性标注、命名实体识别和位置编码表示句子中的一个token,然后经过Bi-LSTM编码词序,得到每个token的表示。给定一个AMR图,使用GCN编码图的上下文信息,公式如下:
在这里插入图片描述
使用最后一层GCN每个单词的隐藏状态作为公共空间表示 w C w^{C} wC,C代表公共(多媒体)编码空间。对于每一个实体,通过平均它的token编码得到实体表示 t C t^{C} tC。通过下式,分类每个单词w为事件类型 y e y_e ye和每个实体t为论元角色 y a y_a ya。在训练阶段使用真实的文本实体提及,在测试阶段使用命名实体抽取器获得实体提及。
在这里插入图片描述

3.2 图像事件抽取

为了获得图像结构类似AMR图,将每个图片表示为行为图。如图四所示为一个星形图,中心结点被标记为动词v,邻居结点是论元被标记为{(n,r)},n为名词从WordNet词法集得到,表明实体的类型,r表明实体在事件中扮演的角色,基于FrameNet。使用下面两种方法从图像中构建行为图,使用imSitu数据集进行训练。

  1. 基于目标的图: 目标检测,使用FasterR-CNN模型获得目标的边界框,该模型在Open Images上训练,有600个种类。作者使用VGG-16 CNN抽取一个图像m的视觉特征,使用另一个VGG-16编码边界框 { o i } \{o_i\} {oi},使用多层感知机(MLP)从m中预测动词编码,使用另一个MLP从 o i o_i oi中预测名词编码,公式如下。
    在这里插入图片描述
    将预测的动词(或名词)编码和imSitu分类系统的全部动词v和名词n进行比较,为了分类动词和名词,公式如下,其中v和n是GloVE初始化的词向量。
    在这里插入图片描述
    使用另一个带隐藏层的MLP和Softmax为每个目标 o i o_i oi分类角色为 r i r_i ri,公式如下:
    在这里插入图片描述
    给定一个图片的动词 v ∗ v* v和角色名词 ( r i ∗ , n i ∗ ) (r^*_i,n^*_i) (ri,ni),定义目标检测的loss如下:
    在这里插入图片描述
  2. 基于注意力的图:
    目标检测只能覆盖一个限制数量的目标类型,如OpenImages定义600种类型。很多重要的目标没有定义在这些类别中,因此,作者提出一个可选择开放词典的基于目标图构建模型。为达到这个目的,构建了一个角色驱动的注意力图,每个论元节点由一个以角色r为条件的空间分布注意力(热图)导出。对每个图像m使用一个VGG-16 CNN抽取一个7×7卷积特征图,被当作注意力中的键 k i k_i ki。对于每一个目标检测定义的角色r,通过拼接角色编码r和图像的特征m,构建注意力中的query向量 q r q_r qr,公式如下:
    在这里插入图片描述
    计算每个query和全部key的点乘,然后进行Softmax,得到热力图h,公式如下:
    在这里插入图片描述
    然后使用热力图获得特征图的加权平均值,以表示视觉空间中每个角色r的论元 o r o_r or,公式如下:
    在这里插入图片描述
    类似基于目标的模型,编码 o r o_r or o ^ r \widehat{o}_r o r,和imSitu的名词编码对比定义一个分布和一个分类loss函数。动词编码 m ^ \widehat{m} m 和动词预测概率 P ( v ∣ m ) P(v|m) P(vm)和loss与基于目标的模型一样。
    基于目标和注意力的方法在imSitu数据集上预训练,使用GCN获得每个结点在公共空间的结构编码,得到 m C m^C mC o i C o^C_i oiC,然后使用文本事件抽取的相同分类器,使用公共空间编码对每个视觉事件和论元进行分类。
    在这里插入图片描述

3.3 跨媒体联合训练

为了使事件和论元分类器在跨模态中共享,图像和文本图应该被编码在相同的空间。然而,获得平行的文本和图像事件标注的代价很大,因此,使用事件和论元标注在单独模态(ACE和imSitu数据集)训练分类器,同时使用VOA news的图像和标题对匹配两个模态。为达到这个目的,学习将每个图像图的节点嵌入到相应标题图的节点附近,而远离无关标题图中的节点。由于图像节点和标题节点之间没有真实地对齐,使用图像和标题对进行弱监督训练,学习从每个单词到图像对象的软对齐,反之亦然。
在这里插入图片描述
其中 w i w_i wi为标题句子s中的第i个单词, o j o_j oj表示图像m的第j个对象,然后为其他模态中的每个节点计算软对齐节点的加权平均值:
在这里插入图片描述
将图像-标题对的对齐成本定义为每个节点和它的对齐表示之间的欧几里德距离:
在这里插入图片描述
使用triplet损失,相关的图像-标题对靠近,不相关的远离,其中 m − m^- m为随机的负样本(与s不匹配),为了学习图像和触发词之间的对齐,在学习跨媒体对齐中将图像看作一个特殊的对象。
在这里插入图片描述
公共空间使事件和参数分类器能够跨模式共享权重,通过最小化下面的目标函数,在ACE和原位数据集上进行联合训练。
在这里插入图片描述
最后,全部任务被联合优化:
在这里插入图片描述

3.4 跨媒体联合推断

在测试阶段,使用有句子 S = { s 1 , s 2 , . . . } S=\{s_1,s_2,...\} S={s1,s2,...}和图像 M = { m 1 , m 2 , . . . } M=\{m_1,m_2,...\} M={m1,m2,...}作为输入,首先为每个句子和图像生成结构的公共编码,然后计算相似性<s,m>,匹配每个句子s和最接近的图像m,通过加权平均,将s中每个单词的特征与m中的对齐表示进行聚合,如下式,其中 γ = e x p ( − < s , m > ) \gamma=exp(-<s,m>) γ=exp(<s,m>) w i ′ w'_i wi有m得到,使用多模态分类器和 w i ′ ′ w''_i wi分类每个单词为一个事件类型和分类每一个实体为一个角色。定义 t i ′ ′ t''_i ti相似 w i ′ ′ w''_i wi。相似地,对于每个图像m,寻找最接近的句子s,计算聚合的多模态特征 m i ′ ′ m''_i mi o i ′ ′ o''_i oi,然后通过共享的分类器预测视觉事件和论元角色。最后,如果相似性<s,m>高于一个阀值,合并跨媒体的事件为相同的事件类型。
在这里插入图片描述

4 实验

在提出的 M 2 E 2 M^2E^2 M2E2数据集上进行只有文本、只有图像和多模态事件提及的评测。只有文本的事件提及评测标准如下:

  • 如果事件类型和触发词偏置与一个参考触发词匹配,则该文本事件提及正确。
  • 如果事件类型、论元偏置和角色标签与一个参考论元匹配,则该文本事件论元正确。

对只有图像的事件提及做相似的定义,评测标准如下,如果预测边界框与真实边界框的交并比(IoU)超过0.5,则视觉论元将正确定位。

  • 如果事件类型和图像与一个参考视觉事件提及匹配,则该图像事件提及正确。
  • 如果事件类型、位置和角色标签与一个参考论元匹配,则该图像事件论元正确。

如果事件类型和触发词偏置(或者图像)与参考触发词(或者参考图像)匹配,则这个多模态事件提及正确。多媒体事件的论元可以是文本参数,也可以是可视参数,相应地进行评估。为了使基于注意力的模型生成边界框,我们使用自适应值 0.75 ∗ p 0.75*p 0.75p对热力图设置阈值,其中p是热力图的峰值。然后计算包围所有阈值区域的最紧边界框。
实验结果如下图:
在这里插入图片描述
为了评估跨媒体事件共指性能,在同一文档中将文本和视觉事件提及进行配对,与真实的事件提及对计算得到P,R,F1,实验结果如下:
在这里插入图片描述
跨模态联合训练的方法成功地增强了事件抽取和论元角色标注的表现,如下图,只有文本的模型不能抽取事件,但是联合模型可以使用图像作为背景去检测事件。
在这里插入图片描述
比较多模态单调编码,WASE可以学习结构,如下图(交通工具上的人、逮捕事件中间的人)。
在这里插入图片描述

M 2 E 2 M^2E^2 M2E2中最大的挑战是定位图片中的论元。基于目标的模型遭受限制的目标类型,基于注意力的模型不能精确地定位每个论元的目标,因为在训练期间对注意力的提取是无监督的。如下图,事件被正确的预测,但是定位错误。
在这里插入图片描述
当一个论元有太多实例时,注意力热力图往往会失去焦点并覆盖整个图像,如下图。
在这里插入图片描述

5 总结

  • 提出了一个新任务:多模态事件抽取和设置了一个新的基准。
  • 利用现有图像标题对和单模态注释数据的弱监督训练,提出了一个新的多媒体结构化公共空间构建方法。

这篇关于论文笔记 ACL 2020|Cross-media Structured Common Space for Multimedia Event Extraction的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/411327

相关文章

CSS @media print 使用详解

《CSS@mediaprint使用详解》:本文主要介绍了CSS中的打印媒体查询@mediaprint包括基本语法、常见使用场景和代码示例,如隐藏非必要元素、调整字体和颜色、处理链接的URL显示、分页控制、调整边距和背景等,还提供了测试方法和关键注意事项,并分享了进阶技巧,详细内容请阅读本文,希望能对你有所帮助...

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个?

跨平台系列 cross-plateform 跨平台应用程序-01-概览 cross-plateform 跨平台应用程序-02-有哪些主流技术栈? cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个? cross-plateform 跨平台应用程序-04-React Native 介绍 cross-plateform 跨平台应用程序-05-Flutte

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个