论文笔记 ACL 2020|Cross-media Structured Common Space for Multimedia Event Extraction

本文主要是介绍论文笔记 ACL 2020|Cross-media Structured Common Space for Multimedia Event Extraction，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

- 1 简介
- - 1.1 动机
  - 1.2 创新
- 2 背景知识
- 3 方法
- - 3.1 文本事件抽取
  - 3.2 图像事件抽取
  - 3.3 跨媒体联合训练
  - 3.4 跨媒体联合推断
- 4 实验
- 5 总结

1 简介

论文题目：Cross-media Structured Common Space for Multimedia Event Extraction
论文来源：ACL 2020
论文链接：https://arxiv.org/pdf/2005.02472.pdf

1.1 动机

传统的事件抽取目标为单模态，如文本、图像、视频。然而当代新闻业通过多媒体传播新闻。

1.2 创新

提出一个新任务：多模态事件抽取，构建第一个跨媒体的新闻数据集。
提出一个弱监督训练框架，利用现存的单模态标注数据，不使用跨媒体标注进行联合推测。
提出一个弱对齐结构嵌入方法(WASE),第一个利用结构化表示和基于图的神经网络进行多媒体公共空间嵌入。

2 背景知识

每一个输入文档包括图片集 $M=\{m_1,m_2,...\}$ 和句子集 $S=\{s_1,s_2,...\}$ ,每个句子被表示为一个token序列 $s=(w_1,w_2,...)$ ,输入还包括一个实体集 $\tau=\{t_1,t_2,...\}$ 。多媒体事件抽取( $M^2E^2$ )的目标分为两个：

事件抽取：抽取一系列事件提及，每一个事件提及e有一个类型 $y_e$ 和一个文本触发词w或者图像m或者两者都有： $e=(y_e,\{w,m\})$
论元抽取：抽取事件提及e的一系列论元，每一个论元a有一个论元角色 $y_a$ 和文本实体t或者图像对象(被表示作为一个边界框)或者两者都有： $a=(y_a,\{t,o\})$

标注多媒体事件存在一个挑战：在复杂的情况(一群人或者一组物体)下定位图像论元，为解决这个问题定义两种边界框：

联合边界框：对每一个角色，使用一个最小的边界框覆盖全部的组成部分。
实例边界框：对每一个角色，标注一系列边界框，每一个边界框是一个覆盖单个参与者的最小区间。

3 方法

模型的整个框架如下图，训练阶段分为三个任务：文本事件抽取、图像情形识别和跨媒体对齐。学习得到了一个跨媒体共享的编码器、一个共享的事件分类器和一个共享的论元分类器。在测试阶段，给定一个多媒体的新闻文章，编码句子和图像到一个结构的通用空间，联合抽取文本和图像事件和论元。
在这里插入图片描述

3.1 文本事件抽取

在这里插入图片描述
如上图所示，首先选择AMR(Abstract Meaning Representation)表示文本，因为它包含150个语义角色。为了编码文本句子，基于命名实体识别和词性标注(使用Stanford CoreNLP得到)，使用CAMR分析程序生成一个AMR图。使用预训练的GloVe词编码、词性标注、命名实体识别和位置编码表示句子中的一个token，然后经过Bi-LSTM编码词序，得到每个token的表示。给定一个AMR图，使用GCN编码图的上下文信息，公式如下：
在这里插入图片描述
使用最后一层GCN每个单词的隐藏状态作为公共空间表示 $w^{C}$ ,C代表公共(多媒体)编码空间。对于每一个实体，通过平均它的token编码得到实体表示 $t^{C}$ 。通过下式，分类每个单词w为事件类型 $y_e$ 和每个实体t为论元角色 $y_a$ 。在训练阶段使用真实的文本实体提及，在测试阶段使用命名实体抽取器获得实体提及。
在这里插入图片描述

3.2 图像事件抽取

为了获得图像结构类似AMR图，将每个图片表示为行为图。如图四所示为一个星形图，中心结点被标记为动词v，邻居结点是论元被标记为{(n,r)}，n为名词从WordNet词法集得到，表明实体的类型，r表明实体在事件中扮演的角色，基于FrameNet。使用下面两种方法从图像中构建行为图，使用imSitu数据集进行训练。

基于目标的图: 目标检测，使用FasterR-CNN模型获得目标的边界框，该模型在Open Images上训练，有600个种类。作者使用VGG-16 CNN抽取一个图像m的视觉特征，使用另一个VGG-16编码边界框 ${o_i\}$ ,使用多层感知机(MLP)从m中预测动词编码，使用另一个MLP从 $o_i$ 中预测名词编码，公式如下。

将预测的动词(或名词)编码和imSitu分类系统的全部动词v和名词n进行比较，为了分类动词和名词，公式如下,其中v和n是GloVE初始化的词向量。

使用另一个带隐藏层的MLP和Softmax为每个目标 $o_i$ 分类角色为 $r_i$ ,公式如下：

给定一个图片的动词 $v *$ 和角色名词 $r^*_i,n^*_i)$ ，定义目标检测的loss如下:
基于注意力的图:
目标检测只能覆盖一个限制数量的目标类型，如OpenImages定义600种类型。很多重要的目标没有定义在这些类别中，因此，作者提出一个可选择开放词典的基于目标图构建模型。为达到这个目的，构建了一个角色驱动的注意力图，每个论元节点由一个以角色r为条件的空间分布注意力（热图）导出。对每个图像m使用一个VGG-16 CNN抽取一个7×7卷积特征图，被当作注意力中的键 $k_i$ 。对于每一个目标检测定义的角色r，通过拼接角色编码r和图像的特征m，构建注意力中的query向量 $q_r$ ,公式如下：

计算每个query和全部key的点乘，然后进行Softmax，得到热力图h，公式如下：

然后使用热力图获得特征图的加权平均值，以表示视觉空间中每个角色r的论元 $o_r$ ,公式如下：

类似基于目标的模型，编码 $o_r$ 为 $\widehat{o}_r$ ,和imSitu的名词编码对比定义一个分布和一个分类loss函数。动词编码 $\widehat{m}$ 和动词预测概率 $P (v ∣ m)$ 和loss与基于目标的模型一样。
基于目标和注意力的方法在imSitu数据集上预训练，使用GCN获得每个结点在公共空间的结构编码，得到 $m^C$ 和 $o^C_i$ ，然后使用文本事件抽取的相同分类器，使用公共空间编码对每个视觉事件和论元进行分类。

3.3 跨媒体联合训练

为了使事件和论元分类器在跨模态中共享，图像和文本图应该被编码在相同的空间。然而，获得平行的文本和图像事件标注的代价很大，因此，使用事件和论元标注在单独模态(ACE和imSitu数据集)训练分类器，同时使用VOA news的图像和标题对匹配两个模态。为达到这个目的，学习将每个图像图的节点嵌入到相应标题图的节点附近，而远离无关标题图中的节点。由于图像节点和标题节点之间没有真实地对齐，使用图像和标题对进行弱监督训练，学习从每个单词到图像对象的软对齐，反之亦然。
在这里插入图片描述
其中 $w_i$ 为标题句子s中的第i个单词， $o_j$ 表示图像m的第j个对象，然后为其他模态中的每个节点计算软对齐节点的加权平均值：

将图像-标题对的对齐成本定义为每个节点和它的对齐表示之间的欧几里德距离：
在这里插入图片描述
使用triplet损失，相关的图像-标题对靠近，不相关的远离，其中 $m^-$ 为随机的负样本(与s不匹配)，为了学习图像和触发词之间的对齐，在学习跨媒体对齐中将图像看作一个特殊的对象。

公共空间使事件和参数分类器能够跨模式共享权重，通过最小化下面的目标函数，在ACE和原位数据集上进行联合训练。
在这里插入图片描述
最后，全部任务被联合优化：

3.4 跨媒体联合推断

在测试阶段，使用有句子 $S=\{s_1,s_2,...\}$ 和图像 $M=\{m_1,m_2,...\}$ 作为输入，首先为每个句子和图像生成结构的公共编码，然后计算相似性<s,m>,匹配每个句子s和最接近的图像m，通过加权平均，将s中每个单词的特征与m中的对齐表示进行聚合,如下式，其中 $\gamma=exp(-<s,m>)$ ， $w'_i$ 有m得到,使用多模态分类器和 $w''_i$ 分类每个单词为一个事件类型和分类每一个实体为一个角色。定义 $t''_i$ 相似 $w''_i$ 。相似地，对于每个图像m，寻找最接近的句子s，计算聚合的多模态特征 $m''_i$ 和 $o''_i$ ，然后通过共享的分类器预测视觉事件和论元角色。最后，如果相似性<s,m>高于一个阀值，合并跨媒体的事件为相同的事件类型。
在这里插入图片描述

4 实验

在提出的 $M^2E^2$ 数据集上进行只有文本、只有图像和多模态事件提及的评测。只有文本的事件提及评测标准如下：

如果事件类型和触发词偏置与一个参考触发词匹配，则该文本事件提及正确。
如果事件类型、论元偏置和角色标签与一个参考论元匹配，则该文本事件论元正确。

对只有图像的事件提及做相似的定义，评测标准如下，如果预测边界框与真实边界框的交并比（IoU）超过0.5，则视觉论元将正确定位。

如果事件类型和图像与一个参考视觉事件提及匹配，则该图像事件提及正确。
如果事件类型、位置和角色标签与一个参考论元匹配，则该图像事件论元正确。

如果事件类型和触发词偏置(或者图像)与参考触发词(或者参考图像)匹配，则这个多模态事件提及正确。多媒体事件的论元可以是文本参数，也可以是可视参数，相应地进行评估。为了使基于注意力的模型生成边界框，我们使用自适应值 $0.75 * p$ 对热力图设置阈值，其中p是热力图的峰值。然后计算包围所有阈值区域的最紧边界框。
实验结果如下图：
在这里插入图片描述
为了评估跨媒体事件共指性能，在同一文档中将文本和视觉事件提及进行配对，与真实的事件提及对计算得到P，R，F1，实验结果如下：

跨模态联合训练的方法成功地增强了事件抽取和论元角色标注的表现，如下图，只有文本的模型不能抽取事件，但是联合模型可以使用图像作为背景去检测事件。
在这里插入图片描述
比较多模态单调编码，WASE可以学习结构，如下图(交通工具上的人、逮捕事件中间的人)。

在 $M^2E^2$ 中最大的挑战是定位图片中的论元。基于目标的模型遭受限制的目标类型，基于注意力的模型不能精确地定位每个论元的目标，因为在训练期间对注意力的提取是无监督的。如下图，事件被正确的预测，但是定位错误。
在这里插入图片描述
当一个论元有太多实例时，注意力热力图往往会失去焦点并覆盖整个图像，如下图。