【论文翻译】Denoising Relation Extraction from Document-level Distant Supervision

本文主要是介绍【论文翻译】Denoising Relation Extraction from Document-level Distant Supervision，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1. 介绍

关系抽取(relationship extraction, RE)的目的是识别文本实体之间的关系事实。最近，神经关系提取(NRE)模型在句子级RE中得到了验证。远程监控(DS) 提供了大规模的远程监控数据，使实例成倍增加，并支持足够的模型训练。

句子层次的重新重点是提取句子中实体之间的句子内关系。然而，由于存在大量的句间关系事实隐藏在多个句子中，在实践中其通用性和覆盖面受到极大的限制。对从维基百科文档构建的大规模RE数据集的统计表明，至少40:7%的关系事实只能从多个句子中推断出来。

大多数DocRE模型严重依赖于高质量的人工标注训练数据，这既费时又费力。然而，扩展句子的层次是非常具有挑战性的。执行文档级远程监督的挑战主要来自：

每个实体都包含多个提及，没有关联上下文的提及会给实体表示带来噪声。
DS的固有噪声甚至会在文档级别上成倍增加。Yao et al.(2019)的统计数据表明，文档级DS生成的61.8%的句子间关系实例，实际上是噪声。
从长文档中获取有用的关系语义是一项挑战，因为文档中的大多数内容可能与给定的实体和关系无关。

在本文中，我们尝试去噪后，引入文档级的远程监督。为了降低噪声，我们提出一个预训练模型和三个特别设计的任务去噪。
模型架构

提及实体的匹配

它旨在从多次提及中捕获有用信息，为实体生成信息表示。它由文档内和文档间的子任务组成。文档内子任务的目的是匹配文档中的隐藏提及和实体，以获取共引用信息。文档间子任务的目的是匹配两个文档之间的实体，掌握文档之间的实体关联。
关系检测

它的重点是去噪“非关系(NA)”和标记错误的实例，通过检测具有关系的实体对，即正实例。它被专门设计为文档级去噪任务。我们还进行了一个用该任务训练的去噪前模块，在训练前过滤掉NA实例。
关系事实对齐

这要求模型从不同的表达式为相同的实体对产生相似的表示。这允许模型更多地关注不同的关系表达式和去噪来自文档的不相关信息。

2. 相关工作

2.1 句子级关系抽取

传统的关系抽取模型基于有监督的方法，或是利用更多的数据，诸如远程监督。为了对远监督进行去噪，引入了注意力机制、生成式对抗训练，和强化学习，难以将这些模型应用到DocRE上，因为DocRE应该从每个文档中提取多个关系事实。

2.2 文档级关系抽取

有些利用了语义特征、基于图的模型，以便在人工标注的数据上提取句间关系。

据我们所知，我们是第一个使用预先训练过的模型去噪文档级DS的人。我们将文档级远程监督引入DocRE，并对这些远监督数据进行预处理去噪

3. 方法

首先通过预处理去噪模块从所有文档中筛选出一些NA实例（Not A Relation），然后在文档级远程监督数据集上使用三个预训练任务对文档编码器进行预训练。最后，在人工标注的数据集上对模型进行微调。

3.1 文档级编码器

采用BERT作为文档编码器，将文档编码为实体提及、实体、关系的表示。
在这里插入图片描述使用BERT将带有实体标记的序列进行编码，将每个实体的表示mij定义为其开始标记的隐藏状态。然后执行max-pooling操作，从实体的提及中获得其聚合表示。
ei = MaxPooling({mij})
接下来，对每一个实体对，我们都采用一个双线性层来计算其关系表示。

3.2 预先训练的任务

3.2.1 实体提及匹配

一个实体在文档中通常被多次提及，从这些提及中捕捉关系信息是非常重要的。
因此我们提出了实体和提及的匹配任务，去帮助模型产生提及和实体的表示，这包括文档内和文档间的子任务。

文档内子任务要求模型掌握文档内的共引用信息。我们随机屏蔽一个提及的实体，并要求模型预测它属于文档中的哪个实体。

给定mask的实体提及mq，以及从相同文档中的km个实体emi，我们用一个双线性层计算每一个实体emi与mask过的实体提及mq的匹配分数。
在这里插入图片描述
文档间子任务要求模型链接两个不同文档中的相同实体。他使模型将上下文的有用信息编码到表示中。
BilinearM表示文档内子任务中相同的双线性层。然后将两个匹配的分数输入softmax函数中。

3.2.2 关系检测

Not-A-Relation在文档级关系抽取中是非常常见的。对于NA实例去噪，从NA噪声中识别出True Positive实例是很有必要的。
因此设计这个关系检测任务，去识别区分True Positive实例和NA实例。
在这里插入图片描述
与前面的实体提及匹配任务类似，这个任务也可以划分为文档内部和文档间的子任务。对于文档内子任务，所有实例都从单个文档取样。对于文档间子任务，从不同的文档中采样实例。

3.2.3 关系事实对齐

为了从长文档中获取有用信息并去噪无关内容，我们设计了关系级任务，要求相同实体对在不同文档中的表示具有相似性。
假设dA和dB是来自训练集的两个文档，它们共享一些关系事实。
在这里插入图片描述

然后将相似分数输入到文档dA的softmax层中。
最后，训练前的总损失是上述三个任务所有交叉熵损失的总和。
L = LM + LS + LN

在没有任何相关知识的情况下，实体链接系统可以很容易地使损失最小化。为了避免这个问题，我们用一个特殊的空白符号[BLANK]以概率α替换文档中实体的所有提及。

3.3 预先去噪模块

已知文档级远程监督会引入更多噪声，为了缓解这一问题，使用排序模型从所有文档中筛选出关联概率较低的实体对。我们在人工标注的训练集上训练带有关系检测任务的排序模型。
然后排序模型可以给正实例更高的分数，给NA实例低的分数。在去噪过程中，我们计算所有实体对的positive分数
在这里插入图片描述
接下来，对于每个文档，我们根据其positive分数对所有的实体对进行排序，保留前top KD
个实体对进行预训练、微调和评估。
预先去噪模块与之前介绍的训练前的任务使用的模型相同。
实验证明，通过预先去噪模块，远程监督中的错误标注问题、标注不平衡问题（即大部分实体对属于NA实例），在人工标注语料库中可以得到缓解。

4. 实验

4.1 数据集和评估策略

DocRED
我们使用文档级远程监督数据对模型进行预训练，然后在人工标注的数据上对模型进行微调和评估。使用F1和Ign F1作为评估指标。其中Ign F1表示在训练集、验证集和测试集中不包含关系事实的F1分数。

4.2 Baseline

CNN/LSTM/BiLSTM
这些模型通过各种编码器捕获关系语义。
ContextAware
它考虑关系与attention的相互作用，联合学习上下文的实体对
BERT
BERT-TS
第一步预测两个实体是否有关系，第二步预测具体的关系
HIN-BERT
应用一个层次推理网络来聚合来自多个粒度的信息
DS-BiLSTM/ ContextAware
在DS数据上训练相应的模型

4.3 实现细节

我们基于BERT-BASE预训练我们的模型。所有超参数都是手动调优选择的。学习速率设置为3e−5用于预训练，1e−5用于微调。关系表示的大小为256。训练前的批大小设置为16和4，以便进行微调。在微调过程中，我们对每个文档进行去噪预处理后保留2Nent个实体对，其中Nent是文档中提到的实体的数量。
在预训练中，我们为每个文档保留20个实体对。所有特殊标记(包括实体标记和特殊空白符号)都是使用BERT-BASE词汇表中未使用的标记实现的。

4.4 结果

D表示预先去噪模块，P表示预先训练的任务。我们的模型在很大程度上优于所有的baseline。这是由于预去噪机制和三个预先训练任务的有效性。

仅仅包含预先去噪模块的模型BERT+D的效果也优于所有的基线模型，表明我们的去噪模块可以处理大量的NA实例数据。
远监督数据中的噪声危害了RE系统的性能。该模型能够滤除噪声并从大规模远监督数据中捕获信息，从而提高了性能。
没有去噪的预训练(BERT+P)由于标注错误的数据量大，无法收敛。

4.5 消融实验

在这里插入图片描述说明三个任务都对主模型有贡献，缺一不可。
注意到删除关系检测任务后，F1和Ign F1的得分大幅下降。这是因为没有关系检测，模型不能识别正实例，这在文档级RE中非常重要，然后标签不平衡也会导致分数下降。
此外，我们还进行了另一个消融实验，以探索文档内和文档间子任务的有效性。
其中，w/o Intra 和w/o Inter 指的是没有文档内和文档间子任务的预训练。
我们发现文档内和文档间子任务都对主模型有贡献。