【论文翻译】Denoising Relation Extraction from Document-level Distant Supervision

本文主要是介绍【论文翻译】Denoising Relation Extraction from Document-level Distant Supervision,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 介绍

关系抽取(relationship extraction, RE)的目的是识别文本实体之间的关系事实。最近,神经关系提取(NRE)模型在句子级RE中得到了验证。远程监控(DS) 提供了大规模的远程监控数据,使实例成倍增加,并支持足够的模型训练。

句子层次的重新重点是提取句子中实体之间的句子内关系。然而,由于存在大量的句间关系事实隐藏在多个句子中,在实践中其通用性和覆盖面受到极大的限制。对从维基百科文档构建的大规模RE数据集的统计表明,至少40:7%的关系事实只能从多个句子中推断出来。

大多数DocRE模型严重依赖于高质量的人工标注训练数据,这既费时又费力。然而,扩展句子的层次是非常具有挑战性的。执行文档级远程监督的挑战主要来自:

  1. 每个实体都包含多个提及,没有关联上下文的提及会给实体表示带来噪声。
  2. DS的固有噪声甚至会在文档级别上成倍增加。Yao et al.(2019)的统计数据表明,文档级DS生成的61.8%的句子间关系实例,实际上是噪声。
  3. 从长文档中获取有用的关系语义是一项挑战,因为文档中的大多数内容可能与给定的实体和关系无关。

在本文中,我们尝试去噪后,引入文档级的远程监督。为了降低噪声,我们提出一个预训练模型和三个特别设计的任务去噪
模型架构

  1. 提及实体的匹配

    它旨在从多次提及中捕获有用信息,为实体生成信息表示。它由文档内和文档间的子任务组成。文档内子任务的目的是匹配文档中的隐藏提及和实体,以获取共引用信息。文档间子任务的目的是匹配两个文档之间的实体,掌握文档之间的实体关联。

  2. 关系检测

    它的重点是去噪“非关系(NA)”和标记错误的实例,通过检测具有关系的实体对,即正实例。它被专门设计为文档级去噪任务。我们还进行了一个用该任务训练的去噪前模块,在训练前过滤掉NA实例。

  3. 关系事实对齐

    这要求模型从不同的表达式为相同的实体对产生相似的表示。这允许模型更多地关注不同的关系表达式和去噪来自文档的不相关信息。

2. 相关工作

2.1 句子级关系抽取

传统的关系抽取模型基于有监督的方法,或是利用更多的数据,诸如远程监督。为了对远监督进行去噪,引入了注意力机制、生成式对抗训练,和强化学习,难以将这些模型应用到DocRE上,因为DocRE应该从每个文档中提取多个关系事实。

2.2 文档级关系抽取

有些利用了语义特征、基于图的模型,以便在人工标注的数据上提取句间关系。

据我们所知,我们是第一个使用预先训练过的模型去噪文档级DS的人。我们将文档级远程监督引入DocRE,并对这些远监督数据进行预处理去噪

3. 方法

首先通过预处理去噪模块从所有文档中筛选出一些NA实例(Not A Relation),然后在文档级远程监督数据集上使用三个预训练任务对文档编码器进行预训练。最后,在人工标注的数据集上对模型进行微调。

3.1 文档级编码器

采用BERT作为文档编码器,将文档编码为实体提及、实体、关系的表示。
在这里插入图片描述使用BERT将带有实体标记的序列进行编码,将每个实体的表示mij定义为其开始标记的隐藏状态。然后执行max-pooling操作,从实体的提及中获得其聚合表示。
ei = MaxPooling({mij})
接下来,对每一个实体对,我们都采用一个双线性层来计算其关系表示。

3.2 预先训练的任务

3.2.1 实体提及匹配

一个实体在文档中通常被多次提及,从这些提及中捕捉关系信息是非常重要的。
因此我们提出了实体和提及的匹配任务,去帮助模型产生提及和实体的表示,这包括文档内和文档间的子任务。

文档内子任务要求模型掌握文档内的共引用信息。我们随机屏蔽一个提及的实体,并要求模型预测它属于文档中的哪个实体

给定mask的实体提及mq,以及从相同文档中的km个实体emi,我们用一个双线性层计算每一个实体emi与mask过的实体提及mq的匹配分数。
在这里插入图片描述
文档间子任务要求模型链接两个不同文档中的相同实体。他使模型将上下文的有用信息编码到表示中。
在这里插入图片描述BilinearM表示文档内子任务中相同的双线性层。然后将两个匹配的分数输入softmax函数中。

3.2.2 关系检测

Not-A-Relation在文档级关系抽取中是非常常见的。对于NA实例去噪,从NA噪声中识别出True Positive实例是很有必要的。
因此设计这个关系检测任务,去识别区分True Positive实例和NA实例
在这里插入图片描述
与前面的实体提及匹配任务类似,这个任务也可以划分为文档内部和文档间的子任务。对于文档内子任务,所有实例都从单个文档取样。对于文档间子任务,从不同的文档中采样实例。

3.2.3 关系事实对齐

为了从长文档中获取有用信息并去噪无关内容,我们设计了关系级任务,要求相同实体对在不同文档中的表示具有相似性。
假设dA和dB是来自训练集的两个文档,它们共享一些关系事实。
在这里插入图片描述在这里插入图片描述

然后将相似分数输入到文档dA的softmax层中。
最后,训练前的总损失是上述三个任务所有交叉熵损失的总和
L = LM + LS + LN

在没有任何相关知识的情况下,实体链接系统可以很容易地使损失最小化。为了避免这个问题,我们用一个特殊的空白符号[BLANK]以概率α替换文档中实体的所有提及。

3.3 预先去噪模块

已知文档级远程监督会引入更多噪声,为了缓解这一问题,使用排序模型从所有文档中筛选出关联概率较低的实体对。我们在人工标注的训练集上训练带有关系检测任务的排序模型。
然后排序模型可以给正实例更高的分数,给NA实例低的分数。在去噪过程中,我们计算所有实体对的positive分数
在这里插入图片描述
接下来,对于每个文档,我们根据其positive分数对所有的实体对进行排序,保留前top KD
个实体对进行预训练、微调和评估。
预先去噪模块与之前介绍的训练前的任务使用的模型相同。
实验证明,通过预先去噪模块,远程监督中的错误标注问题、标注不平衡问题(即大部分实体对属于NA实例),在人工标注语料库中可以得到缓解。

4. 实验

4.1 数据集和评估策略

DocRED
我们使用文档级远程监督数据对模型进行预训练,然后在人工标注的数据上对模型进行微调和评估。使用F1和Ign F1作为评估指标。其中Ign F1表示在训练集、验证集和测试集中不包含关系事实的F1分数。

4.2 Baseline

  1. CNN/LSTM/BiLSTM
    这些模型通过各种编码器捕获关系语义。
  2. ContextAware
    它考虑关系与attention的相互作用,联合学习上下文的实体对
  3. BERT
  4. BERT-TS
    第一步预测两个实体是否有关系,第二步预测具体的关系
  5. HIN-BERT
    应用一个层次推理网络来聚合来自多个粒度的信息
  6. DS-BiLSTM/ ContextAware
    在DS数据上训练相应的模型

4.3 实现细节

我们基于BERT-BASE预训练我们的模型。所有超参数都是手动调优选择的。学习速率设置为3e−5用于预训练,1e−5用于微调。关系表示的大小为256。训练前的批大小设置为16和4,以便进行微调。在微调过程中,我们对每个文档进行去噪预处理后保留2Nent个实体对,其中Nent是文档中提到的实体的数量。
在预训练中,我们为每个文档保留20个实体对。所有特殊标记(包括实体标记和特殊空白符号)都是使用BERT-BASE词汇表中未使用的标记实现的。

4.4 结果

结果D表示预先去噪模块,P表示预先训练的任务。我们的模型在很大程度上优于所有的baseline。这是由于预去噪机制和三个预先训练任务的有效性。

仅仅包含预先去噪模块的模型BERT+D的效果也优于所有的基线模型,表明我们的去噪模块可以处理大量的NA实例数据。
远监督数据中的噪声危害了RE系统的性能。该模型能够滤除噪声并从大规模远监督数据中捕获信息,从而提高了性能。
没有去噪的预训练(BERT+P)由于标注错误的数据量大,无法收敛。

4.5 消融实验

在这里插入图片描述说明三个任务都对主模型有贡献,缺一不可。
注意到删除关系检测任务后,F1和Ign F1的得分大幅下降。这是因为没有关系检测,模型不能识别正实例,这在文档级RE中非常重要,然后标签不平衡也会导致分数下降。
此外,我们还进行了另一个消融实验,以探索文档内和文档间子任务的有效性。
其中,w/o Intra 和w/o Inter 指的是没有文档内和文档间子任务的预训练。
我们发现文档内和文档间子任务都对主模型有贡献。

5. 结论

在本文中,我们提出通过多次预训练对DocRE 中的远监督数据进行去噪,实验证明了模型的有效性。

这篇关于【论文翻译】Denoising Relation Extraction from Document-level Distant Supervision的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/388656

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

JavaScript中document.cookie

“某些 Web 站点在您的硬盘上用很小的文本文件存储了一些信息,这些文件就称为 Cookie。”—— MSIE 帮助。一般来说,Cookies 是 CGI 或类似,比 HTML 高级的文件、程序等创建的,但是 javascript 也提供了对 Cookies 的很全面的访问权利。       每个 Cookie 都是这样的:<cookie名>=<值>   <cookie名>的限制与 javasc

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

excel翻译软件有哪些?如何高效提翻译?

你是否曾在面对满屏的英文Excel表格时感到头疼?项目报告、数据分析、财务报表... 当这些重要的信息被语言壁垒阻挡时,效率和理解度都会大打折扣。别担心,只需3分钟,我将带你轻松解锁excel翻译成中文的秘籍。 无论是职场新人还是老手,这一技巧都将是你的得力助手,让你在信息的海洋中畅游无阻。 方法一:使用同声传译王软件 同声传译王是一款专业的翻译软件,它支持多种语言翻译,可以excel

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性