Discourse Marker Augmented Network with Reinforcement Learning for Natural Language Inference

本文主要是介绍Discourse Marker Augmented Network with Reinforcement Learning for Natural Language Inference,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

基于连词加强网络和强化学习的自然语言推理模型

这篇文章是浙江大学CAD&CG国家重点实验室和阿里巴巴-浙大前沿技术联合研究院合作设计了基于连词加强网络的自然语言推理方法,并在此基础上应用了强化学习来整合不同样本的标注意见不统一的情况,从而提升模型的稳定性。该成果已发表于自然语言处理领域国际顶级会议ACL 2018。最近看到这篇文章感到对自己启发挺大,所以写个微博记录一下~

摘要

自然语言推理(Natural Language Inference,NLI)也被称为文本蕴含识别(RTE),是自然语言处理中最重要的问题之一,它需要推断两个给定句子之间的逻辑关系。目前常见方法主要集中在句子的交互架构上,但在这篇论文中,使用从一些重要的连词(discourse markers)迁移知识以提高NLI模型的质量。人们通常使用一些话语标记,如“so”或“but”来表示两个句子之间的逻辑关系。这些词可能与句子的含义有很深的联系,因此可以用来帮助改进他们的表述。此外,论文中还使用到强化学习优化新的目标函数,该函数带有由NLI数据集属性定义的奖励,以充分利用标签信息。大量实验表明,目前该方法在几个大型数据集上实现了最好的结果。

1. 连词加强网络

论文将重点放在自然语言推理(NLI)的任务上,是自然语言理解的一个重要且具有挑战性的任务。在这个任务中,给出了两个句子,分别称为前提和假设,目标是确定它们之间的逻辑关系是必要的、中立的或矛盾的。
近年来,随着一些高质量的大规模基准数据集的公开,如斯坦福自然语言推理数据集(SNLI)和多类别自然语言推理数据集(MultiNLI)等,自然语言推理模型的性能得到了显着提升。下图显示了SNLI数据集的一些例子。大多数先进的模型集中在前提句和假设句之间的交互架构上,很少关注句子之间的连接转折关系,而这是自然语言理解的核心问题。
三个在斯坦福自然语言推理数据集中的样例,分别代表着蕴涵关系,中立关系和矛盾关系
人们通常用一些特定的词汇来表达两句话之间的关联关系,如“但是”或“并且”,表示为连词。这些连词与两句话的内在联系有着深刻的联系,并且直观地与自然语言推理的意图相对应,例如“但是”到“矛盾”,“所以”到“蕴涵”等。

论文中提出了一个用于自然语言推理的话语标记增强网络,将知识从现有的监督任务:话语标记预测(DMP)迁移到的NLI模型中集成。先提出一个句子编码器模型,它可以从DMP任务中学习句子的表示,然后将编码器注入NLI网络。
连词加强网络概念图
如上图所示,上半部分是连词标记预测(DMP)模型,下半部分是自然语言推理(NLI)模型。首先预训练DMP模型,再将训练好的以双向长短时记忆网络(BiLSTM)为核心的编码器迁移到一个新的NLI模型中来作为另一个编码器的初始化,使得自然语言推理的过程中含有通过连词所蕴含的语义信息从而形成整个连词加强网络。

2. 使用强化学习充分利用人工标注信息

由于论文中的NLI数据集是手动注释的,因此来自数据集的每个示例可能会从注释器中获得几个不同的标签,尽管它们最终会达成共识并提供一定的标签。考虑到最终标签的不同置信水平应该被区别对待,采用强化学习,奖励由原始标签的一致性范围所定义的奖励来训练模型。
SNLI和MultiNLI数据集的统计表
数据集中的很多示例都被几个人标注,注释者的选择并不总是一致的。例如,当SNLI中的标签号为3时,"total = 0"表示没有示例具有3个标注者; "correct = 8748"意味着有8748个例子,其正确标签的数量是3(注释者的数量可能是4或5,但有些提供了错误的标签)。尽管每个示例的所有标签都将统一为最终(正确)标签,但单个示例的标签多样性表明结果的置信度较低。因此,仅使用最终标签优化模型并不理想。
直接使用最终的标签训练模型可能在一些情况下不太适用,有些样本存在歧义,并且标注者的标注的标签不一致。比如,考虑如下从SNLI数据集中选取的一个样例:"前提:A smiling costumed woman is holding an umbrella. ","假设:A happy woman in a fairy costume holds an umbrella. "最终的标签是中立,但是原始的五个标注者给出的标签是:中立、中立、蕴涵、矛盾、中立,在这个例子中"smiling"和"happy"可能导致不同的理解。最终标签的可信度低于那些所有标注者给出的标签都是一样的样本。为了更加接近的模拟人类的思考,论文提出了一个新的目标函数,它结合了正确标签的对数概率和由强化学习数据集属性定义的奖励。大部分自然语言推理方法的目标函数都是最小化负的交叉熵:
在这里插入图片描述
其中dk是第k个样本,N为数据集中总样本数。除此之外,论文的方法还根据数据集的特点增添了对每个样本的所有其他标签的考虑。训练集中每个样本(句子对和其逻辑关系)中的标签(逻辑关系)都是由一个至多个人工标注的,所以有很多样本的标签是不统一的。虽然最终数据集会对每个样本赋予一个唯一的标签,但这些人工的思考结果也是值得借鉴的信息。论文使用强化学习来优化一个设定的奖励函数的期望:
在这里插入图片描述
其中 π ( l ∣ P , H ) \pi(l|P,H) π(lP,H)是给定前提和假设后,给出结果为 l l l的概率,其奖励函数为:
R ( l , l ∗ ) = ( l ∗ 中 l 的 数 量 ) / ( l ∗ 的 总 数 ) R(l,{l^{*}})=(l^*中l的数量)/(l^*的总数) R(l,l)=(ll)/(l)
这表示预测的标签在每个样本的所有标签中的比例。哪怕不等于最终总结的唯一标签,也不一定等于零。最终将两种损失函数用一个线性函数结合起来。
在这里插入图片描述
其中 λ \lambda λ是超参数

3. 实验

本方法的有效性在斯坦福自然语言推理数据集(SNLI)和多类别自然语言推理数据集(MultiNLI)这两个数据集上进行了对比实验。斯坦福自然语言推理数据集是斯坦福大学公开的自然语言推理数据集,包括了训练集和测试集中的57万个句子对;多类别自然语言推理数据集是纽约大学公开的自然语言推理数据集,包含了43万个句子对。这两个数据集是当前自然语言推理任务最为流行的高质量大规模数据集。同时,使用BookCorpus作为预训练编码器所用的数据集。
本方法(DMAN)在SNLI和MultiNLI数据集上均取得了当前最高分
本实验在测试集上与当前效果最好的已发表方法都进行了比较。从上图看出,总体来说DMAN相比于其他方法具有更高的准确率,并且在所有的数据集上都达到了目前的最好效果。

这篇关于Discourse Marker Augmented Network with Reinforcement Learning for Natural Language Inference的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/480066

相关文章

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

UML- 统一建模语言(Unified Modeling Language)创建项目的序列图及类图

陈科肇 ============= 1.主要模型 在UML系统开发中有三个主要的模型: 功能模型:从用户的角度展示系统的功能,包括用例图。 对象模型:采用对象、属性、操作、关联等概念展示系统的结构和基础,包括类图、对象图、包图。 动态模型:展现系统的内部行为。 包括序列图、活动图、状态图。 因为要创建个人空间项目并不是一个很大的项目,我这里只须关注两种图的创建就可以了,而在开始创建UML图

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

深度学习--对抗生成网络(GAN, Generative Adversarial Network)

对抗生成网络(GAN, Generative Adversarial Network)是一种深度学习模型,由Ian Goodfellow等人在2014年提出。GAN主要用于生成数据,通过两个神经网络相互对抗,来生成以假乱真的新数据。以下是对GAN的详细阐述,包括其概念、作用、核心要点、实现过程、代码实现和适用场景。 1. 概念 GAN由两个神经网络组成:生成器(Generator)和判别器(D

Neighborhood Homophily-based Graph Convolutional Network

#paper/ccfB 推荐指数: #paper/⭐ #pp/图结构学习 流程 重定义同配性指标: N H i k = ∣ N ( i , k , c m a x ) ∣ ∣ N ( i , k ) ∣ with c m a x = arg ⁡ max ⁡ c ∈ [ 1 , C ] ∣ N ( i , k , c ) ∣ NH_i^k=\frac{|\mathcal{N}(i,k,c_{