Discourse Marker Augmented Network with Reinforcement Learning for Natural Language Inference

本文主要是介绍Discourse Marker Augmented Network with Reinforcement Learning for Natural Language Inference，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

基于连词加强网络和强化学习的自然语言推理模型

这篇文章是浙江大学CAD&CG国家重点实验室和阿里巴巴-浙大前沿技术联合研究院合作设计了基于连词加强网络的自然语言推理方法，并在此基础上应用了强化学习来整合不同样本的标注意见不统一的情况，从而提升模型的稳定性。该成果已发表于自然语言处理领域国际顶级会议ACL 2018。最近看到这篇文章感到对自己启发挺大，所以写个微博记录一下~

摘要

自然语言推理（Natural Language Inference，NLI）也被称为文本蕴含识别（RTE），是自然语言处理中最重要的问题之一，它需要推断两个给定句子之间的逻辑关系。目前常见方法主要集中在句子的交互架构上，但在这篇论文中，使用从一些重要的连词(discourse markers)迁移知识以提高NLI模型的质量。人们通常使用一些话语标记，如“so”或“but”来表示两个句子之间的逻辑关系。这些词可能与句子的含义有很深的联系，因此可以用来帮助改进他们的表述。此外，论文中还使用到强化学习优化新的目标函数，该函数带有由NLI数据集属性定义的奖励，以充分利用标签信息。大量实验表明，目前该方法在几个大型数据集上实现了最好的结果。

1. 连词加强网络

论文将重点放在自然语言推理(NLI)的任务上，是自然语言理解的一个重要且具有挑战性的任务。在这个任务中，给出了两个句子，分别称为前提和假设，目标是确定它们之间的逻辑关系是必要的、中立的或矛盾的。
近年来，随着一些高质量的大规模基准数据集的公开，如斯坦福自然语言推理数据集(SNLI)和多类别自然语言推理数据集(MultiNLI)等，自然语言推理模型的性能得到了显着提升。下图显示了SNLI数据集的一些例子。大多数先进的模型集中在前提句和假设句之间的交互架构上，很少关注句子之间的连接转折关系，而这是自然语言理解的核心问题。
三个在斯坦福自然语言推理数据集中的样例，分别代表着蕴涵关系，中立关系和矛盾关系
人们通常用一些特定的词汇来表达两句话之间的关联关系，如“但是”或“并且”，表示为连词。这些连词与两句话的内在联系有着深刻的联系，并且直观地与自然语言推理的意图相对应，例如“但是”到“矛盾”，“所以”到“蕴涵”等。

论文中提出了一个用于自然语言推理的话语标记增强网络，将知识从现有的监督任务：话语标记预测(DMP)迁移到的NLI模型中集成。先提出一个句子编码器模型，它可以从DMP任务中学习句子的表示，然后将编码器注入NLI网络。
连词加强网络概念图
如上图所示，上半部分是连词标记预测（DMP）模型，下半部分是自然语言推理（NLI）模型。首先预训练DMP模型，再将训练好的以双向长短时记忆网络（BiLSTM）为核心的编码器迁移到一个新的NLI模型中来作为另一个编码器的初始化，使得自然语言推理的过程中含有通过连词所蕴含的语义信息从而形成整个连词加强网络。

2. 使用强化学习充分利用人工标注信息

由于论文中的NLI数据集是手动注释的，因此来自数据集的每个示例可能会从注释器中获得几个不同的标签，尽管它们最终会达成共识并提供一定的标签。考虑到最终标签的不同置信水平应该被区别对待，采用强化学习，奖励由原始标签的一致性范围所定义的奖励来训练模型。
SNLI和MultiNLI数据集的统计表
数据集中的很多示例都被几个人标注，注释者的选择并不总是一致的。例如，当SNLI中的标签号为3时，"total = 0"表示没有示例具有3个标注者; "correct = 8748"意味着有8748个例子，其正确标签的数量是3（注释者的数量可能是4或5，但有些提供了错误的标签）。尽管每个示例的所有标签都将统一为最终（正确）标签，但单个示例的标签多样性表明结果的置信度较低。因此，仅使用最终标签优化模型并不理想。
直接使用最终的标签训练模型可能在一些情况下不太适用，有些样本存在歧义，并且标注者的标注的标签不一致。比如，考虑如下从SNLI数据集中选取的一个样例："前提：A smiling costumed woman is holding an umbrella. "，"假设：A happy woman in a fairy costume holds an umbrella. "最终的标签是中立，但是原始的五个标注者给出的标签是：中立、中立、蕴涵、矛盾、中立，在这个例子中"smiling"和"happy"可能导致不同的理解。最终标签的可信度低于那些所有标注者给出的标签都是一样的样本。为了更加接近的模拟人类的思考，论文提出了一个新的目标函数，它结合了正确标签的对数概率和由强化学习数据集属性定义的奖励。大部分自然语言推理方法的目标函数都是最小化负的交叉熵：
在这里插入图片描述
其中dk是第k个样本，N为数据集中总样本数。除此之外，论文的方法还根据数据集的特点增添了对每个样本的所有其他标签的考虑。训练集中每个样本（句子对和其逻辑关系）中的标签（逻辑关系）都是由一个至多个人工标注的，所以有很多样本的标签是不统一的。虽然最终数据集会对每个样本赋予一个唯一的标签，但这些人工的思考结果也是值得借鉴的信息。论文使用强化学习来优化一个设定的奖励函数的期望：
在这里插入图片描述
其中 $\pi(l|P,H)$ 是给定前提和假设后，给出结果为 $l$ 的概率，其奖励函数为:
$R(l,{l^{*}})=(l^*中l的数量)/(l^*的总数)$
这表示预测的标签在每个样本的所有标签中的比例。哪怕不等于最终总结的唯一标签，也不一定等于零。最终将两种损失函数用一个线性函数结合起来。
在这里插入图片描述
其中 $\lambda$ 是超参数

3. 实验

本方法的有效性在斯坦福自然语言推理数据集（SNLI）和多类别自然语言推理数据集（MultiNLI）这两个数据集上进行了对比实验。斯坦福自然语言推理数据集是斯坦福大学公开的自然语言推理数据集，包括了训练集和测试集中的57万个句子对；多类别自然语言推理数据集是纽约大学公开的自然语言推理数据集，包含了43万个句子对。这两个数据集是当前自然语言推理任务最为流行的高质量大规模数据集。同时，使用BookCorpus作为预训练编码器所用的数据集。
本方法（DMAN）在SNLI和MultiNLI数据集上均取得了当前最高分
本实验在测试集上与当前效果最好的已发表方法都进行了比较。从上图看出，总体来说DMAN相比于其他方法具有更高的准确率，并且在所有的数据集上都达到了目前的最好效果。