本文主要是介绍论文笔记 _ Discourse-Aware Neural Extractive Text Summarization,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
作者:韩
单位:燕山大学
论文地址:https://www.aclweb.org/anthology/2020.acl-main.451/
代码地址:https://github.com/jiacheng-xu/DiscoBERT
目录
- 一、文本摘要(Text Summarization )任务
- 1.1 任务概述
- 1.2 抽取式方法
- 1.3 生成式方法
- 1.3 ROUGE评分标准
- 二、论文核心概述
- 2.1 模型设计思路
- 2.2 模型优势分析
- 三、DiscoBERT
- 3.1 RST Graph
- 3.2 Coreference Graph
- 3.3 DiscoBERT
- 3.3 Document Encoder
- 3.4 Graph Encoder
- 3.5 Training & Inference
- 四、实验分析
- 五、总结
一、文本摘要(Text Summarization )任务
1.1 任务概述
文本摘要任务的起源最早能够追溯到 20 世纪 50 年代,美国 IBM 公司的 Luhn等人首次提出了使用计算机完成文本摘要任务, 即采用统计学方法来分析文本语法和语义信息的抽取式文本摘要算法。此项任务所要解决的问题就是文本信息过载,通过算法设计使计算机自动生成简短、完整的摘要,对各类文本进行一个“降维”处理,以此减轻人们的负担。
首先文本摘要任务按照输入的文本类型可分为单文档摘要和多文档摘要。单文档摘要任务是指从给定的一个文档中生成摘要,多文档摘要任务是指从一组主题相关的多个文档中生成摘要。其次,按照生成摘要的方法可分为抽取式摘要和生成式摘要。抽取式摘要从原文中抽取关键句,摘要全部来源于原文。生成式摘要则更加注重对原文的理解和重构,允许生成新的短语来组成摘要。按照有无监督数据可以分为有监督摘要和无监督摘要。
1.2 抽取式方法
抽取式方法通常被定义为序列标注任务,或者简单地二分类任务。即使用模型对输入本文中的每个句子进行评分,选出分数最高的前 n n n个句子作为摘要。比较经典的方法有Lead-3、TextRank等,这些方法虽然存在着很多缺点,但优点也很明显,如主题不易偏离、适应性广、速度快,且效果很好,如Lead-3方法在BERTSum中的测评结果,已经接近Transformer了。因此,就目前的形势而言,实际应用最广泛的还是抽取式文本摘要。
1.3 生成式方法
虽然抽取式摘要在实验研究和实际应用中都有着不错的表现,但其做法和我们理想的方案还是有很大区别。首先书写文摘的前提应该是模型对输入文本有着足够的理解,基于此模型对输入原文进行重构,其次在理想状态下我们希望所得的摘要能够对原文有着精确、完整的总结,这就要求摘要中不能只是简单地存在着原文的关键词,而是应该视情况对词汇进行转换,对原文所提事件进行全新的描述和总结,而这种能力在抽取式方法中是不可能实现的。
近些年随着神经网络技术的复苏以及预训练模型的发展,生成式方法也出现了质的改变,如2019年Yang Liu等人提出的BERTSum模型、Jingqing Zhang等提出的PEGASUS模型在生成式文本摘要任务上都取得了相当突出的成绩。同时GPT-2、T5、XLNet等预训练模型也为生成式方法的研究提供了新思路。
综合来看,生成式任务在设计上更加符合人脑的思维方式,并且更加灵活,模型上限更高,但目前来说,优点同时也缺点,更好的设计意味着更高的实现难度,更强的灵活性在目前的技术上也使得模型经常出现用词不准,内容离题等问题。但不可否定的是,生成式方法一直是文本摘要任务研究的核心,也是我们追求的最佳方法。在此笔者认为优秀的生成式模型需要做到以下三点:
- 正确掌握当前使用语言的语法结构
- 拥有突出的文本理解能力
- 拥有突出的语言组织能力
1.3 ROUGE评分标准
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是在2004年由Chin-Yew Lin等人提出的一种自动摘要评价方法,现被广泛应用于DUC(Document Understanding Conference)的摘要评测任务中。
ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要,是一种面向n元词召回率的评价方法。ROUGE准则由一系列的评价方法组成,其中主要包括ROUGE-1、ROUGE-2、ROUGE-N、Rouge-L、Rouge-W、Rouge-S等。
ROUGE-N的定义为:
分母是n-gram的个数,分子是参考摘要和生成摘要共有的n-gram的个数。
Rouge-L的定义为:
L即是LCS(longest common subsequence,最长公共子序列),其中 L C S ( X , Y ) LCS(X,Y) LCS(X,Y) 是 X X X和 Y Y Y最长公共子序列的长度, m m m, n n n分别表示参考摘要和生成摘要的长度,最后的 F l c s F_{lcs} Flcs也就是我们说的Rouge-L。在DUC中, β β β通常被设置为一个很大的数,所以实际上Rouge-L几乎只考虑了 R l c s R_{lcs} Rlcs,这也就表明了在Rouge测评中我们更加关注的是信息的召回率。
Rouge-W的定义为:
Rouge-W是针对Rouge-L存在问题的改进版,在Rouge论文中作者提出了一个假设
图中, X X X是参考摘要, Y 1 Y_1 Y1, Y 2 Y_2 Y2是两个待测评摘要,明显 Y 1 Y_1 Y1要优于 Y 2 Y_2 Y2,因为 Y 1 Y_1 Y1和参考摘要 X X X存在着多个匹配的片段,但是在计算Rouge-L时我们发现Rouge-L ( X , Y 1 ) (X,Y_1) (X,Y1)=Rouge-L ( X , Y 2 ) (X,Y_2) (X,Y2),针对这个问题论文作者提出了改进的方案—加权最长公共子序列(Weighted Longest Common Subsequence),即Rouge-W。
Rouge-S的定义为:
即使用了skip-grams,在参考摘要和生成摘要进行匹配时,可以“跳过”几个单词,也就是单词可以不连续出现,如skip-bigram,在产生grams时,允许最多跳过两个词。如“I want to eat meat”的 skip-bigrams 就是 “I want,I to,I eat,want to,want eat,want meat,to eat,to meat,eat meat”.
二、论文核心概述
2.1 模型设计思路
此篇论文在模型设计上仍然是依托于BERT预训练语言模型,主要针对的是BERT模型对于建立长距离依赖关系能力较差的问题。我们知道BERT模型的预训练任务是句子级的,同时在输入时存在最大序列长度的限制,因此导致BERT模型很难掌握文本中的长距离依赖关系,但作者通过对CNNDM数据集分析发现超过25%的核心句子出现在原文的前十个句子之后,并且对于新闻文档往往会出现多个核心人物和事件贯穿整个文档,所以长距离依赖关系学习能力差正是基于BERT建模所必须要解决的问题。因此,论文作者通过图结构中所蕴含的关系信息显示指导摘要生成,即使用RST Graph和Coreference Graph两种图结构构建了Graph Encoder层,进而加强模型对长距离依赖关系的掌握能力。实际上使用图结构改善摘要效果的做法并不少见,如2020年Wei Li等人提出的GraphSum模型,也是基于图结构做出的改善,只不过针对的是多文档摘要任务。
2.2 模型优势分析
简单来说,以目前的技术进行文本摘要任务,抽取式方法不管是实际应用还是ROUGE评分都要强于生成式方法,但不能否认的是直接抽取原文句子然后组合成摘要的方法存在很多问题,如内容存在大量冗余信息、前后语句不通顺等,所以此篇论文的作者就想了一个折中的方法,整体上依然采用抽取式,但并不是直接抽取整个句子,而是将句子分成多个 Elementary Dis-course Unit(EDU),将EDU作为抽取的最小单元ÿ
这篇关于论文笔记 _ Discourse-Aware Neural Extractive Text Summarization的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!