论文笔记 _ Discourse-Aware Neural Extractive Text Summarization

本文主要是介绍论文笔记 _ Discourse-Aware Neural Extractive Text Summarization,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


作者:韩

单位:燕山大学


论文地址:https://www.aclweb.org/anthology/2020.acl-main.451/

代码地址:https://github.com/jiacheng-xu/DiscoBERT


目录

  • 一、文本摘要(Text Summarization )任务
    • 1.1 任务概述
    • 1.2 抽取式方法
    • 1.3 生成式方法
    • 1.3 ROUGE评分标准
  • 二、论文核心概述
    • 2.1 模型设计思路
    • 2.2 模型优势分析
  • 三、DiscoBERT
    • 3.1 RST Graph
    • 3.2 Coreference Graph
    • 3.3 DiscoBERT
    • 3.3 Document Encoder
    • 3.4 Graph Encoder
    • 3.5 Training & Inference
  • 四、实验分析
  • 五、总结

一、文本摘要(Text Summarization )任务

1.1 任务概述

  文本摘要任务的起源最早能够追溯到 20 世纪 50 年代,美国 IBM 公司的 Luhn等人首次提出了使用计算机完成文本摘要任务, 即采用统计学方法来分析文本语法和语义信息的抽取式文本摘要算法。此项任务所要解决的问题就是文本信息过载,通过算法设计使计算机自动生成简短、完整的摘要,对各类文本进行一个“降维”处理,以此减轻人们的负担。

  首先文本摘要任务按照输入的文本类型可分为单文档摘要和多文档摘要。单文档摘要任务是指从给定的一个文档中生成摘要,多文档摘要任务是指从一组主题相关的多个文档中生成摘要。其次,按照生成摘要的方法可分为抽取式摘要和生成式摘要。抽取式摘要从原文中抽取关键句,摘要全部来源于原文。生成式摘要则更加注重对原文的理解和重构,允许生成新的短语来组成摘要。按照有无监督数据可以分为有监督摘要和无监督摘要。

1.2 抽取式方法

  抽取式方法通常被定义为序列标注任务,或者简单地二分类任务。即使用模型对输入本文中的每个句子进行评分,选出分数最高的前 n n n个句子作为摘要。比较经典的方法有Lead-3、TextRank等,这些方法虽然存在着很多缺点,但优点也很明显,如主题不易偏离、适应性广、速度快,且效果很好,如Lead-3方法在BERTSum中的测评结果,已经接近Transformer了。因此,就目前的形势而言,实际应用最广泛的还是抽取式文本摘要。

1.3 生成式方法

  虽然抽取式摘要在实验研究和实际应用中都有着不错的表现,但其做法和我们理想的方案还是有很大区别。首先书写文摘的前提应该是模型对输入文本有着足够的理解,基于此模型对输入原文进行重构,其次在理想状态下我们希望所得的摘要能够对原文有着精确、完整的总结,这就要求摘要中不能只是简单地存在着原文的关键词,而是应该视情况对词汇进行转换,对原文所提事件进行全新的描述和总结,而这种能力在抽取式方法中是不可能实现的。

  近些年随着神经网络技术的复苏以及预训练模型的发展,生成式方法也出现了质的改变,如2019年Yang Liu等人提出的BERTSum模型、Jingqing Zhang等提出的PEGASUS模型在生成式文本摘要任务上都取得了相当突出的成绩。同时GPT-2、T5、XLNet等预训练模型也为生成式方法的研究提供了新思路。

  综合来看,生成式任务在设计上更加符合人脑的思维方式,并且更加灵活,模型上限更高,但目前来说,优点同时也缺点,更好的设计意味着更高的实现难度,更强的灵活性在目前的技术上也使得模型经常出现用词不准,内容离题等问题。但不可否定的是,生成式方法一直是文本摘要任务研究的核心,也是我们追求的最佳方法。在此笔者认为优秀的生成式模型需要做到以下三点:

  • 正确掌握当前使用语言的语法结构
  • 拥有突出的文本理解能力
  • 拥有突出的语言组织能力

1.3 ROUGE评分标准

  ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是在2004年由Chin-Yew Lin等人提出的一种自动摘要评价方法,现被广泛应用于DUC(Document Understanding Conference)的摘要评测任务中。

  ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要,是一种面向n元词召回率的评价方法。ROUGE准则由一系列的评价方法组成,其中主要包括ROUGE-1、ROUGE-2、ROUGE-N、Rouge-L、Rouge-W、Rouge-S等。

  ROUGE-N的定义为

  分母是n-gram的个数,分子是参考摘要和生成摘要共有的n-gram的个数。

  Rouge-L的定义为

  L即是LCS(longest common subsequence,最长公共子序列),其中 L C S ( X , Y ) LCS(X,Y) LCS(X,Y) X X X Y Y Y最长公共子序列的长度, m m m, n n n分别表示参考摘要和生成摘要的长度,最后的 F l c s F_{lcs} Flcs也就是我们说的Rouge-L。在DUC中, β β β通常被设置为一个很大的数,所以实际上Rouge-L几乎只考虑了 R l c s R_{lcs} Rlcs,这也就表明了在Rouge测评中我们更加关注的是信息的召回率。

  Rouge-W的定义为

  Rouge-W是针对Rouge-L存在问题的改进版,在Rouge论文中作者提出了一个假设

  图中, X X X是参考摘要, Y 1 Y_1 Y1 Y 2 Y_2 Y2是两个待测评摘要,明显 Y 1 Y_1 Y1要优于 Y 2 Y_2 Y2,因为 Y 1 Y_1 Y1和参考摘要 X X X存在着多个匹配的片段,但是在计算Rouge-L时我们发现Rouge-L ( X , Y 1 ) (X,Y_1) (X,Y1)=Rouge-L ( X , Y 2 ) (X,Y_2) (X,Y2),针对这个问题论文作者提出了改进的方案—加权最长公共子序列(Weighted Longest Common Subsequence),即Rouge-W。

  Rouge-S的定义为

  即使用了skip-grams,在参考摘要和生成摘要进行匹配时,可以“跳过”几个单词,也就是单词可以不连续出现,如skip-bigram,在产生grams时,允许最多跳过两个词。如“I want to eat meat”的 skip-bigrams 就是 “I want,I to,I eat,want to,want eat,want meat,to eat,to meat,eat meat”.

二、论文核心概述

2.1 模型设计思路

  此篇论文在模型设计上仍然是依托于BERT预训练语言模型,主要针对的是BERT模型对于建立长距离依赖关系能力较差的问题。我们知道BERT模型的预训练任务是句子级的,同时在输入时存在最大序列长度的限制,因此导致BERT模型很难掌握文本中的长距离依赖关系,但作者通过对CNNDM数据集分析发现超过25%的核心句子出现在原文的前十个句子之后,并且对于新闻文档往往会出现多个核心人物和事件贯穿整个文档,所以长距离依赖关系学习能力差正是基于BERT建模所必须要解决的问题。因此,论文作者通过图结构中所蕴含的关系信息显示指导摘要生成,即使用RST Graph和Coreference Graph两种图结构构建了Graph Encoder层,进而加强模型对长距离依赖关系的掌握能力。实际上使用图结构改善摘要效果的做法并不少见,如2020年Wei Li等人提出的GraphSum模型,也是基于图结构做出的改善,只不过针对的是多文档摘要任务。

2.2 模型优势分析

  简单来说,以目前的技术进行文本摘要任务,抽取式方法不管是实际应用还是ROUGE评分都要强于生成式方法,但不能否认的是直接抽取原文句子然后组合成摘要的方法存在很多问题,如内容存在大量冗余信息、前后语句不通顺等,所以此篇论文的作者就想了一个折中的方法,整体上依然采用抽取式,但并不是直接抽取整个句子,而是将句子分成多个 Elementary Dis-course Unit(EDU),将EDU作为抽取的最小单元ÿ

这篇关于论文笔记 _ Discourse-Aware Neural Extractive Text Summarization的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1017992

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓

忽略某些文件 —— Git 学习笔记 05

忽略某些文件 忽略某些文件 通过.gitignore文件其他规则源如何选择规则源参考资料 对于某些文件,我们不希望把它们纳入 Git 的管理,也不希望它们总出现在未跟踪文件列表。通常它们都是些自动生成的文件,比如日志文件、编译过程中创建的临时文件等。 通过.gitignore文件 假设我们要忽略 lib.a 文件,那我们可以在 lib.a 所在目录下创建一个名为 .gi