学习笔记———《自动文档摘要评价方法---Edmundson和ROUGE》

2024-03-12 23:59

本文主要是介绍学习笔记———《自动文档摘要评价方法---Edmundson和ROUGE》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

      本人最近在做一个自动文档摘要相关的项目,研究了一下目前业界的一些评价方法,阅读了Chin-Yew Lin的《ROUGE: A Package for Automatic Evaluation of Summaries》的paper,也对应看了其他朋友整理的笔记,特整理此笔记供大家参考!

自动文档摘要评价方法大致分为两类:

(1)内部评价方法Intrinsic Methods)           
       在提供参考摘要的前提下,以参考摘要为基准评价系统摘要的质量。通常情况下,系统摘要与参考摘要越吻合,其质量越高。
2外部评价方法(Extrinsic Methods)           
       下面介绍两个比较简单的,也是在自动摘要评价以及自动文档摘要的相关国际评测中经常会被用到的两个内部评价方法:EdmundsonROUGE

(一)Edmundson
Edmundson评价方法属于内部评价方法,可以客观评估,就是通过比较机械文摘(自动文摘系统得到的文摘)与目标文摘的句子重合率(coselection rate) 的高低来对系统摘要进行评价。也可以主观评估,就是由专家比较机械文摘与目标文摘所含的信息,然后给机械文摘一个等级评分。等级可以分为:完全不相似,基本相似,很相似,完全相似等。Edmundson比较的基本单位是句子,是通过句子级标号分隔开的文本单元,句子级标号包括“。”、“:”、“;”、“!”、“?”等。为使专家文摘与机械文摘具有可比性,只允许专家从原文中抽取句子,而不允许专家根据自己对原文的理解重新生成句子,专家文摘和机械文摘的句子都按照在原文中出现的先后顺序给出。

Edmundson定义:

重合率p=匹配句子数/专家文摘句子数×100%

        每一个机械文摘的重合率为按三个专家给出的 文摘得到的重合率的平均值:
        即对所有专家的重合率取一个均值, Pi 为相对于第 i 个专家的重合率, n 为专家的数目。
(二)ROUGE
        ROUGE Recall-Oriented Understudy for Gisting Evaluation) ,在2004年 ISI 的Chin-Yew  Lin 提出的一种自动摘要评价方法,现被广泛应用于 DUC( Document Understanding Conference )的摘要评测任务中。 ROUGE 基于摘要中 n 元词( n-gram )的共现信息来评价摘要,是一种面向 n 元词召回率的评价方法。基本思想为由多个专家分别生成人工摘要,构成标准摘要集,将系统生成的自动摘要与人工生成的标准摘要相对比,通过统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目,来评价摘要的质量。通过与专家人工摘要的对比,提高评价系统的稳定性和健壮性。该方法现已成为摘要评价技术的通用标注之一。 ROUGE 准则由一系列的评价方法组成,包括 ROUGE-N(N=1、2、3、4,分别代表基于1元词到4元词的模型) ROUGE-L,ROUGE-S, ROUGE-W, ROUGE-SU 等。在自动文摘相关研究中,一般根据自己的具体研究内容选择合适的 ROUGE 方法。

        其中,n表示n-gram的长度{Reference Summaries}表示参考摘要,即事先获得的标准摘要,表示候选摘要和参考摘要中同时出现n-gram的个数,则表示参考摘要中出现的n-gram个数。不难看出,ROUGE公式是由召回率的计算公式演变而来的,分子可以看作“检出的相关文档数目”,即系统生成摘要与标准摘要相匹配的N-gram个数,分母可以看作“相关文档数目”,即标准摘要中所有的N-gram个数。

   例:R1 : police killed the gunman.

R2 : the gunman was shot down by police.

C1 : police ended the gunman.

C2 :the gunman murdered police.

R1,R2 为参考摘要,C1C2 为候选摘要。

ROUGE-1(C1)=(3+3)/(4+7)=6/11

ROUGE-1(C2)=(3+3)/(4+7)=6/11

ROUGE-2(C1)=(1+1)/(3+6)=2/9

ROUGE-2(C2)=(1+1)/(3+6)=2/9

C1C2的ROUGE-1、ROUGE-2分数相等,但是意思完全不相同!

优点

直观,简洁,能反映词序。

缺点:

区分度不高,且当N>3时,ROUGE-N值通常很小。

应用场景:

ROUGE-1:短摘要评估,多文档摘要(去停用词条件);

ROUGE-2: 单文档摘要,多文档摘要(去停用词条件);

(2)ROUGE-L( Longest Common Subsequence )

        子序列 一个给定序列的子序列就是该给定序列中去掉零个或者多个元素。
        公共子序列: 给定两个序列XY,如果Z既是X的一个子序列又是Y的一个子序列,
        则序列 Z X Y 的一个公共子序列。
        LCS(最长公共子序列): 给定两个序列XY 使得公共子序列长度最大的序列 X Y 的最长公共子序列。

Sentence-Level LCS

计算公式:

        其中X为参考摘要,长度为mY为候选摘要,长度为n,用F值来衡量摘要XY的相似度,在DUC测评中,由于,所以只考虑

 例:   R1 : police killed the gunman.

C1 : police ended the gunman.

C2 : the gunman murdered police.

R1为参考摘要,C1,C2为候选摘要。

ROUGE-L(C1)=3/4

ROUGE-L(C2)=2/4

C1优于C2

优点:

不要求词的连续匹配,只要求按词的出现顺序匹配即可,能够像n-gram一样

反映句子级的词序。

自动匹配最长公共子序列,不需要预先定义n-gram的长度。

缺点:

只计算一个最长子序列,最终的值忽略了其他备选的最长子序列及较短子序列的影响。

应用场景:

单文档摘要;短摘要评估。

   例:R1 : police killed the gunman.

C1 :the gunman murdered police.

C2 : the gunman police killed.

R1为参考摘要,C1,C2为候选摘要。

ROUGE-L(C1)=2/4

ROUGE-L(C2)=2/4

ROUGE-2(C1)=1/4

ROUGE-2(C2)=2/4

C1C2的ROUGE-L分数相等,但C2ROUGE-2分数高于C1C2优于C1!

Summary-Level LCS 

        将LCS应用到摘要级数相 时,对参考摘要中的每一个句子 与候选摘要中的 所有句子比对,以union LCS作为摘要句 的匹配结果。

计算公式:

        其中R为参考摘要,包含u个句子,m个词,C为候选摘要,包含v个句子,n个词,长度为n 是句子和候选摘要C的union LCS。

例:参考只要集句子 : w1 w2 w3 w4 w5

        候选摘要C包含两个句子

        c1 : w1 w2 w6 w7 w8

        c2 : w1 w3 w8 w9 w5

        与 c1 的LCS 为w1 w2,与c2的LCS为w1 w3 w5,与Cunion LCS 为w1 w2 w3 w5。

        ROUGE-L(C)=4/5

(3)ROUGE-W( WeightLongest Common Subsequence )

        为使连续匹配比不连续匹配赋予更大的权重,公式描述如下:


        例如,同时为了归一化最终的ROUGE-W值,通常选择函数与反函数具有相似形式的函数。例如:

计算公式:


例:R1 : police killed the gunman who injured 3 on campus.

        C1 : police kill the gunman and sealed off the scene.

        C2 : the police was killed and the gunman ran off.

        R1为参考摘要,C1,C2为候选摘要,

        WLCS(R1, C1) = 4*4=16,f(m) = 9*9 =81

        WLCS(R1, C2) = 2*4=16,f(m) = 9*9 =81

        ROUGE-W(C1) = 0.444

        C2 优于 C1 !

        优点一LCS下,对连续匹配词数多的句子赋予更高权重,比LCS区分度更高。

        缺点 同ROUGE-L,只计算一个最长子序列,最终的值忽略了其他备选的最长 子序列及较短子序列的影响。

        应用场景:单文档摘要;短摘要评估;

(4)ROUGE-S( Skip-BigramCo-Occurrence Statistics)

        Skip-Bigram是按句子顺序中的任何成对词语。

计算公式:


        其中 X 为参考摘要,长度为 m Y 为候选摘要,长度为 n。SKIP2(X,Y)表示候选 摘要与参考摘要的 skip-bigram 匹配次数

        Skip-gram如果不限制跳跃的距离,会出现很多无意义的词对,比如“the of”、“in the”等。为了减少无意义词对的出现,可以限制最大跳跃距离,通常写ROUGE-S4表示最大跳跃距离为4,ROUGE-S9表示最大跳跃距离为9,依次类推。如果为0,那么ROUGE-S0 = ROUGE-2。

例: R1 :police killed the gunman.

        C1 :police kill the gunman.

        C2 :the gunman kill police.

        C3 : thegunman police killed.

        R1 为参考摘要, C1,C2,C3 为候选摘要。

候选摘要ROUGE-1ROUGE-2ROUGE-LROUGE-WROUGE-S
C10.750.250.750.610.5
C20.750.250.50.50.167
C310.50.50.50.333

        优点:考虑了所有按词序排列的词对,比n-gram模型更深入反映句子级词序。

        缺点: 若不设定最大跳跃词数会出现很多无意义词对。 若设定最大跳跃词数, 需要指定最大跳跃词数的值。

        应用场景:单文档摘要;ROUGE-S4,ROUGE-S9: 多文档摘要(去停用词条件);


这篇关于学习笔记———《自动文档摘要评价方法---Edmundson和ROUGE》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/803013

相关文章

python获取网页表格的多种方法汇总

《python获取网页表格的多种方法汇总》我们在网页上看到很多的表格,如果要获取里面的数据或者转化成其他格式,就需要将表格获取下来并进行整理,在Python中,获取网页表格的方法有多种,下面就跟随小编... 目录1. 使用Pandas的read_html2. 使用BeautifulSoup和pandas3.

Spring 中的循环引用问题解决方法

《Spring中的循环引用问题解决方法》:本文主要介绍Spring中的循环引用问题解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录什么是循环引用?循环依赖三级缓存解决循环依赖二级缓存三级缓存本章来聊聊Spring 中的循环引用问题该如何解决。这里聊

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

Windows 上如果忘记了 MySQL 密码 重置密码的两种方法

《Windows上如果忘记了MySQL密码重置密码的两种方法》:本文主要介绍Windows上如果忘记了MySQL密码重置密码的两种方法,本文通过两种方法结合实例代码给大家介绍的非常详细,感... 目录方法 1:以跳过权限验证模式启动 mysql 并重置密码方法 2:使用 my.ini 文件的临时配置在 Wi

MySQL重复数据处理的七种高效方法

《MySQL重复数据处理的七种高效方法》你是不是也曾遇到过这样的烦恼:明明系统测试时一切正常,上线后却频频出现重复数据,大批量导数据时,总有那么几条不听话的记录导致整个事务莫名回滚,今天,我就跟大家分... 目录1. 重复数据插入问题分析1.1 问题本质1.2 常见场景图2. 基础解决方案:使用异常捕获3.

最详细安装 PostgreSQL方法及常见问题解决

《最详细安装PostgreSQL方法及常见问题解决》:本文主要介绍最详细安装PostgreSQL方法及常见问题解决,介绍了在Windows系统上安装PostgreSQL及Linux系统上安装Po... 目录一、在 Windows 系统上安装 PostgreSQL1. 下载 PostgreSQL 安装包2.

SQL中redo log 刷⼊磁盘的常见方法

《SQL中redolog刷⼊磁盘的常见方法》本文主要介绍了SQL中redolog刷⼊磁盘的常见方法,将redolog刷入磁盘的方法确保了数据的持久性和一致性,下面就来具体介绍一下,感兴趣的可以了解... 目录Redo Log 刷入磁盘的方法Redo Log 刷入磁盘的过程代码示例(伪代码)在数据库系统中,r

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)