Re66:读论文 Bottom-Up Abstractive Summarization

2024-04-15 06:12

本文主要是介绍Re66:读论文 Bottom-Up Abstractive Summarization,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文全名:Bottom-Up Abstractive Summarization
EMNLP官方论文下载地址:https://aclanthology.org/D18-1443/

模型可以简称为BottomUp

官方GitHub项目:sebastianGehrmann/bottom-up-summary

本文是2018年EMNLP论文,算是经典早期生成式摘要工作。
解决端到端生成模型选取内容时的问题(不会选择内容,复制机制会复制整句……):限制只能负责selector选择的一部分token(以token为单位匹配摘要标签中复制自原文的内容)
content selector → summarizer
content selector仅需在1000个句子的语料上训练
content selector:bottom-up attention(先选取内容,后重述)

有很多技术性细节之类的我都没写,只写了我认为比较重要的内容。

文章目录

  • 1. BottomUp
    • 1. content selector
    • 2. summarizer
    • 3. 推理
  • 2. 实验
    • 1. 案例分析
    • 2. baseline设置
    • 3. 实验结果
    • 4. 模型分析

1. BottomUp

现有的一些先抽取后生成的方案会抽取整句。

在这里插入图片描述

1. content selector

word-level extractive summarization task
选择尽可能多的内容:用序列标注范式进行selection mask,限制复制机制的选择范围
用Bi-LSTM做序列标注,初始表征用GLoVE + 微调过的ELMo:
在这里插入图片描述

获取训练集:对齐摘要标签,即将原文与摘要标签中匹配的子序列中的token作为抽取标签(去重)
这段原文讲得不清楚,不如看代码:

def make_BIO_tgt(s, t):# tsplit = t.split()ssplit = s#.split()startix = 0endix = 0matches = []matchstrings = Counter()while endix < len(ssplit):# last check is to make sure that phrases at end can be copiedsearchstring = compile_substring(startix, endix, ssplit)if searchstring in t and endix < len(ssplit)-1:endix +=1else:# only phrases, not words# uncomment the -1 if you only want phrases > len 1if startix >= endix:#-1:matches.extend(["0"] * (endix-startix + 1))endix += 1else:# First one has to be 2 if you want phrases not wordsfull_string = compile_substring(startix, endix-1, ssplit)if matchstrings[full_string] >= 1:  # 去重matches.extend(["0"]*(endix-startix))else:matches.extend(["1"]*(endix-startix))matchstrings[full_string] +=1#endix += 1startix = endixreturn " ".join(matches)def compile_substring(start, end, split):if start == end:return split[start]return " ".join(split[start:end+1])

2. summarizer

复制机制(基本上就是PGN的逻辑)
在这里插入图片描述
其中 p ( z ) p(z) p(z) p ( y ) p(y) p(y)在这个token上的attention的和。

BottomUp中复制机制只能选择在selector中选择的token:
在这里插入图片描述
↑ renormalization

3. 推理

在概率得分中增加罚项:
length penalty l p lp lp and a coverage penalty c p cp cp
在这里插入图片描述

l p lp lp鼓励生成长文本:
在这里插入图片描述

c p cp cp减少重复:
在这里插入图片描述
(↑ 这个我也没看懂是啥意思)

禁止生成重复trigrams

2. 实验

1. 案例分析

禁止生成的字符为灰色 ↓
在这里插入图片描述

2. baseline设置

CopyTransformer是随机选了一个注意力头来实现复制

端到端的变体:

  1. mask only:仅在训练阶段使用selector结果作为mask,在测试时不用
  2. 多任务学习
  3. 可微分mask

3. 实验结果

在这里插入图片描述

在这里插入图片描述

4. 模型分析

selector只需要少量训练样本,因此容易实现迁移:
在这里插入图片描述

在这里插入图片描述

selector的抽取效果:
(top-3是直接用selector中copy概率最高的3句话)
在这里插入图片描述
↑ R-1体现关键词抽取的能力,R-2体现流畅度、语法和组合词语的能力。

BottomUp的生成程度(复制机制的效果):生成文本中新词的比例,和其中不同词性的比例
在这里插入图片描述
↑ 动词的变化主要是时态和人称的变化,名词是同义词

复制的长度(体现了content selection mask减少复制长句的效果):
在这里插入图片描述

推理时得分罚项的消融实验(说明PGN其实挺强的,但是选择信息和推理方法不够好):
在这里插入图片描述

这篇关于Re66:读论文 Bottom-Up Abstractive Summarization的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/905038

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

2024 年高教社杯全国大学生数学建模竞赛 C 题 农作物的种植策略 参考论文 无水印

持续更新中,2024年数学建模比赛思路代码论文都会发布到专栏内,只需订阅一次!  完整论文+代码+数据结果链接在文末!  订阅后可查看参考论文文件 第一问 1.1 问题重述 这个问题围绕的是华北山区的某乡村,在有限的耕地条件下,如何制定最优的农作物种植策略。乡村有 34 块露天耕地和 20 个大棚,种植条件包括粮食作物、蔬菜、水稻和食用菌。除了要考虑地块的面积、种植季节等,还要确保

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探

2024年全国大学生数学建模A题借鉴论文

问题  1: 舞龙队的动态位置与速度计算 1. **螺旋线的几何建模**:根据题目描述,舞龙队沿着等距螺旋线前进。螺旋线的螺距为 55 cm, 需根据极坐标公式确定每节板凳的位置。 -  极坐标螺旋线方程:\( r = a + b\theta \), 其中  \( b \)  是螺距, 可以利用该方程计算 每秒舞龙队的各个节数的坐标。 2. **速度计算**:给定龙头的行进速度为 1 m/s ,