【论文速读】LM的文本生成方法,Top-p,温度,《The Curious Case of Neural Text Degeneration》

本文主要是介绍【论文速读】LM的文本生成方法,Top-p,温度,《The Curious Case of Neural Text Degeneration》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文链接:https://arxiv.org/abs/1904.09751
https://ar5iv.labs.arxiv.org/html/1904.09751

这篇文章,描述的是语言模型的文本生成的核采样的方法,就是现在熟知的top-p
大概看看,还有几个地方比较有趣,值得记录一下。

摘要

尽管神经语言建模取得了相当大的进步,但从语言模型生成文本(例如生成故事)的最佳解码策略是什么仍然是一个悬而未决的问题。反直觉的经验观察是,尽管使用似然性作为训练目标会为广泛的语言理解任务带来高质量的模型,但基于最大化的解码方法(如beam搜索)会导致退化——输出平淡、不连贯或陷入重复循环的文本。

为了解决这一问题,我们提出了Nucleus采样(Nucleus Sampling),这是一种简单但有效的方法,可以从神经语言模型中提取出比以前的解码策略高得多的质量文本。我们的方法通过截断概率分布的不可靠尾部,从包含绝大多数概率质量的Tokens的动态核中采样,避免了文本退化。

为了正确检查当前基于最大化的随机解码方法,我们将每种方法的代数与人类文本沿几个轴(如似然性、多样性和重复性)的分布进行了比较。我们的结果表明,(1)最大化是开放式文本生成的一个不合适的解码目标,(2)当前最佳语言模型的概率分布有一个不可靠的尾部,在生成过程中需要截断;(3)Nucleus Sampling是当前生成长格式文本的最佳解码策略,该文本既有高质量的(通过人类评估来衡量),也与人类书写的文本一样多样化。

文章的一些观点

在这里插入图片描述
先来看文章的图1。
文章指出,如图1所示,即使使用最先进的模型(如GPT-2 Large),为高概率输出进行优化的解码策略(如beam搜索)也会导致文本极其退化。这可能看起来有违直觉,因为人们会认为好的模型会给更像人的语法文本赋予更高的概率。事实上,语言模型通常会给格式良好的文本打分,但长文本的最高分数往往是通用的、重复的和尴尬的。

同样令人惊讶的是图1的右侧,它显示了纯采样——直接从模型预测的概率中采样——导致文本不连贯,几乎与上下文无关。为什么纯采样产生的文本如此退化?在这项工作中,我们展示了“不可靠的尾巴”是罪魁祸首。这种不可靠的尾部由数万个概率相对较低的候选Token组成,这些Token在聚合中被过度表示。

在这里插入图片描述
图2展示了beam搜索解码文本和自然出现文本的概率分布的实际差异。
人类文本的特征是方差增加,这与beam搜索解码的文本的无休止重复形成鲜明对比。——说明,人类的语言不是遵从概率,而是希望有更多的意外,单调可预测的话语只会让人觉得乏味。

为了克服这些问题,文章引入了Nucleus采样。核采样的关键直觉是,每个时间步长的绝大多数概率质量都集中在核心,这是词汇的一个子集,往往在一到一千个候选者之间。而不是依靠固定的top-𝑘,或者使用温度参数来控制分布的形状,而不充分抑制不可靠的尾部,文章建议采样top-𝑝概率质量的一部分,动态地扩展和收缩候选池。
文章后续评估,文本由最大化或top-𝑘抽样的可能性太大,评估表明词汇使用缺乏多样性,与人类分布存在差异。另一方面,纯采样产生的文本的可能性明显低于黄金文本,这对应于较低的生成质量。
词汇使用和Self-BLEU(Zhu et al.,2018)统计数据显示,top-𝑘抽样与人类统计数据相匹配,需要较高的k值。然而,基于较高的𝑘值通常在可能性上具有高的方差,暗示了质量上可观察到的不连续性问题。Nucleus采样可以通过调整p值,轻松匹配参考困惑度,避免了高k值设置造成的不连贯,可以匹配分布统计数据。

文章在后续指出:自然语言不是遵从最大化概率
人们可能会想,最大化的问题是否是搜索错误,即,与解码的句子相比,模型赋予了更高概率的更高质量的句子,beam搜索只是未能找到它们。然而,文章评估,自然文本的每符号概率平均远低于beam搜索生成的文本。自然语言很少在多个连续的时间步长内保持在高概率区域,而是转向概率较低但信息量较大的标记。自然语言也不倾向于陷入重复循环,即使模型倾向于赋予这种情况高概率。
为什么人类书写的文本不是最可能的文本?文章推测这是人类语言的一个内在特性。在没有文本全局模型的情况下,每次分配一个单词的概率的语言模型将难以捕捉这种效果。Grice的《沟通的最大限度》(Grice,1975)表明,人们会针对显而易见的陈述进行优化。因此,让每个单词尽可能地可预测是不受欢迎的。这使得简单地通过训练更大的模型或使用标准的单词学习目标改进神经结构来解决问题变得不太可能:这样的模型被迫倾向于使用最低的公分母,而不是信息语言。

文章指出:似然最大化解码会导致重复和过度通用的语言使用,而没有截断的采样方法有可能从模型预测分布的低置信度尾部进行采样。Nucleus采样是一种有效捕获语言模型置信区域的解决方案。

在这里插入图片描述
图4指出:重复短语的概率随着每次重复而增加,从而形成正反馈循环。我们发现这种效果适用于我们测试的绝大多数短语,无论短语长度如何,或者这些短语是否是随机采样的,而不是从人类文本中获取的。
在图4中,可以观察到beam搜索生成的文本倾向于重复(例如,“team Sexch”和“overview of the”等短语的重复),这导致了高概率的重复文本生成。相比之下,人类生成的文本具有更高的变化性(variance),并且不会陷入重复循环。人类文本的概率分布显示了较低的重复性,并且更倾向于探索词汇的多样性。
图4中还强调了beam搜索生成文本的问题,即它倾向于生成过于可预测、缺乏多样性和陷入重复循环的文本。这与人类生成的文本形成鲜明对比,后者更自然、更具多样性,并且不太可能连续使用高概率的词汇。
总结来说,图4揭示了beam搜索解码方法在生成文本时可能导致的问题,尤其是在保持文本多样性和避免重复方面,而人类生成的文本则更自然、更具多样性。

关于文本的重复
文章指出,可以量化的文本质量的一个属性是重复。 Nucleus Sampling 和 top-𝑘对于合理的参数范围,采样的重复次数最少。除非使用非常高的温度,否则温度采样的世代具有更多的重复性,评估已经证明这会对相干性产生负面影响(通过高困惑度来衡量)。 此外,当所有随机方法的调优参数设置得太低时,都会面临重复问题,这往往会过度截断,模仿贪婪搜索。 因此,文章得出结论,只有核抽样才能满足文本理想世代的所有分布标准。

文章的主要方法:Nucleus Sampling

在这里插入图片描述
Nucleus Sampling的方法很简单,就是上面的公式。

对于top-k,难以选择合适的k值
文章指出,top-𝑘与beam搜索或从全分布中采样相比,采样导致文本质量要高得多,但是使用常数𝑘在不同的上下文中是次优的。 在某些上下文中,下一个单词分布的头部可以在数十个或数百个合理选项(例如通用上下文中的名词或动词)中是平坦的,而在其他上下文中,大多数概率质量集中在一个或少数标记中。 因此,如果𝑘很小,在某些情况下存在生成平淡或通用文本的风险,而如果𝑘比较大,top-𝑘词汇表将包括不合适的候选者,这些候选者将被重新归一化所增加的样本概率。
在核采样方法,考虑的候选者数量动态上升和下降,对应于模型置信区在词汇表上的变化。

温度采样

文章中3.3节讨论了“Sampling with Temperature”(温度采样)这一主题。

温度采样的基本概念

温度采样是一种用于基于概率的语言模型生成文本的方法。在这种方法中,模型输出的概率分布通过一个温度参数t 来调整。温度参数 t 影响生成文本的随机性和多样性。

温度采样的数学表达

给定模型的原始对数几率(logits) u_1:||V|| 和温度t ,通过以下公式重新估计 softmax 分布:

在这里插入图片描述

这个公式表示,温度参数 t 用于调整每个词V_l的概率。当 t 接近 0 时,概率分布会趋向于一个非常尖锐的分布,意味着模型倾向于选择概率最高的词;而当 t 增大时,分布变得更加平坦,增加了生成较少概率词的可能性,从而增加了文本的多样性。

温度采样的应用和问题

温度采样已被广泛应用于文本生成任务中。它允许模型在生成文本时引入一定程度的随机性,这有助于避免生成过于单调或重复的文本。

然而,文章指出,尽管降低温度可以提高生成文本的质量,但同时也会导致生成文本的多样性降低。这是因为较低的温度会使模型更倾向于选择概率最高的词,从而减少了生成较少见词汇的机会。

温度采样是一种有效的调节语言模型生成文本多样性和质量的方法。通过调整温度参数,可以在一定程度上控制生成文本的随机性和创造性。然而,需要仔细选择温度值,以平衡文本的质量和多样性。过低的温度可能会导致文本缺乏多样性,而过高的温度可能会生成不连贯或低质量的文本。

文章通过提出这些观点,强调了在设计文本生成模型时需要考虑的一个重要方面,即如何在保持文本质量的同时,引入足够的多样性和创造性。

这篇关于【论文速读】LM的文本生成方法,Top-p,温度,《The Curious Case of Neural Text Degeneration》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1038158

相关文章

SQL中redo log 刷⼊磁盘的常见方法

《SQL中redolog刷⼊磁盘的常见方法》本文主要介绍了SQL中redolog刷⼊磁盘的常见方法,将redolog刷入磁盘的方法确保了数据的持久性和一致性,下面就来具体介绍一下,感兴趣的可以了解... 目录Redo Log 刷入磁盘的方法Redo Log 刷入磁盘的过程代码示例(伪代码)在数据库系统中,r

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)

Java中Switch Case多个条件处理方法举例

《Java中SwitchCase多个条件处理方法举例》Java中switch语句用于根据变量值执行不同代码块,适用于多个条件的处理,:本文主要介绍Java中SwitchCase多个条件处理的相... 目录前言基本语法处理多个条件示例1:合并相同代码的多个case示例2:通过字符串合并多个case进阶用法使用

Python中__init__方法使用的深度解析

《Python中__init__方法使用的深度解析》在Python的面向对象编程(OOP)体系中,__init__方法如同建造房屋时的奠基仪式——它定义了对象诞生时的初始状态,下面我们就来深入了解下_... 目录一、__init__的基因图谱二、初始化过程的魔法时刻继承链中的初始化顺序self参数的奥秘默认

html5的响应式布局的方法示例详解

《html5的响应式布局的方法示例详解》:本文主要介绍了HTML5中使用媒体查询和Flexbox进行响应式布局的方法,简要介绍了CSSGrid布局的基础知识和如何实现自动换行的网格布局,详细内容请阅读本文,希望能对你有所帮助... 一 使用媒体查询响应式布局        使用的参数@media这是常用的

Spring 基于XML配置 bean管理 Bean-IOC的方法

《Spring基于XML配置bean管理Bean-IOC的方法》:本文主要介绍Spring基于XML配置bean管理Bean-IOC的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一... 目录一. spring学习的核心内容二. 基于 XML 配置 bean1. 通过类型来获取 bean2. 通过

基于Python实现读取嵌套压缩包下文件的方法

《基于Python实现读取嵌套压缩包下文件的方法》工作中遇到的问题,需要用Python实现嵌套压缩包下文件读取,本文给大家介绍了详细的解决方法,并有相关的代码示例供大家参考,需要的朋友可以参考下... 目录思路完整代码代码优化思路打开外层zip压缩包并遍历文件:使用with zipfile.ZipFil

Python处理函数调用超时的四种方法

《Python处理函数调用超时的四种方法》在实际开发过程中,我们可能会遇到一些场景,需要对函数的执行时间进行限制,例如,当一个函数执行时间过长时,可能会导致程序卡顿、资源占用过高,因此,在某些情况下,... 目录前言func-timeout1. 安装 func-timeout2. 基本用法自定义进程subp

IDEA自动生成注释模板的配置教程

《IDEA自动生成注释模板的配置教程》本文介绍了如何在IntelliJIDEA中配置类和方法的注释模板,包括自动生成项目名称、包名、日期和时间等内容,以及如何定制参数和返回值的注释格式,需要的朋友可以... 目录项目场景配置方法类注释模板定义类开头的注释步骤类注释效果方法注释模板定义方法开头的注释步骤方法注

Python列表去重的4种核心方法与实战指南详解

《Python列表去重的4种核心方法与实战指南详解》在Python开发中,处理列表数据时经常需要去除重复元素,本文将详细介绍4种最实用的列表去重方法,有需要的小伙伴可以根据自己的需要进行选择... 目录方法1:集合(set)去重法(最快速)方法2:顺序遍历法(保持顺序)方法3:副本删除法(原地修改)方法4: