【论文速读】LM的文本生成方法,Top-p,温度,《The Curious Case of Neural Text Degeneration》

本文主要是介绍【论文速读】LM的文本生成方法,Top-p,温度,《The Curious Case of Neural Text Degeneration》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文链接:https://arxiv.org/abs/1904.09751
https://ar5iv.labs.arxiv.org/html/1904.09751

这篇文章,描述的是语言模型的文本生成的核采样的方法,就是现在熟知的top-p
大概看看,还有几个地方比较有趣,值得记录一下。

摘要

尽管神经语言建模取得了相当大的进步,但从语言模型生成文本(例如生成故事)的最佳解码策略是什么仍然是一个悬而未决的问题。反直觉的经验观察是,尽管使用似然性作为训练目标会为广泛的语言理解任务带来高质量的模型,但基于最大化的解码方法(如beam搜索)会导致退化——输出平淡、不连贯或陷入重复循环的文本。

为了解决这一问题,我们提出了Nucleus采样(Nucleus Sampling),这是一种简单但有效的方法,可以从神经语言模型中提取出比以前的解码策略高得多的质量文本。我们的方法通过截断概率分布的不可靠尾部,从包含绝大多数概率质量的Tokens的动态核中采样,避免了文本退化。

为了正确检查当前基于最大化的随机解码方法,我们将每种方法的代数与人类文本沿几个轴(如似然性、多样性和重复性)的分布进行了比较。我们的结果表明,(1)最大化是开放式文本生成的一个不合适的解码目标,(2)当前最佳语言模型的概率分布有一个不可靠的尾部,在生成过程中需要截断;(3)Nucleus Sampling是当前生成长格式文本的最佳解码策略,该文本既有高质量的(通过人类评估来衡量),也与人类书写的文本一样多样化。

文章的一些观点

在这里插入图片描述
先来看文章的图1。
文章指出,如图1所示,即使使用最先进的模型(如GPT-2 Large),为高概率输出进行优化的解码策略(如beam搜索)也会导致文本极其退化。这可能看起来有违直觉,因为人们会认为好的模型会给更像人的语法文本赋予更高的概率。事实上,语言模型通常会给格式良好的文本打分,但长文本的最高分数往往是通用的、重复的和尴尬的。

同样令人惊讶的是图1的右侧,它显示了纯采样——直接从模型预测的概率中采样——导致文本不连贯,几乎与上下文无关。为什么纯采样产生的文本如此退化?在这项工作中,我们展示了“不可靠的尾巴”是罪魁祸首。这种不可靠的尾部由数万个概率相对较低的候选Token组成,这些Token在聚合中被过度表示。

在这里插入图片描述
图2展示了beam搜索解码文本和自然出现文本的概率分布的实际差异。
人类文本的特征是方差增加,这与beam搜索解码的文本的无休止重复形成鲜明对比。——说明,人类的语言不是遵从概率,而是希望有更多的意外,单调可预测的话语只会让人觉得乏味。

为了克服这些问题,文章引入了Nucleus采样。核采样的关键直觉是,每个时间步长的绝大多数概率质量都集中在核心,这是词汇的一个子集,往往在一到一千个候选者之间。而不是依靠固定的top-𝑘,或者使用温度参数来控制分布的形状,而不充分抑制不可靠的尾部,文章建议采样top-𝑝概率质量的一部分,动态地扩展和收缩候选池。
文章后续评估,文本由最大化或top-𝑘抽样的可能性太大,评估表明词汇使用缺乏多样性,与人类分布存在差异。另一方面,纯采样产生的文本的可能性明显低于黄金文本,这对应于较低的生成质量。
词汇使用和Self-BLEU(Zhu et al.,2018)统计数据显示,top-𝑘抽样与人类统计数据相匹配,需要较高的k值。然而,基于较高的𝑘值通常在可能性上具有高的方差,暗示了质量上可观察到的不连续性问题。Nucleus采样可以通过调整p值,轻松匹配参考困惑度,避免了高k值设置造成的不连贯,可以匹配分布统计数据。

文章在后续指出:自然语言不是遵从最大化概率
人们可能会想,最大化的问题是否是搜索错误,即,与解码的句子相比,模型赋予了更高概率的更高质量的句子,beam搜索只是未能找到它们。然而,文章评估,自然文本的每符号概率平均远低于beam搜索生成的文本。自然语言很少在多个连续的时间步长内保持在高概率区域,而是转向概率较低但信息量较大的标记。自然语言也不倾向于陷入重复循环,即使模型倾向于赋予这种情况高概率。
为什么人类书写的文本不是最可能的文本?文章推测这是人类语言的一个内在特性。在没有文本全局模型的情况下,每次分配一个单词的概率的语言模型将难以捕捉这种效果。Grice的《沟通的最大限度》(Grice,1975)表明,人们会针对显而易见的陈述进行优化。因此,让每个单词尽可能地可预测是不受欢迎的。这使得简单地通过训练更大的模型或使用标准的单词学习目标改进神经结构来解决问题变得不太可能:这样的模型被迫倾向于使用最低的公分母,而不是信息语言。

文章指出:似然最大化解码会导致重复和过度通用的语言使用,而没有截断的采样方法有可能从模型预测分布的低置信度尾部进行采样。Nucleus采样是一种有效捕获语言模型置信区域的解决方案。

在这里插入图片描述
图4指出:重复短语的概率随着每次重复而增加,从而形成正反馈循环。我们发现这种效果适用于我们测试的绝大多数短语,无论短语长度如何,或者这些短语是否是随机采样的,而不是从人类文本中获取的。
在图4中,可以观察到beam搜索生成的文本倾向于重复(例如,“team Sexch”和“overview of the”等短语的重复),这导致了高概率的重复文本生成。相比之下,人类生成的文本具有更高的变化性(variance),并且不会陷入重复循环。人类文本的概率分布显示了较低的重复性,并且更倾向于探索词汇的多样性。
图4中还强调了beam搜索生成文本的问题,即它倾向于生成过于可预测、缺乏多样性和陷入重复循环的文本。这与人类生成的文本形成鲜明对比,后者更自然、更具多样性,并且不太可能连续使用高概率的词汇。
总结来说,图4揭示了beam搜索解码方法在生成文本时可能导致的问题,尤其是在保持文本多样性和避免重复方面,而人类生成的文本则更自然、更具多样性。

关于文本的重复
文章指出,可以量化的文本质量的一个属性是重复。 Nucleus Sampling 和 top-𝑘对于合理的参数范围,采样的重复次数最少。除非使用非常高的温度,否则温度采样的世代具有更多的重复性,评估已经证明这会对相干性产生负面影响(通过高困惑度来衡量)。 此外,当所有随机方法的调优参数设置得太低时,都会面临重复问题,这往往会过度截断,模仿贪婪搜索。 因此,文章得出结论,只有核抽样才能满足文本理想世代的所有分布标准。

文章的主要方法:Nucleus Sampling

在这里插入图片描述
Nucleus Sampling的方法很简单,就是上面的公式。

对于top-k,难以选择合适的k值
文章指出,top-𝑘与beam搜索或从全分布中采样相比,采样导致文本质量要高得多,但是使用常数𝑘在不同的上下文中是次优的。 在某些上下文中,下一个单词分布的头部可以在数十个或数百个合理选项(例如通用上下文中的名词或动词)中是平坦的,而在其他上下文中,大多数概率质量集中在一个或少数标记中。 因此,如果𝑘很小,在某些情况下存在生成平淡或通用文本的风险,而如果𝑘比较大,top-𝑘词汇表将包括不合适的候选者,这些候选者将被重新归一化所增加的样本概率。
在核采样方法,考虑的候选者数量动态上升和下降,对应于模型置信区在词汇表上的变化。

温度采样

文章中3.3节讨论了“Sampling with Temperature”(温度采样)这一主题。

温度采样的基本概念

温度采样是一种用于基于概率的语言模型生成文本的方法。在这种方法中,模型输出的概率分布通过一个温度参数t 来调整。温度参数 t 影响生成文本的随机性和多样性。

温度采样的数学表达

给定模型的原始对数几率(logits) u_1:||V|| 和温度t ,通过以下公式重新估计 softmax 分布:

在这里插入图片描述

这个公式表示,温度参数 t 用于调整每个词V_l的概率。当 t 接近 0 时,概率分布会趋向于一个非常尖锐的分布,意味着模型倾向于选择概率最高的词;而当 t 增大时,分布变得更加平坦,增加了生成较少概率词的可能性,从而增加了文本的多样性。

温度采样的应用和问题

温度采样已被广泛应用于文本生成任务中。它允许模型在生成文本时引入一定程度的随机性,这有助于避免生成过于单调或重复的文本。

然而,文章指出,尽管降低温度可以提高生成文本的质量,但同时也会导致生成文本的多样性降低。这是因为较低的温度会使模型更倾向于选择概率最高的词,从而减少了生成较少见词汇的机会。

温度采样是一种有效的调节语言模型生成文本多样性和质量的方法。通过调整温度参数,可以在一定程度上控制生成文本的随机性和创造性。然而,需要仔细选择温度值,以平衡文本的质量和多样性。过低的温度可能会导致文本缺乏多样性,而过高的温度可能会生成不连贯或低质量的文本。

文章通过提出这些观点,强调了在设计文本生成模型时需要考虑的一个重要方面,即如何在保持文本质量的同时,引入足够的多样性和创造性。

这篇关于【论文速读】LM的文本生成方法,Top-p,温度,《The Curious Case of Neural Text Degeneration》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1038158

相关文章

问题:第一次世界大战的起止时间是 #其他#学习方法#微信

问题:第一次世界大战的起止时间是 A.1913 ~1918 年 B.1913 ~1918 年 C.1914 ~1918 年 D.1914 ~1919 年 参考答案如图所示

[word] word设置上标快捷键 #学习方法#其他#媒体

word设置上标快捷键 办公中,少不了使用word,这个是大家必备的软件,今天给大家分享word设置上标快捷键,希望在办公中能帮到您! 1、添加上标 在录入一些公式,或者是化学产品时,需要添加上标内容,按下快捷键Ctrl+shift++就能将需要的内容设置为上标符号。 word设置上标快捷键的方法就是以上内容了,需要的小伙伴都可以试一试呢!

RedHat运维-Linux文本操作基础-AWK进阶

你不用整理,跟着敲一遍,有个印象,然后把它保存到本地,以后要用再去看,如果有了新东西,你自个再添加。这是我参考牛客上的shell编程专项题,只不过换成了问答的方式而已。不用背,就算是我自己亲自敲,我现在好多也记不住。 1. 输出nowcoder.txt文件第5行的内容 2. 输出nowcoder.txt文件第6行的内容 3. 输出nowcoder.txt文件第7行的内容 4. 输出nowcode

大学湖北中医药大学法医学试题及答案,分享几个实用搜题和学习工具 #微信#学习方法#职场发展

今天分享拥有拍照搜题、文字搜题、语音搜题、多重搜题等搜题模式,可以快速查找问题解析,加深对题目答案的理解。 1.快练题 这是一个网站 找题的网站海量题库,在线搜题,快速刷题~为您提供百万优质题库,直接搜索题库名称,支持多种刷题模式:顺序练习、语音听题、本地搜题、顺序阅读、模拟考试、组卷考试、赶快下载吧! 2.彩虹搜题 这是个老公众号了 支持手写输入,截图搜题,详细步骤,解题必备

电脑不小心删除的文件怎么恢复?4个必备恢复方法!

“刚刚在对电脑里的某些垃圾文件进行清理时,我一不小心误删了比较重要的数据。这些误删的数据还有机会恢复吗?希望大家帮帮我,非常感谢!” 在这个数字化飞速发展的时代,电脑早已成为我们日常生活和工作中不可或缺的一部分。然而,就像生活中的小插曲一样,有时我们可能会在不经意间犯下一些小错误,比如不小心删除了重要的文件。 当那份文件消失在眼前,仿佛被时间吞噬,我们不禁会心生焦虑。但别担心,就像每个问题

android 带与不带logo的二维码生成

该代码基于ZXing项目,这个网上能下载得到。 定义的控件以及属性: public static final int SCAN_CODE = 1;private ImageView iv;private EditText et;private Button qr_btn,add_logo;private Bitmap logo,bitmap,bmp; //logo图标private st

邮件群发推送的方法技巧?有哪些注意事项?

邮件群发推送的策略如何实现?邮件推送怎么评估效果? 电子邮件营销是现代企业进行推广和沟通的重要工具。有效的邮件群发推送不仅能提高客户参与度,还能促进销售增长。AokSend将探讨一些关键的邮件群发推送方法和技巧,以帮助企业优化其邮件营销策略。 邮件群发推送:目标受众 了解他们的需求、兴趣和行为习惯有助于你设计出更具吸引力和相关性的邮件内容。通过收集和分析数据,创建详细的客户画像,可以更精

基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别

转发来源:https://swift.ctolib.com/ooooverflow-chinese-ocr.html chinese-ocr 基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别 环境部署 sh setup.sh 使用环境: python 3.6 + tensorflow 1.10 +pytorch 0.4.1 注:CPU环境

上采样(upsample)的方法

上采样(upsample)的方法   在神经网络中,扩大特征图的方法,即upsample/上采样的方法   1)unpooling:恢复max的位置,其余部分补零   2)deconvolution(反卷积):先对input补零,再conv   3)插值方法,双线性插值等;   4)扩张卷积,dilated conv;

Linux文本三剑客sed

sed和awk grep就是查找文本当中的内容,最强大的功能就是使用扩展正则表达式 sed sed是一种流编辑器,一次处理一行内容。 如果只是展示,会放在缓冲区(模式空间),展示结束后,会从模式空间把结果删除 一行行处理,处理完当前行,才会处理下一行。直到文件的末尾。 sed的命令格式和操作选项: sed -e '操作符 ' -e '操作符' 文件1 文件2 -e表示可以跟多个操作