【论文速读】LM的文本生成方法,Top-p,温度,《The Curious Case of Neural Text Degeneration》

本文主要是介绍【论文速读】LM的文本生成方法,Top-p,温度,《The Curious Case of Neural Text Degeneration》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文链接:https://arxiv.org/abs/1904.09751
https://ar5iv.labs.arxiv.org/html/1904.09751

这篇文章,描述的是语言模型的文本生成的核采样的方法,就是现在熟知的top-p
大概看看,还有几个地方比较有趣,值得记录一下。

摘要

尽管神经语言建模取得了相当大的进步,但从语言模型生成文本(例如生成故事)的最佳解码策略是什么仍然是一个悬而未决的问题。反直觉的经验观察是,尽管使用似然性作为训练目标会为广泛的语言理解任务带来高质量的模型,但基于最大化的解码方法(如beam搜索)会导致退化——输出平淡、不连贯或陷入重复循环的文本。

为了解决这一问题,我们提出了Nucleus采样(Nucleus Sampling),这是一种简单但有效的方法,可以从神经语言模型中提取出比以前的解码策略高得多的质量文本。我们的方法通过截断概率分布的不可靠尾部,从包含绝大多数概率质量的Tokens的动态核中采样,避免了文本退化。

为了正确检查当前基于最大化的随机解码方法,我们将每种方法的代数与人类文本沿几个轴(如似然性、多样性和重复性)的分布进行了比较。我们的结果表明,(1)最大化是开放式文本生成的一个不合适的解码目标,(2)当前最佳语言模型的概率分布有一个不可靠的尾部,在生成过程中需要截断;(3)Nucleus Sampling是当前生成长格式文本的最佳解码策略,该文本既有高质量的(通过人类评估来衡量),也与人类书写的文本一样多样化。

文章的一些观点

在这里插入图片描述
先来看文章的图1。
文章指出,如图1所示,即使使用最先进的模型(如GPT-2 Large),为高概率输出进行优化的解码策略(如beam搜索)也会导致文本极其退化。这可能看起来有违直觉,因为人们会认为好的模型会给更像人的语法文本赋予更高的概率。事实上,语言模型通常会给格式良好的文本打分,但长文本的最高分数往往是通用的、重复的和尴尬的。

同样令人惊讶的是图1的右侧,它显示了纯采样——直接从模型预测的概率中采样——导致文本不连贯,几乎与上下文无关。为什么纯采样产生的文本如此退化?在这项工作中,我们展示了“不可靠的尾巴”是罪魁祸首。这种不可靠的尾部由数万个概率相对较低的候选Token组成,这些Token在聚合中被过度表示。

在这里插入图片描述
图2展示了beam搜索解码文本和自然出现文本的概率分布的实际差异。
人类文本的特征是方差增加,这与beam搜索解码的文本的无休止重复形成鲜明对比。——说明,人类的语言不是遵从概率,而是希望有更多的意外,单调可预测的话语只会让人觉得乏味。

为了克服这些问题,文章引入了Nucleus采样。核采样的关键直觉是,每个时间步长的绝大多数概率质量都集中在核心,这是词汇的一个子集,往往在一到一千个候选者之间。而不是依靠固定的top-𝑘,或者使用温度参数来控制分布的形状,而不充分抑制不可靠的尾部,文章建议采样top-𝑝概率质量的一部分,动态地扩展和收缩候选池。
文章后续评估,文本由最大化或top-𝑘抽样的可能性太大,评估表明词汇使用缺乏多样性,与人类分布存在差异。另一方面,纯采样产生的文本的可能性明显低于黄金文本,这对应于较低的生成质量。
词汇使用和Self-BLEU(Zhu et al.,2018)统计数据显示,top-𝑘抽样与人类统计数据相匹配,需要较高的k值。然而,基于较高的𝑘值通常在可能性上具有高的方差,暗示了质量上可观察到的不连续性问题。Nucleus采样可以通过调整p值,轻松匹配参考困惑度,避免了高k值设置造成的不连贯,可以匹配分布统计数据。

文章在后续指出:自然语言不是遵从最大化概率
人们可能会想,最大化的问题是否是搜索错误,即,与解码的句子相比,模型赋予了更高概率的更高质量的句子,beam搜索只是未能找到它们。然而,文章评估,自然文本的每符号概率平均远低于beam搜索生成的文本。自然语言很少在多个连续的时间步长内保持在高概率区域,而是转向概率较低但信息量较大的标记。自然语言也不倾向于陷入重复循环,即使模型倾向于赋予这种情况高概率。
为什么人类书写的文本不是最可能的文本?文章推测这是人类语言的一个内在特性。在没有文本全局模型的情况下,每次分配一个单词的概率的语言模型将难以捕捉这种效果。Grice的《沟通的最大限度》(Grice,1975)表明,人们会针对显而易见的陈述进行优化。因此,让每个单词尽可能地可预测是不受欢迎的。这使得简单地通过训练更大的模型或使用标准的单词学习目标改进神经结构来解决问题变得不太可能:这样的模型被迫倾向于使用最低的公分母,而不是信息语言。

文章指出:似然最大化解码会导致重复和过度通用的语言使用,而没有截断的采样方法有可能从模型预测分布的低置信度尾部进行采样。Nucleus采样是一种有效捕获语言模型置信区域的解决方案。

在这里插入图片描述
图4指出:重复短语的概率随着每次重复而增加,从而形成正反馈循环。我们发现这种效果适用于我们测试的绝大多数短语,无论短语长度如何,或者这些短语是否是随机采样的,而不是从人类文本中获取的。
在图4中,可以观察到beam搜索生成的文本倾向于重复(例如,“team Sexch”和“overview of the”等短语的重复),这导致了高概率的重复文本生成。相比之下,人类生成的文本具有更高的变化性(variance),并且不会陷入重复循环。人类文本的概率分布显示了较低的重复性,并且更倾向于探索词汇的多样性。
图4中还强调了beam搜索生成文本的问题,即它倾向于生成过于可预测、缺乏多样性和陷入重复循环的文本。这与人类生成的文本形成鲜明对比,后者更自然、更具多样性,并且不太可能连续使用高概率的词汇。
总结来说,图4揭示了beam搜索解码方法在生成文本时可能导致的问题,尤其是在保持文本多样性和避免重复方面,而人类生成的文本则更自然、更具多样性。

关于文本的重复
文章指出,可以量化的文本质量的一个属性是重复。 Nucleus Sampling 和 top-𝑘对于合理的参数范围,采样的重复次数最少。除非使用非常高的温度,否则温度采样的世代具有更多的重复性,评估已经证明这会对相干性产生负面影响(通过高困惑度来衡量)。 此外,当所有随机方法的调优参数设置得太低时,都会面临重复问题,这往往会过度截断,模仿贪婪搜索。 因此,文章得出结论,只有核抽样才能满足文本理想世代的所有分布标准。

文章的主要方法:Nucleus Sampling

在这里插入图片描述
Nucleus Sampling的方法很简单,就是上面的公式。

对于top-k,难以选择合适的k值
文章指出,top-𝑘与beam搜索或从全分布中采样相比,采样导致文本质量要高得多,但是使用常数𝑘在不同的上下文中是次优的。 在某些上下文中,下一个单词分布的头部可以在数十个或数百个合理选项(例如通用上下文中的名词或动词)中是平坦的,而在其他上下文中,大多数概率质量集中在一个或少数标记中。 因此,如果𝑘很小,在某些情况下存在生成平淡或通用文本的风险,而如果𝑘比较大,top-𝑘词汇表将包括不合适的候选者,这些候选者将被重新归一化所增加的样本概率。
在核采样方法,考虑的候选者数量动态上升和下降,对应于模型置信区在词汇表上的变化。

温度采样

文章中3.3节讨论了“Sampling with Temperature”(温度采样)这一主题。

温度采样的基本概念

温度采样是一种用于基于概率的语言模型生成文本的方法。在这种方法中,模型输出的概率分布通过一个温度参数t 来调整。温度参数 t 影响生成文本的随机性和多样性。

温度采样的数学表达

给定模型的原始对数几率(logits) u_1:||V|| 和温度t ,通过以下公式重新估计 softmax 分布:

在这里插入图片描述

这个公式表示,温度参数 t 用于调整每个词V_l的概率。当 t 接近 0 时,概率分布会趋向于一个非常尖锐的分布,意味着模型倾向于选择概率最高的词;而当 t 增大时,分布变得更加平坦,增加了生成较少概率词的可能性,从而增加了文本的多样性。

温度采样的应用和问题

温度采样已被广泛应用于文本生成任务中。它允许模型在生成文本时引入一定程度的随机性,这有助于避免生成过于单调或重复的文本。

然而,文章指出,尽管降低温度可以提高生成文本的质量,但同时也会导致生成文本的多样性降低。这是因为较低的温度会使模型更倾向于选择概率最高的词,从而减少了生成较少见词汇的机会。

温度采样是一种有效的调节语言模型生成文本多样性和质量的方法。通过调整温度参数,可以在一定程度上控制生成文本的随机性和创造性。然而,需要仔细选择温度值,以平衡文本的质量和多样性。过低的温度可能会导致文本缺乏多样性,而过高的温度可能会生成不连贯或低质量的文本。

文章通过提出这些观点,强调了在设计文本生成模型时需要考虑的一个重要方面,即如何在保持文本质量的同时,引入足够的多样性和创造性。

这篇关于【论文速读】LM的文本生成方法,Top-p,温度,《The Curious Case of Neural Text Degeneration》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1038158

相关文章

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

webm怎么转换成mp4?这几种方法超多人在用!

webm怎么转换成mp4?WebM作为一种新兴的视频编码格式,近年来逐渐进入大众视野,其背后承载着诸多优势,但同时也伴随着不容忽视的局限性,首要挑战在于其兼容性边界,尽管WebM已广泛适应于众多网站与软件平台,但在特定应用环境或老旧设备上,其兼容难题依旧凸显,为用户体验带来不便,再者,WebM格式的非普适性也体现在编辑流程上,由于它并非行业内的通用标准,编辑过程中可能会遭遇格式不兼容的障碍,导致操

poj 1258 Agri-Net(最小生成树模板代码)

感觉用这题来当模板更适合。 题意就是给你邻接矩阵求最小生成树啦。~ prim代码:效率很高。172k...0ms。 #include<stdio.h>#include<algorithm>using namespace std;const int MaxN = 101;const int INF = 0x3f3f3f3f;int g[MaxN][MaxN];int n

poj 1287 Networking(prim or kruscal最小生成树)

题意给你点与点间距离,求最小生成树。 注意点是,两点之间可能有不同的路,输入的时候选择最小的,和之前有道最短路WA的题目类似。 prim代码: #include<stdio.h>const int MaxN = 51;const int INF = 0x3f3f3f3f;int g[MaxN][MaxN];int P;int prim(){bool vis[MaxN];

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

hdu 1102 uva 10397(最小生成树prim)

hdu 1102: 题意: 给一个邻接矩阵,给一些村庄间已经修的路,问最小生成树。 解析: 把已经修的路的权值改为0,套个prim()。 注意prim 最外层循坏为n-1。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstri