优化采样参数提升大语言模型响应质量:深入分析温度、top_p、top_k和min_p的随机解码策略

本文主要是介绍优化采样参数提升大语言模型响应质量:深入分析温度、top_p、top_k和min_p的随机解码策略,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

当向大语言模型(LLM)提出查询时,模型会为其词汇表中的每个可能标记输出概率值。从这个概率分布中采样一个标记后,我们可以将该标记附加到输入提示中,使LLM能够继续输出下一个标记的概率。这个采样过程可以通过诸如

temperature

top_p

等参数进行精确控制。但是你是否曾深入思考过temperature和top_p参数的具体作用?

本文将详细解析并可视化定义LLM输出行为的采样策略。通过深入理解这些参数的作用机制并根据具体应用场景进行调优,可以显著提升LLM生成输出的质量。

本文的介绍可以采用VLLM作为推理引擎,并使用微软最新发布的Phi-3.5-mini-instruct模型,结合AWQ量化技术,可以在配备NVIDIA GeForce RTX 2060 GPU的笔记本电脑中运行。

对数概率采样原理解析

LLM解码理论基础

LLM在有限的词汇表

V

上进行训练,该词汇表包含模型可识别和输出的所有可能标记

x

。一个标记可以是单词、字符或介于两者之间的任何语言单位。

LLM接收一系列标记

**x** = (x_1, x_2, x_3, ..., x_n)

作为输入提示,其中每个

x

都是

_V_

中的元素。

随后LLM基于输入提示输出下一个标记的概率分布

P

。从数学角度,这可表示为

P(x_t | x_1, x_2, x_3, ..., x_t-1)

。从这个分布中选择哪个标记是由我们决定的。在此过程中可以选择不同的采样策略采样参数

采样本质上是一种概率选择过程。选定下一个标记将其附加到输入提示中并重复这个循环。在LLM领域,这些概率分布通常用对数概率表示,称为logprobs

如下图所示,对数函数在0到1之间的值域内恒为负

上图为三种常用底数的对数函数图。

这就解释了为什么logprobs是负值。接近零的logprob对应极高的概率(接近100%),而绝对值较大的负logprob则表示接近0的概率。

使用OpenAI Python SDK获取Logprobs

以下是一个使用官方OpenAI Python客户端进行文本补全的Python脚本。通过设置这些参数,模型将尝试基于输入提示预测下一个标记

 fromopenaiimportOpenAIclient=OpenAI()completion=client.completions.create(model="jester6136/Phi-3.5-mini-instruct-awq",prompt="The quick brown fox jumps over the",logprobs=10,temperature=1.0,top_p=1.0,max_tokens=1)

下面展示了给定句子的标记概率分布。模型选择了

tokens=[' lazy']

作为下一个标记。我们还可以在

top_logprobs

列表中观察到前10个logprobs。

 logprobs=completion.choices[0].logprobsprint(logsprobs)>>Logprobs(text_offset=[0],>>  token_logprobs=[-0.0013972291490063071],>>  tokens=[' lazy'],>>  top_logprobs=[{' lazy': -0.0013972291490063071,>>                 ' sleep': -7.501397132873535,>>                 ' l': -9.095147132873535,>>                 ' log': -9.126397132873535,>>                 ' la': -9.220147132873535,>>                 ' le': -9.313897132873535,>>                 ' lay': -9.720147132873535,>>                 ' Laz': -9.938897132873535,>>                 ' dog': -9.970147132873535,>>                 ' ': -9.970147132873535}])

我们可以使用以下公式将logprobs转换为百分比概率:

 importnumpyasnpprobability=100*np.exp(logprob)

转换所有logprobs后,可以观察到标记"lazy"有99.86%的概率被采样。这同时意味着有0.14%的概率会选择其他标记。

给定补全提示"The quick brown fox jumps over the"时,前10个标记的概率分布,温度参数设为1。

贪婪解码策略

最基本的采样策略是贪婪解码。该方法在每一步简单地选择概率最高的标记。

贪婪解码是一种确定性采样策略,因为它不涉及任何随机性。给定相同的概率分布,模型每次都会选择相同的下一个标记。

贪婪解码的主要缺点是生成的文本往往重复性高且创意性不足。这类似于在写作时总是选择最常见的词汇和最标准的表达方式。

贪婪解码的数学表达式 [1]

与确定性的贪婪解码相对的是随机解码。这种方法从分布中进行采样,以产生更具创意性的、基于概率的文本。随机解码是通常应用于LLM输出的方法。

温度参数

温度是LLM中最广为人知的参数之一。

OpenAI对温度参数给出了如下定义:

采样温度的取值范围在0到2之间。较高的值(如0.8)会使输出更加随机,而较低的值(如0.2)会使输出更加聚焦和确定。

在LLM输出下一个标记的概率分布后,我们可以通过温度参数调整其分布形状。温度

T

是一个控制下一个标记概率分布尖锐度或平滑度的参数。

从数学角度看,经温度缩放后的新概率分布

P_T

可以通过以下公式计算。

z_v

是LLM为标记

v

输出的logprob或logit,它被温度参数

T

除。

温度缩放公式本质上是一个带有额外缩放参数

T

的softmax函数。

温度缩放的数学公式 [1]

通过加入温度参数,可以从新的概率分布

P_T

中采样,而不是原始概率分布

P

下图展示了对**输入提示"1+1="**的四种不同概率分布。在这种情况下,下一个标记应该是2。

(注意:这些并非完整分布,仅绘制了部分值)。

微软Phi-3.5-mini-instruct LLM对输入提示"1+1="的四种不同概率分布图,展示了不同温度T参数的效果。

可以观察到,温度

T

越高,分布就越趋于平坦。这里的"平坦"意味着各个结果的概率趋于均等。

值得注意的是,在默认温度

T=1.0

下,明显的正确答案2只有约85%的概率被选中,这意味着如果进行足够多次的采样,得到不同答案的可能性并非微乎其微。

在温度

T=2.0

时,尽管标记"2"仍然是最可能的选择,但其概率已降至约5%。这意味着此时采样的标记几乎完全随机。所以在实际应用中很少有理由将温度设置得如此之高。

这里我们引用OpenAI文档所述,温度是一种调节输出随机性或聚焦度的方法。由于我们只是在调整概率分布,始终存在采样到完全不相关标记的非零概率,这可能导致事实性错误或语法混乱。

Top-k采样策略

Top-k采样策略简单地选取概率最高的

k

个标记,忽略其余标记。

k=1

时,top-k采样等同于贪婪解码。

更准确地说,top-k采样在概率最高的前k个标记之后截断概率分布。这意味着我们将词汇表

V

中不属于前k个标记的所有标记的概率设为零。

将非top-k标记的概率设为零后,需要对剩余的分布进行重新归一化,使其总和为1

重新归一化概率分布的公式 [2]

以下是

k=4

的top-k采样可视化示例:

输入提示"My name is"的top-k采样可视化,k=4。上图显示模型的原始输出概率,下图展示top-k截断和重新归一化后的概率分布。

上图展示了模型的原始输出分布。红线将图分为左侧的top-k标记和右侧的其余部分。下图显示了截断和重新归一化后的新top-k分布

P_K

需要注意的是,top-k采样目前不是OpenAI API的标准参数,但在其他API中,如Anthropic的API,确实提供了

top_k

参数。

Top-k采样的一个主要问题是如何设置参数

k

。对于非常尖锐的分布,我们倾向于使用较小的

k

值,以避免在截断的词汇表中包含大量低概率标记。而对于较为平坦的分布,我们可能需要较大的

k

值,这样可以包含更多合理的标记可能性。

Top-p采样策略

Top-p采样,也称为核采样,是另一种通过从词汇表中剔除低概率标记来截断概率分布的随机解码方法。

我们还是引用OpenAI对top_p参数给出的定义:

这是一种替代温度采样的方法,称为核采样,模型考虑累积概率达到top_p的标记集合。例如,0.1意味着只考虑累积概率达到前10%的标记。

在top-p采样中,我们为标记的累积概率质量定义一个阈值

p

。对(已排序的)概率进行累加,直到达到累积概率阈值。保留所有使累积概率不超过阈值

p

的标记

获取top-p采样的top-p词汇表的数学公式 [2]

随后对截断后的概率分布进行重新归一化,使其总和为1。

下面是使用top-p对提示"I love to"进行采样的可视化结果:

输入提示"I love to"的top-p采样可视化,top_p=0.2。上图显示模型的原始输出概率,下图展示top-p截断和重新归一化后的概率分布。

上图展示了模型的原始输出分布,其中红线标记了20%的累积概率阈值,将图分为下方的top-p标记和上方的其余部分。重新归一化后,下图显示我们只保留了四个标记,其余标记的概率被置为零。

从理论角度来看,从logprobs的长尾分布中剔除极低概率的标记通常是合理的。因此

top_p

参数通常应设置为小于

1.0

的值。

但是top-p采样也并非完美无缺。下图展示了一个案例,其中top-p采样为了达到累积概率阈值而包含了大量低概率标记,这可能导致不理想的结果。

Top-p采样可能包含过多低概率标记的示例。(图片来源:[1])

结合Top-p和温度的策略

尽管OpenAI的官方文档中没有明确说明,但根据社区的测试结果,似乎top_p参数在温度参数之前应用

一般情况下通常不建议同时设置top_p和温度参数,但在某些场景下,这种组合可能会带来优势。

仅调整温度参数会使概率分布变得更加平坦或尖锐。这会使输出要么更加确定(低温度),要么更具创意性(高温度)。但是模型仍然是从概率分布中随机采样。所以会始终存在采样到高度不可能标记的风险

例如,模型可能会采样到外语字符或罕见的Unicode字符。理论上模型词汇表中的任何内容(现在通常非常庞大且多语言)都有可能被采样到。

作为一种解决方案,可以首先应用top-p采样来剔除这些极端情况,然后通过较高的温度从剩余的合理标记池中进行创造性采样。这种方法可以在保持输出多样性的同时,有效控制输出质量。

Min-p采样策略

最近一种新的采样方法被提出,称为min-p采样,源自论文"Min P Sampling: Balancing Creativity and Coherence at High Temperature"[1]。

Min-p同样是一种基于截断的随机解码方法,它试图通过引入动态阈值

p

来解决top-p采样的某些局限性。

计算min-p采样动态最小阈值的数学公式 [1]

Min-p采样的工作原理如下:

  1. 首先从概率分布中找出最大概率p_max,即排名最高的标记的概率。
  2. 将这个最大概率乘以一个参数p_base,得到一个最小阈值p_scaled
  3. 采样所有概率大于或等于p_scaled的标记。
  4. 最后,对截断后的概率进行重新归一化,得到新的概率分布。

Min-p采样使用相对最小概率的示意图。(图片来源:[1])

Min-p采样已在一些后端实现,如VLLM和llama.cpp。下图展示了min-p采样的可视化结果,其中

p_base = 0.1

,输入提示为"I love to read a"。

输入提示"I love to read a"的min-p采样可视化,p_base=0.1。上图显示模型的原始输出概率,下图展示min-p截断和重新归一化后的概率分布。

在这个例子中标记"good"的概率为32%。设置

p_base = 0.1

后,我们得到最小概率阈值

p_scaled = 3.2%

,即图中的红线位置。

总结与建议

通过深入理解采样参数的作用机制,我们可以更有针对性地为特定的LLM应用场景优化参数设置。

最关键的参数是温度和top_p。

温度参数调节模型输出概率分布的形状。需要注意的是,无论如何调整,总是存在采样到语义或语法上不合适标记的可能性。在给定概率分布的情况下,我们仍在进行概率性采样。

top_k参数通过截断概率分布来限制可能的候选标记集。但这种方法也存在风险:可能会过度剔除有价值的候选项,或者保留过多不适当的选项。

如果使用的LLM框架支持min-p采样,建议进行实验性尝试,评估其在特定任务中的表现。

在实际应用中,建议采取以下步骤:

  1. 首先尝试调整温度参数,观察其对输出质量的影响。
  2. 如果单纯调整温度无法达到理想效果,考虑引入top_p或top_k参数。
  3. 对不同参数组合进行系统性测试,找出最适合您特定任务的配置。
  4. 持续关注新的采样策略研究,如min-p采样,并在条件允许时进行评估。

通过精细调整这些参数,可以在保持输出多样性和创造性的同时,显著提高大语言模型生成内容的质量和相关性。

参考文献

[1] N. N. Minh, A. Baker, A. Kirsch, C. Neo, Min P Sampling: Balancing Creativity and Coherence at High Temperature (2024), arXiv:2407.01082

[2] A. Holtzman, J. Buys, L. Du, M. Forbes, Y. Choi, The Curious Case of Neural Text Degeneration (2019), Proceedings of International Conference on Learning Representations (ICLR) 2020

https://avoid.overfit.cn/post/6a30e6cfd2ac4f0d89edb4235e30c876

作者:Dr. Leon Eversberg

这篇关于优化采样参数提升大语言模型响应质量:深入分析温度、top_p、top_k和min_p的随机解码策略的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1141315

相关文章

C#使用HttpClient进行Post请求出现超时问题的解决及优化

《C#使用HttpClient进行Post请求出现超时问题的解决及优化》最近我的控制台程序发现有时候总是出现请求超时等问题,通常好几分钟最多只有3-4个请求,在使用apipost发现并发10个5分钟也... 目录优化结论单例HttpClient连接池耗尽和并发并发异步最终优化后优化结论我直接上优化结论吧,

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

MySQL中时区参数time_zone解读

《MySQL中时区参数time_zone解读》MySQL时区参数time_zone用于控制系统函数和字段的DEFAULTCURRENT_TIMESTAMP属性,修改时区可能会影响timestamp类型... 目录前言1.时区参数影响2.如何设置3.字段类型选择总结前言mysql 时区参数 time_zon

C#使用yield关键字实现提升迭代性能与效率

《C#使用yield关键字实现提升迭代性能与效率》yield关键字在C#中简化了数据迭代的方式,实现了按需生成数据,自动维护迭代状态,本文主要来聊聊如何使用yield关键字实现提升迭代性能与效率,感兴... 目录前言传统迭代和yield迭代方式对比yield延迟加载按需获取数据yield break显式示迭

使用SQL语言查询多个Excel表格的操作方法

《使用SQL语言查询多个Excel表格的操作方法》本文介绍了如何使用SQL语言查询多个Excel表格,通过将所有Excel表格放入一个.xlsx文件中,并使用pandas和pandasql库进行读取和... 目录如何用SQL语言查询多个Excel表格如何使用sql查询excel内容1. 简介2. 实现思路3

Go语言实现将中文转化为拼音功能

《Go语言实现将中文转化为拼音功能》这篇文章主要为大家详细介绍了Go语言中如何实现将中文转化为拼音功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 有这么一个需求:新用户入职 创建一系列账号比较麻烦,打算通过接口传入姓名进行初始化。想把姓名转化成拼音。因为有些账号即需要中文也需要英

Spring MVC如何设置响应

《SpringMVC如何设置响应》本文介绍了如何在Spring框架中设置响应,并通过不同的注解返回静态页面、HTML片段和JSON数据,此外,还讲解了如何设置响应的状态码和Header... 目录1. 返回静态页面1.1 Spring 默认扫描路径1.2 @RestController2. 返回 html2

Python如何使用seleniumwire接管Chrome查看控制台中参数

《Python如何使用seleniumwire接管Chrome查看控制台中参数》文章介绍了如何使用Python的seleniumwire库来接管Chrome浏览器,并通过控制台查看接口参数,本文给大家... 1、cmd打开控制台,启动谷歌并制定端口号,找不到文件的加环境变量chrome.exe --rem

Go语言使用Buffer实现高性能处理字节和字符

《Go语言使用Buffer实现高性能处理字节和字符》在Go中,bytes.Buffer是一个非常高效的类型,用于处理字节数据的读写操作,本文将详细介绍一下如何使用Buffer实现高性能处理字节和... 目录1. bytes.Buffer 的基本用法1.1. 创建和初始化 Buffer1.2. 使用 Writ