本文主要是介绍大模型生成的常见Top-k、Top-p、Temperature参数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
参考:
https://zhuanlan.zhihu.com/p/669661536
topK,topP
https://www.douyin.com/video/7380126984573127945
主要是softmax产生的词表每个词的概率分布后,
topK,比如K=3,表示采样概率最大的前3个,其他全部舍弃,在这前3个词选择
topP,P比如P=0.7,表示采样前面概率最大的加和>=0.7的所有词,后续在这些词中进行再选择,其他舍弃
综合下来:topP一般给后续选择的空间比topK要多些
Temperature
https://www.douyin.com/video/7380324563369889061
主要是在改变 softmax 生成解码token的概率上(所有词表每个词的可能概率):
正常softmax
加速Temperature后的softmax
每个指数除以t;e是自然是约等于2.7
T大于1,越大 softmax生成的每个词的概率差别不大,所以更随机
T小于1,越小 softmax生成的每个词的概率差别大,所以更确认,就是少部分几个词的概率最大
这篇关于大模型生成的常见Top-k、Top-p、Temperature参数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!