本文主要是介绍GPT-4参数最新爆料1.76万亿参数,8个2200亿MoE模型,深信不疑,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
家人们,GPT-4的参数可能还真不止1万亿! 近来,美国知名骇客George Hotz在接受采访时透露,GPT-4由8个220B模型组成。 这么算来,8 x 220B = 1.76万亿。 就连PyTorch的创建者Soumith Chintala对此也深信不疑。 GPT-4:8 x 220B专家模型用不同的数据/任务分布和16-iter推理进行训练。 如果真是这样的话,GPT-4的训练可能更加有效。

1.76万亿「八头蛇」?

他特别强调,OpenAI做了8个混合专家模型,任何人可以花8倍资金都能训练出来。 也就是说,人们能够训练更小模型更长时间,微调后,就能找到这些技巧。 OpenAI曾经发表类似关于让计算量不变的情况下,让训练更好的算法,比较像BatchNorm和NoBatchNorm。GPT-4每个head都有2200亿参数,是一个8路的混合模型。所以,混合模型是当你想不出办法的时候才会做的。OpenAI训练了相同模型8次,他们有一些小技巧。他们实际上进行了16次推断。

网友热评
就像George所说,这是8个较小的模型,如果有足够资金训练8个混合模型,这是一个微不足道的解决方案。






这篇关于GPT-4参数最新爆料1.76万亿参数,8个2200亿MoE模型,深信不疑的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!