本文主要是介绍LLM分布式训练第一课(通讯原语),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
这个系列作为TFLOPS和显存消耗的续篇,今天开始正式连载
上一部地址:
LLM 参数,显存,Tflops? 训练篇(5) (qq.com)
前一篇文章举了65B模型的训练所消耗的显存的案例,如果把条件降低一点,我们看一下7B的模型需要多少显存?
-
2byte的模型静态参数权重(以16bit存储) = 14G
-
2byte的模型更新参数权重 (以16bit存储)= 14G
-
2byte的梯度(以16bit存储)= 14G
-
2byte的梯度更新(以16bit存储)= 14G
-
4byte的一阶动量优化器更新(以32bit存储)= 28G
-
4byte的二阶方差优化器更新(以32bit存储)= 28G
</
这篇关于LLM分布式训练第一课(通讯原语)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!