本文主要是介绍LLama3技术报告笔记(系统),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1.6万块卡,700W TDP, 80GB显存;每台机器2块CPU+8块GPU,GPU之间NVLink互联;
通用分布式存储:240PB, 共7500个存储节点(30TB/节点), 全部是SSD;稳定吞吐量2TB/s,峰值吞吐量7TB/s (平均每个节点是1GB/s);Checkpointing写入是重点做的;
405B使用RoCE(RDMA over Converged Ethernet); 小模型使用Infiniband; 二者的跨机器都是50GB/s的带宽;
3层交换机(上面2层,每2个叶子之间有多个交换机);网络拓扑感知:Model并行策略,job scheduler,可根据当前job所在节点的网络拓扑,进行调度和策略调整;
collective通信库,把每个通信查分成16个流,便于通信load balance调度;(同一次collective通信操作,可被调度至多个路径上去,经过不同的中间交换机)
这篇关于LLama3技术报告笔记(系统)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!