万亿参数大模型网络怎么建？GTC 2024立了个标杆

本文主要是介绍万亿参数大模型网络怎么建？GTC 2024立了个标杆，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

多年来，NVIDIA一直在面向AI的数据中心方面布局，随着大模型与生成式AI的到来，NVIDIA也为大模型AI智算中心立了个Flag，这就是黄仁勋近两年来经常挂在嘴边上的“AI工厂”。

早在2022年9月的GTC大会上，黄仁勋就预测数据中心将发生进化。随着大模型与生成式AI的爆发，黄仁勋进一步强调生成式AI软件是一种全新的软件品类，因此需要一种新的计算方式——专用AI数据中心。对此，业界广泛使用的词汇叫作智算中心。

专用AI数据中心也被黄仁勋称为“AI工厂”，未来每一家公司都会有两个工厂——一个是制造工厂、一个是AI工厂。黄仁勋预测未来5年内全球数据中心基础设施安装量翻一番，每年创造数千亿美元的市场机会。

2023年，千亿规模参数大模型，风起云涌；2024，万亿规模参数大模型，呼啸而来。GPT-3公开的参数规模为1750亿，而GPT-4的参数规模市场猜测已经到了万亿规模。而由赛迪发布的《2024中国人工智能多模态大模型企业综合竞争力20强研究报告》，约30%上榜企业的模型参数规模达到万亿级以上。

万亿参数规模大模型智算中心，到底该怎么建？如何缩短建设周期？在GTC 2024上，NVIDIA给出了答案，这就是产品化的DGX AI Supercomputer，由DGX SuperPOD模块化构建，DGX SuperPOD提供了“顶配版”、“中配版”和“低配版”三个选择。

其中，与DGX SuperPOD “顶配版”同时上市的还有第五代 NVIDIA NVLink 网络、NVIDIA Quantum-X800 InfiniBand，加上NVIDIA BlueField-3 DPU，这个架构可为计算平台中的每块GPU提供高达每秒1800 GB的带宽。

第五代 NVLink网络。为了提升万亿级参数模型和混合专家大模型的性能，最新一代NVIDIA NVLink为每块GPU提供突破性的1.8TB/s双向吞吐量，确保多达576块GPU之间的无缝高速通信，满足了当今最复杂大模型的需求。

NVIDIA Quantum-X800 InfiniBand。Quantum-X800包含了NVIDIA Quantum Q3400交换机和NVIDIA ConnectX-8 SuperNIC，二者互连达到了业界领先的端到端800Gb/s吞吐量，交换带宽容量较上一代产品提高了5倍，网络计算能力凭借新一代的NVIDIA SHARP技术（SHARPv4）提高了9倍，达到了14.4Tflops。

新推出的第四代 NVIDIA 可扩展分层聚合和规约协议（SHARP）技术可提供14.4Tflops的网络计算能力，与上一代产品相比，新一代 DGX SuperPOD 架构的网络计算能力提高了4倍。

可以说Quantum-X800平台树立了AI专用基础设施极致性能的新标杆，也为万亿参数大模型智算中心网络树立了新标杆。NVIDIA还提供了面向万亿参数级大模型性能优化的网络加速通信库、软件开发套件和管理软件等全套软件方案。

DGX AI Supercomputer的“顶配版”采用的是最新GB200超级芯片（包含两个B200 GPU和一个Grace CPU）和高效液冷机架级扩展架构以及Quantum-X800网络平台。

DGX AI Supercomputer的“中配版”采用的是最新B200 GPU芯片和风冷架构以及新推出的Spectrum-X800以太网络平台。借助800Gb/s的Spectrum SN5600交换机和NVIDIA BlueField-3 SuperNIC，Spectrum-X800 平台为多租户生成式 AI 云和大型企业级用户带来多种先进功能。

DGX AI Supercomputer还有一个“低配版”，搭载了已经上市的H100 GPU和NVIDIA ConnectX-7 SmartNIC。考虑到上市两年的H100仍处于供不应求的状态，DGX AI Supercomputer“低配版”对于很多客户来说也已经是“高配版”了。

由DGX SuperPOD模块化构建的DGX AI Supercomputer是全球首个交钥匙工程化产品化的大模型AI智算中心。DGX SuperPOD是一台完整的数据中心级AI超级计算机，在与 NVIDIA 认证合作伙伴提供的高性能存储集成后，能够满足生成式 AI 工作负载的需求，每台超级计算机都在出厂前完成了搭建、布线和测试，从而极大加快了在用户数据中心的部署速度。

万亿参数大模型网络怎么建？GTC 2024为智算中心市场立了一个标杆。一个真正的AI变革时刻，到来了。(文/宁川)

这篇关于万亿参数大模型网络怎么建？GTC 2024立了个标杆的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！