万亿参数大模型网络怎么建?GTC 2024立了个标杆

2024-03-21 19:12

本文主要是介绍万亿参数大模型网络怎么建?GTC 2024立了个标杆,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

​多年来,NVIDIA一直在面向AI的数据中心方面布局,随着大模型与生成式AI的到来,NVIDIA也为大模型AI智算中心立了个Flag,这就是黄仁勋近两年来经常挂在嘴边上的“AI工厂”。

早在2022年9月的GTC大会上,黄仁勋就预测数据中心将发生进化。随着大模型与生成式AI的爆发,黄仁勋进一步强调生成式AI软件是一种全新的软件品类,因此需要一种新的计算方式——专用AI数据中心。对此,业界广泛使用的词汇叫作智算中心。

专用AI数据中心也被黄仁勋称为“AI工厂”,未来每一家公司都会有两个工厂——一个是制造工厂、一个是AI工厂。黄仁勋预测未来5年内全球数据中心基础设施安装量翻一番,每年创造数千亿美元的市场机会。

2023年,千亿规模参数大模型,风起云涌;2024,万亿规模参数大模型,呼啸而来。GPT-3公开的参数规模为1750亿,而GPT-4的参数规模市场猜测已经到了万亿规模。而由赛迪发布的《2024中国人工智能多模态大模型企业综合竞争力20强研究报告》,约30%上榜企业的模型参数规模达到万亿级以上。

万亿参数规模大模型智算中心,到底该怎么建?如何缩短建设周期?在GTC 2024上,NVIDIA给出了答案,这就是产品化的DGX AI Supercomputer,由DGX SuperPOD模块化构建,DGX SuperPOD提供了“顶配版”、“中配版”和“低配版”三个选择。

其中,与DGX SuperPOD “顶配版”同时上市的还有第五代 NVIDIA NVLink 网络、NVIDIA Quantum-X800 InfiniBand,加上NVIDIA BlueField-3 DPU, 这个架构可为计算平台中的每块GPU提供高达每秒1800 GB的带宽。

第五代 NVLink网络。为了提升万亿级参数模型和混合专家大模型的性能,最新一代NVIDIA NVLink为每块GPU提供突破性的1.8TB/s双向吞吐量,确保多达576块GPU之间的无缝高速通信,满足了当今最复杂大模型的需求。

NVIDIA Quantum-X800 InfiniBand。Quantum-X800包含了NVIDIA Quantum Q3400交换机和NVIDIA ConnectX-8 SuperNIC,二者互连达到了业界领先的端到端800Gb/s吞吐量,交换带宽容量较上一代产品提高了5倍,网络计算能力凭借新一代的NVIDIA SHARP技术(SHARPv4)提高了9倍,达到了14.4Tflops。 

新推出的第四代 NVIDIA 可扩展分层聚合和规约协议(SHARP)技术可提供14.4Tflops的网络计算能力,与上一代产品相比,新一代 DGX SuperPOD 架构的网络计算能力提高了4倍。

可以说Quantum-X800平台树立了AI专用基础设施极致性能的新标杆,也为万亿参数大模型智算中心网络树立了新标杆。NVIDIA还提供了面向万亿参数级大模型性能优化的网络加速通信库、软件开发套件和管理软件等全套软件方案。

DGX AI Supercomputer的“顶配版”采用的是最新GB200超级芯片(包含两个B200 GPU和一个Grace CPU)和高效液冷机架级扩展架构以及Quantum-X800网络平台。

DGX AI Supercomputer的“中配版”采用的是最新B200 GPU芯片和风冷架构以及新推出的Spectrum-X800以太网络平台。借助800Gb/s的Spectrum SN5600交换机和NVIDIA BlueField-3 SuperNIC,Spectrum-X800 平台为多租户生成式 AI 云和大型企业级用户带来多种先进功能。

DGX AI Supercomputer还有一个“低配版”,搭载了已经上市的H100 GPU和NVIDIA ConnectX-7 SmartNIC。考虑到上市两年的H100仍处于供不应求的状态,DGX AI Supercomputer“低配版”对于很多客户来说也已经是“高配版”了。

由DGX SuperPOD模块化构建的DGX AI Supercomputer是全球首个交钥匙工程化产品化的大模型AI智算中心。DGX SuperPOD是一台完整的数据中心级AI超级计算机,在与 NVIDIA 认证合作伙伴提供的高性能存储集成后,能够满足生成式 AI 工作负载的需求,每台超级计算机都在出厂前完成了搭建、布线和测试,从而极大加快了在用户数据中心的部署速度。

万亿参数大模型网络怎么建?GTC 2024为智算中心市场立了一个标杆。一个真正的AI变革时刻,到来了。(文/宁川)

这篇关于万亿参数大模型网络怎么建?GTC 2024立了个标杆的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/833638

相关文章

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

MySQL中时区参数time_zone解读

《MySQL中时区参数time_zone解读》MySQL时区参数time_zone用于控制系统函数和字段的DEFAULTCURRENT_TIMESTAMP属性,修改时区可能会影响timestamp类型... 目录前言1.时区参数影响2.如何设置3.字段类型选择总结前言mysql 时区参数 time_zon

Python如何使用seleniumwire接管Chrome查看控制台中参数

《Python如何使用seleniumwire接管Chrome查看控制台中参数》文章介绍了如何使用Python的seleniumwire库来接管Chrome浏览器,并通过控制台查看接口参数,本文给大家... 1、cmd打开控制台,启动谷歌并制定端口号,找不到文件的加环境变量chrome.exe --rem

怎么关闭Ubuntu无人值守升级? Ubuntu禁止自动更新的技巧

《怎么关闭Ubuntu无人值守升级?Ubuntu禁止自动更新的技巧》UbuntuLinux系统禁止自动更新的时候,提示“无人值守升级在关机期间,请不要关闭计算机进程”,该怎么解决这个问题?详细请看... 本教程教你如何处理无人值守的升级,即 Ubuntu linux 的自动系统更新。来源:https://

Ubuntu系统怎么安装Warp? 新一代AI 终端神器安装使用方法

《Ubuntu系统怎么安装Warp?新一代AI终端神器安装使用方法》Warp是一款使用Rust开发的现代化AI终端工具,该怎么再Ubuntu系统中安装使用呢?下面我们就来看看详细教程... Warp Terminal 是一款使用 Rust 开发的现代化「AI 终端」工具。最初它只支持 MACOS,但在 20

LinuxMint怎么安装? Linux Mint22下载安装图文教程

《LinuxMint怎么安装?LinuxMint22下载安装图文教程》LinuxMint22发布以后,有很多新功能,很多朋友想要下载并安装,该怎么操作呢?下面我们就来看看详细安装指南... linux Mint 是一款基于 Ubuntu 的流行发行版,凭借其现代、精致、易于使用的特性,深受小伙伴们所喜爱。对

macOS怎么轻松更换App图标? Mac电脑图标更换指南

《macOS怎么轻松更换App图标?Mac电脑图标更换指南》想要给你的Mac电脑按照自己的喜好来更换App图标?其实非常简单,只需要两步就能搞定,下面我来详细讲解一下... 虽然 MACOS 的个性化定制选项已经「缩水」,不如早期版本那么丰富,www.chinasem.cn但我们仍然可以按照自己的喜好来更换

SSID究竟是什么? WiFi网络名称及工作方式解析

《SSID究竟是什么?WiFi网络名称及工作方式解析》SID可以看作是无线网络的名称,类似于有线网络中的网络名称或者路由器的名称,在无线网络中,设备通过SSID来识别和连接到特定的无线网络... 当提到 Wi-Fi 网络时,就避不开「SSID」这个术语。简单来说,SSID 就是 Wi-Fi 网络的名称。比如

Linux中Curl参数详解实践应用

《Linux中Curl参数详解实践应用》在现代网络开发和运维工作中,curl命令是一个不可或缺的工具,它是一个利用URL语法在命令行下工作的文件传输工具,支持多种协议,如HTTP、HTTPS、FTP等... 目录引言一、基础请求参数1. -X 或 --request2. -d 或 --data3. -H 或

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五