万亿参数大模型网络怎么建?GTC 2024立了个标杆

2024-03-21 19:12

本文主要是介绍万亿参数大模型网络怎么建?GTC 2024立了个标杆,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

​多年来,NVIDIA一直在面向AI的数据中心方面布局,随着大模型与生成式AI的到来,NVIDIA也为大模型AI智算中心立了个Flag,这就是黄仁勋近两年来经常挂在嘴边上的“AI工厂”。

早在2022年9月的GTC大会上,黄仁勋就预测数据中心将发生进化。随着大模型与生成式AI的爆发,黄仁勋进一步强调生成式AI软件是一种全新的软件品类,因此需要一种新的计算方式——专用AI数据中心。对此,业界广泛使用的词汇叫作智算中心。

专用AI数据中心也被黄仁勋称为“AI工厂”,未来每一家公司都会有两个工厂——一个是制造工厂、一个是AI工厂。黄仁勋预测未来5年内全球数据中心基础设施安装量翻一番,每年创造数千亿美元的市场机会。

2023年,千亿规模参数大模型,风起云涌;2024,万亿规模参数大模型,呼啸而来。GPT-3公开的参数规模为1750亿,而GPT-4的参数规模市场猜测已经到了万亿规模。而由赛迪发布的《2024中国人工智能多模态大模型企业综合竞争力20强研究报告》,约30%上榜企业的模型参数规模达到万亿级以上。

万亿参数规模大模型智算中心,到底该怎么建?如何缩短建设周期?在GTC 2024上,NVIDIA给出了答案,这就是产品化的DGX AI Supercomputer,由DGX SuperPOD模块化构建,DGX SuperPOD提供了“顶配版”、“中配版”和“低配版”三个选择。

其中,与DGX SuperPOD “顶配版”同时上市的还有第五代 NVIDIA NVLink 网络、NVIDIA Quantum-X800 InfiniBand,加上NVIDIA BlueField-3 DPU, 这个架构可为计算平台中的每块GPU提供高达每秒1800 GB的带宽。

第五代 NVLink网络。为了提升万亿级参数模型和混合专家大模型的性能,最新一代NVIDIA NVLink为每块GPU提供突破性的1.8TB/s双向吞吐量,确保多达576块GPU之间的无缝高速通信,满足了当今最复杂大模型的需求。

NVIDIA Quantum-X800 InfiniBand。Quantum-X800包含了NVIDIA Quantum Q3400交换机和NVIDIA ConnectX-8 SuperNIC,二者互连达到了业界领先的端到端800Gb/s吞吐量,交换带宽容量较上一代产品提高了5倍,网络计算能力凭借新一代的NVIDIA SHARP技术(SHARPv4)提高了9倍,达到了14.4Tflops。 

新推出的第四代 NVIDIA 可扩展分层聚合和规约协议(SHARP)技术可提供14.4Tflops的网络计算能力,与上一代产品相比,新一代 DGX SuperPOD 架构的网络计算能力提高了4倍。

可以说Quantum-X800平台树立了AI专用基础设施极致性能的新标杆,也为万亿参数大模型智算中心网络树立了新标杆。NVIDIA还提供了面向万亿参数级大模型性能优化的网络加速通信库、软件开发套件和管理软件等全套软件方案。

DGX AI Supercomputer的“顶配版”采用的是最新GB200超级芯片(包含两个B200 GPU和一个Grace CPU)和高效液冷机架级扩展架构以及Quantum-X800网络平台。

DGX AI Supercomputer的“中配版”采用的是最新B200 GPU芯片和风冷架构以及新推出的Spectrum-X800以太网络平台。借助800Gb/s的Spectrum SN5600交换机和NVIDIA BlueField-3 SuperNIC,Spectrum-X800 平台为多租户生成式 AI 云和大型企业级用户带来多种先进功能。

DGX AI Supercomputer还有一个“低配版”,搭载了已经上市的H100 GPU和NVIDIA ConnectX-7 SmartNIC。考虑到上市两年的H100仍处于供不应求的状态,DGX AI Supercomputer“低配版”对于很多客户来说也已经是“高配版”了。

由DGX SuperPOD模块化构建的DGX AI Supercomputer是全球首个交钥匙工程化产品化的大模型AI智算中心。DGX SuperPOD是一台完整的数据中心级AI超级计算机,在与 NVIDIA 认证合作伙伴提供的高性能存储集成后,能够满足生成式 AI 工作负载的需求,每台超级计算机都在出厂前完成了搭建、布线和测试,从而极大加快了在用户数据中心的部署速度。

万亿参数大模型网络怎么建?GTC 2024为智算中心市场立了一个标杆。一个真正的AI变革时刻,到来了。(文/宁川)

这篇关于万亿参数大模型网络怎么建?GTC 2024立了个标杆的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/833638

相关文章

Linux内核参数配置与验证详细指南

《Linux内核参数配置与验证详细指南》在Linux系统运维和性能优化中,内核参数(sysctl)的配置至关重要,本文主要来聊聊如何配置与验证这些Linux内核参数,希望对大家有一定的帮助... 目录1. 引言2. 内核参数的作用3. 如何设置内核参数3.1 临时设置(重启失效)3.2 永久设置(重启仍生效

电脑死机无反应怎么强制重启? 一文读懂方法及注意事项

《电脑死机无反应怎么强制重启?一文读懂方法及注意事项》在日常使用电脑的过程中,我们难免会遇到电脑无法正常启动的情况,本文将详细介绍几种常见的电脑强制开机方法,并探讨在强制开机后应注意的事项,以及如何... 在日常生活和工作中,我们经常会遇到电脑突然无反应的情况,这时候强制重启就成了解决问题的“救命稻草”。那

SpringMVC获取请求参数的方法

《SpringMVC获取请求参数的方法》:本文主要介绍SpringMVC获取请求参数的方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下... 目录1、通过ServletAPI获取2、通过控制器方法的形参获取请求参数3、@RequestParam4、@

Spring Boot项目部署命令java -jar的各种参数及作用详解

《SpringBoot项目部署命令java-jar的各种参数及作用详解》:本文主要介绍SpringBoot项目部署命令java-jar的各种参数及作用的相关资料,包括设置内存大小、垃圾回收... 目录前言一、基础命令结构二、常见的 Java 命令参数1. 设置内存大小2. 配置垃圾回收器3. 配置线程栈大小

SpringBoot利用@Validated注解优雅实现参数校验

《SpringBoot利用@Validated注解优雅实现参数校验》在开发Web应用时,用户输入的合法性校验是保障系统稳定性的基础,​SpringBoot的@Validated注解提供了一种更优雅的解... 目录​一、为什么需要参数校验二、Validated 的核心用法​1. 基础校验2. php分组校验3

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

Linux系统配置NAT网络模式的详细步骤(附图文)

《Linux系统配置NAT网络模式的详细步骤(附图文)》本文详细指导如何在VMware环境下配置NAT网络模式,包括设置主机和虚拟机的IP地址、网关,以及针对Linux和Windows系统的具体步骤,... 目录一、配置NAT网络模式二、设置虚拟机交换机网关2.1 打开虚拟机2.2 管理员授权2.3 设置子

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应