承载AI计算的数据中心网络和传统数据中心有何不同?

2023-11-06 18:04

本文主要是介绍承载AI计算的数据中心网络和传统数据中心有何不同?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

生成式AI正在风靡全球,不少企业开始研究如何在其业务流程中采用人工智能技术,更有一些企业客户开始考虑在数据中心和私有云中部署自己的AIGC和 GPU 扩展网络。从网络角度来看,用于承载这类业务的数据中心与传统的数据中心有很大不同,它甚至与用于高性能计算 (HPC) 的数据中心也有所区别。

分析AI训练数据的一半时间消耗在网络上

尽管人们都在关注使用GPU服务器处理数据的用时,但实际上人工智能数据的一半处理过程都发生在网络中。所以,我们需要更加关注数据中心网络所能提供的速度和灵活性,以避免其成为整个数据中心的性能瓶颈。

构建高度可扩展的网络是AI数据中心的关键所在,考虑到未来的增长能力,网络交换架构必须包括横向和纵向扩展的硬件,网络操作系统需要带有应对数据包突增、负载平衡和智能流量重定向等数据中心高级功能,这样才可在AIGC网络内超负荷的 GPU 处理单元之间智能地重新路由流量。

工作负载数变少,但规模更大了

与致力于将网络延迟降至超低水平的高性能计算不同,人工智能数据中心的建设必须侧重于高吞吐能力。高性能计算网络旨在同时传输数千个工作负载,并要求将延迟降至最低,而人工智能工作负载的数量要少得多,但规模却大得多。

从速度的角度来看,对于AIGC网络来说,网络吞吐量比网络延迟更重要。如此,用于 HPC 的 InfiniBand 网络结构所具有的超低延迟优势已被削弱,而由于以太网标准具有更高的吞吐能力和更高的性价比,使用吞吐量更高的以太网网络可能很快就会成为常态。

网络部署需要更适应高密度连接

为生成式AI计算部署高密度 GPU 机架并非易事,首先网络布线的难度变大,此外还需要高达四倍的交换机端口密度。根据 Dell’Oro Group 的一份研究报告,到 2027 年,多达 20% 的数据中心交换机端口将分配给 AI 服务器。电源和冷却系统可能也都需要进行对应的调整才能适应更高的密度。

使用多站点或微型数据中心或许是适应这种密度的最佳选择。然而这也给连接这些站点的网络带来了压力,即要求网络尽可能具有更高的传输性能和扩展性。

网络的自动化编排和运维成为必备条件

承载AI的数据中心网络错综复杂,需要为此专门优化性能和提高可靠性,因此我们不应继续使用传统的命令行和第三方性能监控工具来管理 AIGC 网络。相反,企业应该部署一个网络编排平台,从一开始就在控制平面架构中提供一些有用的功能和性能洞察。

编排平台可提供多种优势,大大增强数据中心的管理能力:

  • 自动创建数据中心Underlay网络,大大减少网络开局和网络安全策略所需的时间。
  • 创建直观、自动化的Overlay网络和持续的 NetOps 管理。借助图形用户界面,管理平台可让网络管理员一站式地创建网络和网络安全策略,并自动将命令推送到需要的数据中心交换机而无需学习复杂的命令行。并且策略的创建基于系统内的标准模板,在很大程度上可以消除手动配置错误。
  • 提高性能和网络可视化程度。网络自动化工具还可使用多种传统和现代方法从网络交换硬件中收集和分析交换机健康状况和性能数据。收集和分析网络遥测数据是目前最新的方案:在这种情况下,交换机被配置为使用 gNMI 和 NETCONF 等专用协议标准向协调器发送实时性能测量数据。
  • 与传统的网络监控协议(如SNMP)相比,这些协议功能强大得多,有助于主动识别网络中存在的性能问题,在造成网络瘫痪或中断之前就开始补救。

附录:AIGC网络建设实践方案

方案详情请参阅:客户案例:高性能、大规模、高可靠的AIGC承载网络 (asterfusion.com)

  • 超低TCO、超高性价比:相较于IB网络方案,大幅度降低用户的网络TCO,同时确保超高性能
  • 横向平滑扩容、1:1收敛无阻塞:无收敛的网络设计确保无阻塞的大容量网络,按需横向扩展
  • 整网RoCEv2:基于CEE/DCB能力,提供可与IB媲美的性能和同样无损的网络服务
  • 开放网络操作系统:星融元网络操作系统AsterNOS,SONiC企业级发行版,支持灵活的功能扩展、在线升级
  • 无缝对接云管:AsterNOS 利用简单易用的REST API,可轻松让第三方的云平台/控制器快速纳管
  • 专家级服务:专业、全面、可靠的研发、方案与服务团队,为客户提供小时级的快速响应服务
     

关注vx公号“星融元Asterfusion”,获取更多技术分享和最新产品动态。

这篇关于承载AI计算的数据中心网络和传统数据中心有何不同?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/358193

相关文章

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

2. c#从不同cs的文件调用函数

1.文件目录如下: 2. Program.cs文件的主函数如下 using System;using System.Collections.Generic;using System.Linq;using System.Threading.Tasks;using System.Windows.Forms;namespace datasAnalysis{internal static

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor