数据中心、HPC、AI等应用场景互联协议混战哪家强?

2024-05-28 21:12

本文主要是介绍数据中心、HPC、AI等应用场景互联协议混战哪家强?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

生成式人工智能快速发展对算力与存力呈指数需求增长,进一步加剧了算力与存力之间既有矛盾,时代在呼唤更大的运力(即计算与存储之间的数据传输)--AIGC时代需要更大带宽,更为快速的数据传输路径。

众所周知,PCIE是目前所知最为常见的高性能I/O通信协议,但受限于PCIE总线的树形拓扑以及有限的设备标识ID号码范围,致使其无法形成一个大规模网络。尤其在NVMe大规模使用时占用大量的PCIe线路,使其原本就为紧张的通道更显捉襟见肘,同时也限制了GPU、NIC、FPGA/ASIC卡的接入数量。尽管可以使用PCIe Switch来缓解通道数量不够的问题,对于PCIE总线设备ID号的不足,PCIE Switch并没有可以一劳永逸的解决方案。

图片

除此之外,PCIE的设计还存在两个致命的缺陷:存储器地址空间隔离、不支持Cache Coherency事务。PCIE原本设计初衷是地址空间是私有的,它与原有的CPU地址空间不相融合,需要借助地址翻译寄存器来做基地址翻译。尽管这并不影响CPU与PCIE互相访问地址中的数据,但由于PCIE事务层不支持Cache Cohernecy事务的处理,因此PCIE设备端无法缓存CPU地址域中的数据,这直接导致数据通信时的延迟。

为了解决上述问题,英特尔在2019年联合业界推出了Compute Express Link(CXL技术协议)用以加速CPU与GPU以及FPGA等异构结构之间的互联通信。总的说来,CXL基于PCIE技术,通过将设备挂载到PCIe总线上,实现了设备到CPU之间的互联。CXL可以视为PCIE技术的升级版本,因此它兼容现有PCIe端口的处理器(绝大部分的通用CPU、GPU 和 FPGA)。CXL 通过将计算和存储分离,形成内存池,从而能动态按需配置内存资源,提升数据中心工作效率。CXL作为一种新出现的技术,几乎一年一次更新。

图片

在CXL1.0的技术基础上,CXL2.0增加了一个重要的功能:它成功实现了内存资源的池化。通信瓶颈的问题由来已久,随着NVMe硬盘的推出,迟延得到大幅度降低,但是吞吐依然是很明显的缺陷,因此并不能完全替代内存,随着AI/ML等对高速I/O的需求,因此池化成为了最佳选择。CXL2.0的架构支持Memory sharing技术,而这种技术成功突破了某一个物理内存只能属于某一台服务器的限制,在硬件上实现了多机共同访问同样内存地址的能力,能够跨系统设备实现资源共享。目前CXL已经升级到了3.0版本,带宽提升了两倍,支持更复杂的连接拓扑,如通过它使多个Switch互相连接,可以实现上百个服务器互联并共享内存。

而Gen-Z则是除了CXL互联技术之外,在数据中心、高性能计算领域、AI领域等场景的全新数据设备互联协议的另一统治者。Gen-Z的出现主要是为了弥补CXL在服务器节点外部的机架层级,远距离传输和大规模拓扑互联场景的缺陷。值得一提的是,在2022年Gen-Z 联盟同意接入CXL 技术协议,两个联盟实现了协议兼容。

英伟达也推出了其自主研发的NVLink技术,NVLink同样提供高带宽,适用于连接NVIDIA GPU。NVLink也支持GPU之间的内存共享,优化了大规模并行计算的性能,在GPU之间的通信中具有更低的延迟。NVLink可以支持CPU-GPU间链路也可以支持GPU-GPU间链路。除此之外,英伟达还研发了自己的 NVLink Switch,支持搭载16个GPU+NVLink Switch,不过价格昂贵。

CXL擅长于计算相关的数据处理,如数据中心、人工智能、科学计算等应用领域,具备更高的灵活性与高性能,而NVLink主要用于连接NVIDIA GPU,在图形处理和深度学习等领域表现出色。

其实在最初为了解决 CPU 和设备、设备和设备之间的内存鸿沟,IBM就率先推出了CAPI(Coherent Accelerator Processor Interface)接口,但由于IBM在数据中心设备占比率低与日渐式微的影响力,CAPI并没有得到大规模的使用,而后又演变了逐渐演化成了OpenCAPI。而后ARM又加入另一个开放的访存和I/O网络平台(CCIX)Cache Coherent Interconnect for Accelerators。总而言之,在研发推出的时间上:CAPI->GenZ->CCIX->NVLINK->CXL。

尽管解决处理器与内存之间通讯瓶颈之路永无止境,但我们可以清晰预见在不远的将来,随着CXL技术的发展,内存资源彻底池化,服务器的外观形态将会发生根本的变化,存储和处理器会被分离开来,放在彼此独立的机箱内。

这篇关于数据中心、HPC、AI等应用场景互联协议混战哪家强?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1011704

相关文章

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Android Kotlin 高阶函数详解及其在协程中的应用小结

《AndroidKotlin高阶函数详解及其在协程中的应用小结》高阶函数是Kotlin中的一个重要特性,它能够将函数作为一等公民(First-ClassCitizen),使得代码更加简洁、灵活和可... 目录1. 引言2. 什么是高阶函数?3. 高阶函数的基础用法3.1 传递函数作为参数3.2 Lambda

Java中&和&&以及|和||的区别、应用场景和代码示例

《Java中&和&&以及|和||的区别、应用场景和代码示例》:本文主要介绍Java中的逻辑运算符&、&&、|和||的区别,包括它们在布尔和整数类型上的应用,文中通过代码介绍的非常详细,需要的朋友可... 目录前言1. & 和 &&代码示例2. | 和 ||代码示例3. 为什么要使用 & 和 | 而不是总是使

Python循环缓冲区的应用详解

《Python循环缓冲区的应用详解》循环缓冲区是一个线性缓冲区,逻辑上被视为一个循环的结构,本文主要为大家介绍了Python中循环缓冲区的相关应用,有兴趣的小伙伴可以了解一下... 目录什么是循环缓冲区循环缓冲区的结构python中的循环缓冲区实现运行循环缓冲区循环缓冲区的优势应用案例Python中的实现库

SpringBoot整合MybatisPlus的基本应用指南

《SpringBoot整合MybatisPlus的基本应用指南》MyBatis-Plus,简称MP,是一个MyBatis的增强工具,在MyBatis的基础上只做增强不做改变,下面小编就来和大家介绍一下... 目录一、MyBATisPlus简介二、SpringBoot整合MybatisPlus1、创建数据库和

Spring AI ectorStore的使用流程

《SpringAIectorStore的使用流程》SpringAI中的VectorStore是一种用于存储和检索高维向量数据的数据库或存储解决方案,它在AI应用中发挥着至关重要的作用,本文给大家介... 目录一、VectorStore的基本概念二、VectorStore的核心接口三、VectorStore的

python中time模块的常用方法及应用详解

《python中time模块的常用方法及应用详解》在Python开发中,时间处理是绕不开的刚需场景,从性能计时到定时任务,从日志记录到数据同步,时间模块始终是开发者最得力的工具之一,本文将通过真实案例... 目录一、时间基石:time.time()典型场景:程序性能分析进阶技巧:结合上下文管理器实现自动计时

Java中Runnable和Callable的区别和联系及使用场景

《Java中Runnable和Callable的区别和联系及使用场景》Java多线程有两个重要的接口,Runnable和Callable,分别提供一个run方法和call方法,二者是有较大差异的,本文... 目录一、Runnable使用场景二、Callable的使用场景三、关于Future和FutureTa