终极GPU互联技术探索:消失的内存墙

2024-05-03 19:28

本文主要是介绍终极GPU互联技术探索:消失的内存墙,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

b0bd9fd8934a3bfb52a57a3675fc307c.png

AI算力的阿喀琉斯之踵:内存墙》一文曾指出,过去20年,硬件算力峰值增长了90000倍,但是DRAM/硬件互连带宽只增长了30倍。在这个趋势下,特别是芯片内或者芯片间的数据传输会迅速成为训练大规模AI模型的瓶颈。

上个月,在英伟达GTC 2024大会上发布了“更大的GPU”:新一代Blackwell 架构的B200和GB200 GPU ,其中B200采用台积电4nm工艺,晶体管数量高达2080亿,而GB200集成了1个Grace CPU和2个B200 GPU。

目前,头部AI芯片厂商都在推进现有芯片设计和制造技术的极限,但问题是,当这些“花招”用完后怎么办?

在面向AI负载的新锐芯片创业企业里,我们在此前的文章中提到了SambaNova、TenstorrentAscenium,他们要解决的最核心的问题是placement和routing。

成立于2021年Eliyan公司则专注于芯片组互联技术,他们在物理层(physical layer,PHY)方面进行了架构创新,并推出了NuLink技术,号称能够在标准封装技术上上实现超大型系统级封装,从而通过消除算力内存墙(memory wall),将人工智能负载的性能提升10倍。今年3月,Eliyan获得了6000万美元的B轮融资。

(本文经授权后由OneFlow编译发布,转载请联系授权。原文:https://www.nextplatform.com/2024/03/28/how-to-build-a-better-blackwell-gpu-than-nvidia-did/)

作者 | Timothy Prickett Morgan

OneFlow编译

翻译|杨婷、宛子琳

当人们将目光投向各种计算引擎的浮点运算和整数处理架构时,我们却开始关注内存层次结构和互连层次结构。这是因为计算本身很简单,而数据搬运和内存管理却变得越来越难。

简单来说,可以通过一些数字进行说明:在过去的二十年里,CPU和GPU的计算能力增加了90000倍,但DRAM内存带宽和互连带宽却仅增加了30倍。近年来,虽然我们在某些方面取得了进步,但计算与内存之间的平衡仍严重失调。这意味着,针对许多AI和HPC工作负载,我们过度投资于内存不足的计算引擎。

考虑到这一点,我们开始关注Eliyan公司在物理层(physical layer,PHY)方面进行的架构创新。在MemCon 2024大会上,他们以新颖而实用的方式展示了这些创新。Eliyan的联合创始人兼首席执行官Ramin Farjadrad花了些时间向我们展示了NuLink PHY及其用例如何随着时间的推移而演变,以及如何用它们来构建比当前基于硅中介层(silicon interposer)的封装技术更好、更便宜、更强大的计算引擎。

PHY是一种物理网络传输设备,它将交换机芯片、网络接口或计算引擎内部的任何其他类型的接口连接到物理媒介(铜线、光纤、无线电信号),从而使它们能够相互连接或连接到网络。

硅中介层是一种特殊的电路桥(circuitry bridge),用于将HBM堆栈式DRAM内存与计算引擎(如GPU和常用于HPC和AI领域的定制ASIC)连接起来。有时,HBM也会用于需要高带宽内存的普通CPU。

Eliyan成立于2021年,总部位于圣何塞,目前公司规模已发展到60人,刚刚完成了第二轮6000万美元的融资,其中内存制造商三星和Tiger Global Capital领投了B轮融资。2022年11月,Eliyan完成了4000万美元的A轮融资,由Tracker Capital Management领投,Celesta Capital、英特尔、Marvell和存储器制造商美光科技也参与了投资。

Farjadrad在互联网繁荣时期曾担任Sun Microsystems和LSI Logic的设计工程师,后来成为了Velio Communications(现为LSI Logic的一部分)的 Switch ASIC首席工程师和联合创始人,并在Aquantia担任联合创始人兼首席技术官,该公司为汽车市场制造以太网PHY芯片。2019年9月,Marvell收购了Aquantia,并任命Farjadrad负责网络和汽车领域的PHY芯片。Marvell已成为最大的PHY芯片制造商之一,与Broadcom、Alphawave Semi、Nvidia、Intel、Synopsys、Cadence以及现在的Eliyan竞争,设计这些系统的关键组件。

Eliyan的其他联合创始人包括工程与运营主管Syrus Ziai,他曾在Ikanos、高通、PsiQuantum和Nuvia担任工程副总裁;Patrick Soheili担任商业与公司发展主管,之前负责eSilicon的产品管理和人工智能战略。eSilicon的出名得益于创建了苹果iPod音乐播放器内部的ASIC芯片以及开发2.5D ASIC封装和HBM内存控制器,2019年底,该公司以2.13亿美元的价格被Inphi收购,从而拓展了其PHY能力;而在2021年4月,Marvell以100亿美元的价格收购了Inphi,完成了其2020年10月收购闭环。

PHY、I/O SerDes以及retimer(重定时器)都蕴含着商机。SerDes是一种特殊类型的PHY,用于switch ASIC,以将设备输出的并行数据转换为串行数据,并通过电线、光纤或无线信号进行传输。从某种角度来看,retimer也是一种特殊的PHY,随着带宽的提高和铜线的距离缩短,retimer的使用频率会逐渐上升。

了解了PHY,接下来我们来聊聊2.5D封装技术。

随着摩尔定律下晶体管密度的增长放缓,以及随着每一代工艺技术的进步,晶体管的成本并没有降低,反而成本在提高,我们都意识到,现代芯片制程的光刻工艺存在的掩模限制(reticle limit)。使用普通的极紫外(EUV)水浸光刻技术,我们能在硅片上刻蚀的晶体管的最大尺寸为26mm×33mm。

然而,或许许多人并未意识到硅中介层的尺寸存在的限制,它限制了芯片组(chiplet)在有机基板(类似于每个计算引擎插槽及其附属的HBM内存下方的主板)上相互链接的能力。

硅中介层的尺寸取决于制造中间板所采用的技术。尽管中介层采用了与芯片相同的光刻工艺制造,但不同于芯片的858平方毫米掩模限制,今天的某些技术可以将中介层的面积扩大到2500平方毫米,使用其他技术则接近1900平方毫米,据Farjadrad称,他们计划将其扩大到3300平方毫米。有机基板插槽则不受这样的面积限制,这对于芯片组的2.5D封装非常重要。

Farjadrad介绍了Eliyan的NuLink PHY的竞品2.5D封装方法的参数、速度与局限性。

以下是台积电采用其Chip on Wafer on Silicon (CoWoS)工艺进行2.5D封装的方式,该工艺被用于创建Nvidia和AMD的GPU及其HBM堆栈等产品:

c17c808bd94ea9d202c5a8e00b91d378.jpeg

技术层面上,上图展示了台积电的CoWoS-S中介层技术,该技术用于将GPU、CPU和其他加速器连接到HBM内存。前身CoWoS-R的硅中介层尺寸大约限制在两个掩模单元,这恰好与Nvidia刚刚推出的“Blackwell” B100和B200 GPU的尺寸相同,但这款GPU采用了更先进、不那么引人注目的CoWoS-L技术,其制造更加复杂,类似于其他方法中使用的嵌入式桥。CoWoS-L在尺寸上有三个掩模单元的限制。

还有一种桥接技术被称为具有嵌入式桥的晶圆级扇出技术(wafer level fan out with embedded bridge),这种技术由芯片封装公司安靠科技(Amkor Technology)推广,ASE控股公司还提供了一种变体FOCoS-B。以下为该封装方法的参数和速度:

0b7bdb62b94bd3510980c00549b77a53.jpeg

使用这种2.5D封装技术,可以制造一个尺寸约为三个掩模单元的封装包。高密度的走线意味着我们可以在低功耗下获得更高的芯片间带宽,但其连接范围受限,走线布线的路由能力也受到限制。实际上,这一技术还没有得到真正的大规模推广。

英特尔将硅桥直接嵌入到承载芯片的有机基板中——不使用中介层——这与Eliyan使用NuLink的方法相似:

3a4ad3010ae1291b0f1dc6f9448ecf5d.jpeg

然而,EMIB(嵌入式多芯片互连桥接)技术存在一系列问题,包括生产周期长、良率低、有限的覆盖范围和布线能力,其供应链仅有英特尔这一家公司,它在当今先进半导体领域的声誉欠佳。公平地说,虽然英特尔正在逐步恢复正轨,但尚未达到预期水平。

这使得Eliyan提出的NuLink技术成为了一种改进的2D多芯片模块(MCM)工艺:

3151f78e744bb8a43df719b1e576e5a6.jpeg

一年前,Farjadrad称,NuLink PHY的数据传输速率约为传统MCM封装中使用的PHY的10倍。此外,NuLink PHY之间的走线长度可以达到2cm至3cm,这比CoWoS和其他2.5D封装技术支持的0.1mm走线长度高了20至30倍。走线长度的增加以及NuLink PHY在这些走线上具有双向信号传输的特性,这对于计算引擎设计来说意义重大。目前市场上有更快的PHY可供竞对使用,使得NuLink PHY的优势降低到了4倍的差距。

Farjadrad告诉The Next Platform,根据当前的架构,在内存和ASIC之间传输数据包时,数据包是单向的,不具备同时双向传输的能力,要么从内存读取数据,要么向内存写入数据。但如果有一个端口可以同时传输或接收数据,就可以从同一I/O资源中中获得两倍的带宽,而这正是NuLink所实现的。这样,我们就不会浪费ASIC的一半I/O资源。


Farjadrad进一步提出,为了保持内存的一致性,需要使用特殊的自定义协议,确保读取和写入之间没有冲突。在设计PHY时,需要为特定的应用程序制定相关的协议,这是NuLink的重要优势之一。拥有最好的PHY技术只是一方面,另一方面,重要的是将其与正确的专业知识结合起来应用于人工智能应用,而Eliyan知道如何做到这一点。

2022年11月,当NuLink首次引入时还没有这个名称,当时Eliyan也尚未提出利用PHY来创建通用内存接口(UMI)的方法。NuLink最初只是一种实现能够使用UCI-Express芯片片间互连协议的方案,且支持Farjadrad及其团队多年前创建并捐赠给开放计算项目(Open Compute Project)作为提议标准的原始Bunch of Wires(BoW)芯片片间互连所支持的任何协议。下表中,Eliyan比较了NuLink与各种内存和芯片片间的互连协议:

13e349205d56cf3948c117b5f7434791.jpeg

这张表很清晰。

Intel的“MDFIO”是“Multi-Die Fabric I/O(多芯片互连输入输出)”的缩写,用于连接“Sapphire Rapids”Xeon SP处理器中的四个计算芯片组。EMIB用于将这些芯片组连接到HBM内存栈,主要用于具有HBM的Sapphire Rapids的Max系列CPU变体。

OpenHBI基于JEDEC HBM3的电互连标准,也是一个OCP(开放计算项目)标准。UCI-Express是一种带有CXL一致性覆盖(coherency overlay)的新型PCI-Express,旨在成为芯片组之间的芯片间互连。

Nvidia的NVLink目前用于将Blackwell GPU复杂结构上的芯片组“粘”在一起,但以上表格并未列出;同样地,Intel的XeLink用于将“Ponte Vecchio”Max系列GPU上的GPU芯片组“粘”在一起,也未列入表格。与UCI-Express不同,NuLink PHY是双向的,这意味着,可以使用与UCI-Express相同数量或更多的导线,但能够实现UCI-Express的两倍或更多的带宽。

如图所示,这里有一种高成本的封装选项,它使用了40微米至50微米的凸点间距(bump pitch),且片间距离仅约为2mm。PHY的带宽密度可以非常高,每个芯片上的每毫米边缘区域的带宽可以达到Tb/sec级别,功耗效率则因方法而异,在所有情况下时延都低于4纳秒。

图表右侧的PHY可以与标准的有机基板封装配合使用,并使用了130微米的凸点,因此是成本更低的选择。这些选择包括Cadence的Ultralink PHY、AMD的Infinity Fabric PHY、Alphawave Semi的OIF Extra Short Reach(XSR)PHY,以及在不使用低凸点间距也能实现高信号传输的NuLink版本。

图表右侧是芯片间距,通过2cm的连接距离,我们可以做很多事,这是2mm间距以及ASIC与HBM堆栈或相邻芯片之间的0.1mm间距所无法实现的。这些更长的连接链路扩展了计算和内存复杂结构的几何布局,并且消除了ASIC和HBM之间的热串扰效应(thermal crosstalk effect)。堆栈内存对热度非常敏感,随着GPU变得越来越热,需要冷却HBM以确保其正常工作。如果能够使HBM远离ASIC,就可以更快地运行ASIC(Farjadrad估计速度能提高约20%),并且能够运行在更热的温度下,因为内存的距离比较远,不会受到ASIC热量增加的直接影响。

此外,通过在类似GPU的设备中去除硅中介层或其等效材料,转而使用有机基板,并使用更大的凸点和增加组件间距,可以将具有十二个HBM堆栈的双ASIC设备的制造成本从约12000美元(芯片加封装的产出率约为50%)降低到约6800美元,且实现87%的良率。

让我们通过两张图对比一下UCI-Express、BoW和UMI,然后我们可以稍微进行系统架构设计。

d05c023d2346373af1ddfb11119b2aca.jpeg

如图所示,Eliyan一直在不断推动其PHY的双向传输能力,且现在已经具备了同时进行双向数据传输的能力,称为UMI-SBD。

下图显示这四种选项的带宽和ASIC的芯片边缘区域(beachfront)情况:

2f4105fe4a1d9d1775829cb7228b1c68.png

所以,现在被称为UMI的NuLink PHY比UCI-Express更小、更快,而且可以同时进行数据传输和接收。可以用它做什么呢?

073108ba15fd51721301312a316fc99a.jpeg

首先,可以构建更大的计算引擎。例如拥有24个或更多的HBM堆栈以及10到12个芯片组的计算引擎封装。由于采用了标准有机基板,该设备的制造时间只需1/4到1/5。

1989年是IBM的巅峰时期,1990年代初,它开始走下坡路,当时人们常说:同样的价格,你可以找到比IBM更好的产品。

当然,Nvidia并不是IBM或英特尔,至少现在还不是。无论如何,赚钱太轻松会对公司及其Roadmap产生可怕的影响。

以下是Eliyan认为HBM4在未来可能的发展方式:

fc4a0a554454fea8ce937b80f0172c53.png

HBM4内存的JEDEC PHY尺寸较大,如果使用UCI-Express可以将其面积缩减一半,而采用NuLink UMI PHY可以在此基础上,将其面积再缩减一半,为你选择的XPU上的逻辑电路留出更多空间。或者,如果你想放弃中介层,制造一个尺寸更大的设备,并接受一个13平方毫米的UMI PHY,也可以制造一个成本更低的设备,并且每个HBM4堆栈仍然可以实现2TB/s的数据传输速率。

现在有趣的地方来了。

2022年11月,Eliyan提出其想法时,比较了一款带有中介层连接到其HBM内存的GPU,与一款去除中介层并将ASIC加倍(类似于Blackwell的做法)以及将24个HBM堆栈放置在这些ASIC芯片上的设备。如下图所示:

4f2f0dd6de9838762a3044419029f4a7.jpeg

上图左边是Nvidia A100和H100 GPU及其HBM内存的架构图。中间是Nvidia的一张图表,显示随着更多的HBM内存容量和更大的HBM内存带宽提供给AI应用程序,性能是如何提升的。正如我们所知,相比具有相同GH100 GPU但只有80GB HBM3内存和3.35TB/sec带宽的H100,具有141GB HBM3E内存和4.8TB/sec带宽的H200的工作效率提高了1.6倍至1.9倍。

假设有一台如上图所示的设备,拥有576GB的HBM3E内存和19TB/sec的带宽。记住:主要的功耗并非来自内存,而是来自GPU,而我们迄今所见到的一些证据确实表明,Nvidia、AMD和Intel推出的GPU都受限于HBM内存容量和带宽,这一问题已经存在很长一段时间了,因为制造这种堆栈内存十分困难。这些公司制造的是GPU,而不是内存,它们通过尽可能少地提供HBM内存,同时保持强大的计算能力,从而最大化收入和利润。虽然他们总能展示出相比上一代的优势,但GPU计算的增长速度总是超过内存容量和带宽。Eliyan提出的这种设计可以重新平衡计算和内存,使这些设备更便宜。

也许对于GPU制造商来说,这种设计过于激进了,因此随着UMI的推出,Eliyan后退一步,并展示如何使用中介层和有机基板以及NuLink PHY来制造一个更大、更均衡的Blackwell GPU复杂系统。

下图左侧是关于如何创建一个具有单个NVLink端口的Blackwell-Blackwell超级芯片,该端口以1.8TB/sec的速度连接两个双芯片Blackwell GPU。

4249eaf2de9f2ec247849b62e339568f.png

通过上图右侧所示的NuLink UMI方法,在两个Blackwell GPU之间提供了六个端口,传输带宽约为12 TB/sec,稍高于Nvidia用NVLink端口连接两个Blackwell GPU的B100和B200提供的10TB/sec。这意味着,Eliyan超级芯片设计中的带宽是Nvidia B200超级芯片设计的6倍。如果Nvidia继续使用其CoWoS制造工艺,Eliyan可以在中介层放置与Nvidia相同的八个HBM3E内存芯片组,然后可以在每个Blackwell设备上再放置另外八个HBM3E内存芯片组,总共可达32个HBM3E内存库,容量达到768GB,带宽达到25 TB/sec。

你再仔细想想。

但这还不是全部。这种UMI方法适用于任何XPU以及任何类型的内存,你可以在一个庞大的有机基板上进行类似的尝试,而无需中介层。

65e42b2ee24ce8a614b2bfa5a8f5ba7f.jpeg

任何类型的内存、任何共封装的光电子器件、任何PCI-Express或其他控制器,都可以使用NuLink与任何XPU进行连接。在这一点上,插槽确实已经变成了主板。

而对于更大型的复杂系统,Eliyan可以构建NuLink交换机。

【语言大模型推理最高加速11倍】SiliconLLM是由硅基流动开发的高效、易用、可扩展的LLM推理加速引擎,旨在为用户提供开箱即用的推理加速能力,显著降低大模型部署成本,加速生成式AI产品落地。(技术合作、交流请添加微信:SiliconFlow01)

6c6c76e888c5fe7f821180f6a33d03a2.png

SiliconLLM的吞吐最高提升近4倍,时延最高降低近4

13cf20898e7df8a28bc6e3896b224220.png

数据中心+PCIe:SiliconLLM的吞吐最高提升近5倍;消费卡场景:SiliconLLM的吞吐最高提升近3

4785950a19266fcf34e50abac0174bb1.png

System Prompt场景:SiliconLLM的吞吐最高提升11倍;MoE模型:推理 SiliconLLM的吞吐最高提升近10

其他人都在看

  • 800+页免费“大模型”电子书

  • LLM推理的极限速度

  • 无指令芯片集架构颠覆旧套路

  • AI算力的阿喀琉斯之踵:内存墙

  • Stable Diffusion XL优化终极指南

  • LLM推理入门指南②:深入解析KV缓存

  • OneDiff 1.0发布!稳定加速SD/SVD模型

0da02251c465aae8b538358629738a96.png

这篇关于终极GPU互联技术探索:消失的内存墙的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/957461

相关文章

关于Java内存访问重排序的研究

《关于Java内存访问重排序的研究》文章主要介绍了重排序现象及其在多线程编程中的影响,包括内存可见性问题和Java内存模型中对重排序的规则... 目录什么是重排序重排序图解重排序实验as-if-serial语义内存访问重排序与内存可见性内存访问重排序与Java内存模型重排序示意表内存屏障内存屏障示意表Int

电脑显示hdmi无信号怎么办? 电脑显示器无信号的终极解决指南

《电脑显示hdmi无信号怎么办?电脑显示器无信号的终极解决指南》HDMI无信号的问题却让人头疼不已,遇到这种情况该怎么办?针对这种情况,我们可以采取一系列步骤来逐一排查并解决问题,以下是详细的方法... 无论你是试图为笔记本电脑设置多个显示器还是使用外部显示器,都可能会弹出“无HDMI信号”错误。此消息可能

如何测试计算机的内存是否存在问题? 判断电脑内存故障的多种方法

《如何测试计算机的内存是否存在问题?判断电脑内存故障的多种方法》内存是电脑中非常重要的组件之一,如果内存出现故障,可能会导致电脑出现各种问题,如蓝屏、死机、程序崩溃等,如何判断内存是否出现故障呢?下... 如果你的电脑是崩溃、冻结还是不稳定,那么它的内存可能有问题。要进行检查,你可以使用Windows 11

NameNode内存生产配置

Hadoop2.x 系列,配置 NameNode 内存 NameNode 内存默认 2000m ,如果服务器内存 4G , NameNode 内存可以配置 3g 。在 hadoop-env.sh 文件中配置如下。 HADOOP_NAMENODE_OPTS=-Xmx3072m Hadoop3.x 系列,配置 Nam

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

如何用GPU算力卡P100玩黑神话悟空?

精力有限,只记录关键信息,希望未来能够有助于其他人。 文章目录 综述背景评估游戏性能需求显卡需求CPU和内存系统需求主机需求显式需求 实操硬件安装安装操作系统Win11安装驱动修改注册表选择程序使用什么GPU 安装黑神话悟空其他 综述 用P100 + PCIe Gen3.0 + Dell720服务器(32C64G),运行黑神话悟空画质中等流畅运行。 背景 假设有一张P100-

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时