数据中心:AI范式下的内存挑战与机遇

2024-06-21 20:36

本文主要是介绍数据中心:AI范式下的内存挑战与机遇,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在过去的十年里,数据中心和服务器行业经历了前所未有的扩张,这一进程伴随着CPU核心数量、内存带宽(BW),以及存储容量的显著增长。这种超大规模数据中心的扩张不仅带来了对计算能力的急剧需求,也带来了前所未有的内存功率密度挑战,类似于移动设备中遇到的问题。因此,提高DRAM的能效成为当务之急,以应对数据中心内不断上升的能耗压力。(扩展阅读:一文读懂DDR内存基础知识|值得收藏)

图片

云技术的出现彻底改变了我们对大规模计算的观念和部署方式,而人工智能(AI)更是从根本上重塑了计算的本质。AI性能直接与内存带宽挂钩,简而言之,AI性能=内存带宽=每比特能量消耗(pj/bit)=AI性能。在这个等式中,存储容量和可靠性虽然重要性有所下降,但仍需考虑其长期的可持续性和扩展性。

图片

目前,主流DRAM作为行业发展的驱动力,其体积解决方案对于引导工艺节点和技术发展至关重要。HBM(High Bandwidth Memory,高带宽内存)技术的Bit增长依赖于基础DRAM技术的持续进步。

图片

然而,DDR5系统的带宽和容量扩展并没有出现预期的指数级增长,在DDR5的情况下,这种快速增长的拐点并未出现,意味着其带宽与容量的增长较为线性和渐进,而非呈现陡峭的上升曲线。这样凸显了优化DRAM带宽与容量比率以及降低DRAM接口能耗的重要性

图片

这一现象背后的两个核心衡量指标是“BW/capacity ratio”(带宽与容量比率)和“DRAM + interface pj/bit”(DRAM及其接口每比特能量消耗)。这两个指标共同构成了加速DRAM扩展的关键绩效指标。

  • BW/Capacity Ratio:这个比率体现了系统带宽与存储容量之间的平衡。在数据中心和AI应用中,高效的计算不仅需要足够的存储空间(容量),还需要快速的数据访问速度(带宽)。一个理想的配置是两者保持适当比例,以避免带宽瓶颈或过度投资于不被充分利用的容量。因此,维持合理的BW/Capacity比率对于优化系统性能至关重要。

  • DRAM + Interface pj/bit:这里的“pj/bit”是指每传输一位数据所消耗的能量单位。降低这个值意味着提高了能效,这对于数据中心运营来说至关重要,因为这直接影响到电力消耗和冷却成本。DRAM及其接口的能耗优化是提升整体系统能效的关键。尤其是在高密度、高性能的环境中,如AI计算,减少每比特能耗对于持续运行的大型服务器集群来说,能显著降低成本并提高环境可持续性。

随着AI技术的不断演进,2028年及之后的AI营收预测显示,无论是训练还是峰值推理任务,HBM仍将是必要的选择预计推理工作负载将更加细分,不同的应用场景将需要不同的内存技术。特别是主流和基础推理应用,它们对带宽的需求超过了DDR5所能提供的,同时要求在更低功耗下运行,这提示了一个新解决方案的需求正在浮现。(扩展阅读:深度剖析AI存储架构的挑战与解决方案)

图片

  • 训练与峰值推理继续需要HBMAI模型的训练阶段通常涉及大量数据的处理,需要极高的内存带宽来快速读取和写入数据。HBM因其高带宽特性,成为满足这一需求的理想选择。即使在模型训练完成后,进行高负载的峰值推理时,HBM的高性能依旧不可或缺,以确保快速响应和处理能力。

  • 推理工作负载细分将要求不同的内存技术随着AI应用的多样化,推理任务不再是单一类型,而是根据场景和需求被细分为多个类别。例如,主流推理可能在大多数日常应用中进行,而基线推理可能涉及对延迟不太敏感的任务。这些不同类型的推理负载可能对内存的带宽、功耗、容量等有各自特定的需求,促使业界探索和采用多样化的内存技术。(扩展阅读:是谁?阻止CXL在AI场景大展身手~)

尽管DDR5作为新一代内存标准,在带宽和能效方面相比前代已有显著提升,但在某些主流和基线推理场景下,其带宽和功耗表现仍不足以满足需求。这些场景要求比DDR5更高的带宽,同时还要保持或优于DDR5的能效水平,这意味着需要在现有技术之外寻找新的解决方案。

鉴于上述挑战,开发一种既能提供更高带宽,又能保持良好能效比的新内存技术成为必然。这暗示着业界正在探索HBM之外的其他技术或HBM技术的进一步演进,以满足不同AI推理场景的需求。例如,可能涉及更先进的内存架构设计、新材料的应用、或是对现有HBM技术进行改进,以突破现有的堆叠层数限制和密度瓶颈,同时优化功耗。

图片

随着人工智能(AI)解决方案对数据处理速度的不断追求,其最大峰值带宽(Max peak BW)持续快速提升,这对内存技术提出了更高要求。特别是对于高带宽内存(HBM),其容量扩展受到了多方面因素的限制,主要包括超过16层堆叠(>16Hstacking)、基础DRAM技术节点的密度限制,以及封装技术的制约。这些限制意味着单纯依靠增加HBM堆叠层数或提高单个DRAM芯片的密度来扩大容量并非长久之计,因为这些方法都面临着物理和材料科学上的极限。

在此背景下,大规模的AI和服务器市场期待着一种全新的长期发展路径,该路径旨在同时提升带宽和容量,从而弥补当前市场上带宽与容量之间存在的缺口(BW/capacity gap)。这样的发展策略对于确保AI应用的持续增长和数据中心效率的提升至关重要,因为它不仅解决了性能瓶颈,还能引入更强大、更可靠的RAS(Reliability, Availability, Serviceability,即可靠性、可用性和可维护性)选项。

图片

特别是对 3D DRAM 的探索,通过将存储单元垂直堆叠而非水平排列,可以在不大幅改变单个单元尺寸的情况下显著增加单位体积内的存储比特数,从而在一定程度上克服 2D 缩放的局限。尽管 3D DRAM 技术尚处于早期研发阶段,且面临诸多技术挑战(如专利布局、工艺复杂性、架构选择等),但因其巨大的潜力,已成为业界关注的焦点。

图片

目前3D DRAM 的公开技术文献数量极少。行业主要厂商在公开交流上保持沉默,但在背后却在积极申请大量与 3D DRAM 相关的专利。这种现象表明,尽管企业不愿意公开分享技术细节,但他们对 3D DRAM 技术的开发投入巨大,并且通过专利保护的方式为未来的市场竞争和技术主导权做准备。这种策略反映出 3D DRAM 技术的战略重要性和潜在的巨大商业价值。

可以公开查询的关于3D DRAM的论文,比如来自 国内长鑫存储CXMT(2023 IMW Conf.)和三星(2023 VLSI Symp.),都是DRAM厂商在专业会议上发布的针对 1T1C(一晶体管一电容)结构的 3D DRAM。

• 2023 IMW Conf. “A 3D Stackable 1T1C DRAM: Architecture, Process…” by CXMT

• 2023 VLSI Symp. “ Ongoing Evolution of DRAM Scaling via 3rd Dimension: V-DAM” by Samsung

除了主流的 1T1C 3D DRAM 研究,还有其他创新的无电容 DRAM 方法在探索中。其中,2T0C Gain Cell 主要集中在学术研究层面,而 Gate-controlled-thyristor DRAM 则由 Macronix 开发。这两种无电容方案旨在通过简化结构、减少或取消电容元件来降低制造复杂度,提高集成度,可能是 3D DRAM 发展的另一种可能路径。

从 2D DRAM 向 3D DRAM 转变过程中将面临无数技术挑战。这些挑战涵盖工艺技术的各个方面,如硬掩模刻蚀(HAR etch)、横向刻蚀、原子层沉积(ALD)、原子层刻蚀(ALE)、外延生长、沉积技术、掺杂、硅化物形成、接触形成以及应力管理等。这些复杂且精密的工艺步骤需要相应的设备支持和技术创新,为半导体设备供应商提供了技术服务和设备升级的市场空间。

图片

三星(Samsung)和SK海力士(SK hynix)作为在高带宽内存(HBM)领域快速发展的企业,根据最新报告,这两家公司确认计划在即将推出的3D DRAM技术中采用混合键合技术。当前技术主要利用微凸点连接DRAM模块,而混合键合技术则可以通过硅通孔(TSV)实现芯片的垂直堆叠,从而避免使用微凸点,大幅减小芯片厚度

图片

早前《韩国经济日报》的报道指出,当前的DRAM技术在一个基板上集成了高达620亿个单元,基板上密集排列着晶体管,形成了平面结构,这导致了电流泄漏和干扰等问题。相比之下,3D DRAM通过将晶体管堆叠成多层,增加了它们之间的间隔,从而减少了泄漏和干扰

为了替代传统的横向布局,3D DRAM通过垂直堆叠存储单元,实现了单位面积存储容量的三倍提升。这与HBM有所不同,HBM是通过垂直连接多个DRAM芯片来实现高带宽。

在最近于首尔举行的2024国际内存研讨会(International Memory Workshop)上,SK海力士宣布了其在3D DRAM生产中实施混合键合的计划。而三星则据《韩国经济日报》之前的报道,计划在2025年推出3D DRAM

与此同时,三星还在探索4F²DRAM技术,并计划将其与混合键合技术整合到生产过程中。如果成功,与目前商业化生产的6F² DRAM相比,三星可以将裸片表面积减少30%。三星预计将使用10纳米或更精细的工艺节点来实现4F²结构的DRAM。

此外,三星认为混合键合技术对于16层堆叠的HBM至关重要,这标志着3D DRAM市场份额争夺战的悄然开始。这些动向显示出存储巨头们正积极布局未来,通过技术创新解决数据存储的带宽、容量、能效以及可靠性等挑战,为数据中心和人工智能等高需求应用提供更为先进的解决方案。

图片

展望2030年及以后,AI解决方案的峰值带宽将持续快速增长,而HBM的容量扩展因技术节点密度和封装的限制而受限。为了解决当前带宽与容量之间的缺口,并允许更强大的RAS(可靠性、可用性、可服务性)选项,大规模的AI和服务器市场需要探索新的长期发展路径,这条路径能够同时提升带宽和容量,确保AI和数据中心行业的可持续发展。

扩展阅读:

  • IEEE RAS 2024: 大厂阿里、字节、腾讯都在关注这个事情!

  • 深度好文|如何实现服务器内存故障监控与预测?

行业正面临从带宽驱动的内存需求转向,这为解决带宽与容量差距及提升内存韧性的挑战提供了契机。基础技术的发展对于HBM和DDR5/LPDDR技术的持续演进至关重要,且在提升带宽和容量的同时,还需关注能效、成本优化以及大规模部署下的RAS特性。未来,数据中心和AI领域的内存技术革新将是应对这些挑战、把握新机遇的关键。

参考文献: 

  • JEDEC-Server & Data Center Memory (& the AI paradigm shift)

  • https://www.trendforce.com/news/2024/06/20/news-samsung-and-sk-hynix-to-implement-hybrid-bonding-with-3d-dram/


如果您看完有所受益,欢迎点击文章底部左下角“关注”并点击“分享”、“在看”,非常感谢!

精彩推荐:

  • WDC西部数据闪存业务救赎之路,会成功吗?

  • 属于PCIe 7.0的那道光来了~

  • 深度剖析:AI存储架构的挑战与解决方案

  • 浅析英伟达GPU NCCL P2P与共享内存

  • 3D NAND原厂:哪家芯片存储效率更高?

  • 大厂阿里、字节、腾讯都在关注这个事情!

  • 磁带存储:“不老的传说”依然在继续

  • 浅析3D NAND多层架构的可靠性问题

  • SSD LDPC软错误探测方案解读

  • 关于SSD LDPC纠错能力的基础探究

  • 存储系统如何规避数据静默错误?

  • PCIe P2P DMA全景解读

  • 深度解读NVMe计算存储协议

  • 浅析不同NAND架构的差异与影响

  • SSD基础架构与NAND IO并发问题探讨

  • 字节跳动ZNS SSD应用案例解析

  • CXL崛起:2024启航,2025年开启新时代

  • NVMe SSD:ZNS与FDP对决,你选谁?

  • 浅析PCI配置空间

  • 浅析PCIe系统性能

  • 存储随笔《NVMe专题》大合集及PDF版正式发布!

这篇关于数据中心:AI范式下的内存挑战与机遇的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1082272

相关文章

C++对象布局及多态实现探索之内存布局(整理的很多链接)

本文通过观察对象的内存布局,跟踪函数调用的汇编代码。分析了C++对象内存的布局情况,虚函数的执行方式,以及虚继承,等等 文章链接:http://dev.yesky.com/254/2191254.shtml      论C/C++函数间动态内存的传递 (2005-07-30)   当你涉及到C/C++的核心编程的时候,你会无止境地与内存管理打交道。 文章链接:http://dev.yesky

揭秘未来艺术:AI绘画工具全面介绍

📑前言 随着科技的飞速发展,人工智能(AI)已经逐渐渗透到我们生活的方方面面。在艺术创作领域,AI技术同样展现出了其独特的魅力。今天,我们就来一起探索这个神秘而引人入胜的领域,深入了解AI绘画工具的奥秘及其为艺术创作带来的革命性变革。 一、AI绘画工具的崛起 1.1 颠覆传统绘画模式 在过去,绘画是艺术家们通过手中的画笔,蘸取颜料,在画布上自由挥洒的创造性过程。然而,随着AI绘画工

小型数据中心是什么?如何建设?

在数字化时代,小型数据中心正成为许多企业和组织加强数据管理和服务扩展的理想选择。与传统大型数据中心相比,小型数据中心以其灵活性、高效性和相对较低的运营成本吸引着越来越多的关注。然而,要成功建设一个小型数据中心,并确保其安全、可靠和高效运行,需要综合考虑多个关键因素和最佳实践。本文将深入探讨小型数据中心的定义、关键要点以及建设过程中的注意事项,帮助您全面理解和规划这一重要的IT基础设施。 小型数据

Javascript高级程序设计(第四版)--学习记录之变量、内存

原始值与引用值 原始值:简单的数据即基础数据类型,按值访问。 引用值:由多个值构成的对象即复杂数据类型,按引用访问。 动态属性 对于引用值而言,可以随时添加、修改和删除其属性和方法。 let person = new Object();person.name = 'Jason';person.age = 42;console.log(person.name,person.age);//'J

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

AI儿童绘本创作

之前分享过AI儿童绘画的项目,但是主要问题是角色一致要花费很长的时间! 今天发现了这款,非常奈斯! 只需输入故事主题、风格、模板,软件就会自动创作故事内容,自动生成插画配图,自动根据模板生成成品,测试效果如下图。 变现方式:生成儿童绘本发布到各平台,吸引宝妈群体进私域。  百度网盘 请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全

人工和AI大语言模型成本对比 ai语音模型

这里既有AI,又有生活大道理,无数渺小的思考填满了一生。 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。 但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达

智能客服到个人助理,国内AI大模型如何改变我们的生活?

引言 随着人工智能(AI)技术的高速发展,AI大模型越来越多地出现在我们的日常生活和工作中。国内的AI大模型在过去几年里取得了显著的进展,不少独创的技术点和实际应用令人瞩目。 那么,国内的AI大模型有哪些独创的技术点?它们在实际应用中又有哪些出色表现呢?此外,普通人又该如何利用这些大模型提升工作和生活的质量和效率呢?本文将为你一一解析。 一、国内AI大模型的独创技术点 多模态学习 多

【新闻】AI程序员要来了吗?阿里云官宣

内容提要 6 月 21 日,在阿里云上海 AI 峰会上,阿里云宣布推出首个AI 程序员。 据介绍,这个AI程序员具备架构师、开发工程师、测试工程师等多种岗位的技能,能一站式自主完成任务分解、代码编写、测试、问题修复、代码提交整个过程,最快分钟级即可完成应用开发,大幅提升研发效率。 近段时间以来,有关AI的实践应用突破不断,全球开发者加速研发步伐。有业内人士坦言,随着大模型性能逐渐提升,AI应

AI元宇宙

随着科技的迅猛发展,人工智能(AI)迎来了一个宇宙大爆发的时代。特别是以GPT为代表的生成式大模型的诞生和不断进步,彻底改变了人们的工作和生活方式。程序员与AI协同工作写代码已成为常态,大模型不仅提高了工作效率,还为人类带来了无限的可能性。 AI元宇宙http://ai.toolxq.com/#/如同生物进化出眼睛打开了三维世界的元宇宙之后,GPT打开了人+AI工作模式的新时代,程序员的人生被划