算力与能源正在成为世界的硬通货,看超级计算机安腾如何突围

本文主要是介绍算力与能源正在成为世界的硬通货,看超级计算机安腾如何突围,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

特斯拉创始人马斯克公开表态称未来两年人工智能行业将由“缺硅”变为“缺电”。据媒体报道,OpenAI的ChatGPT每天消耗超过50万千瓦时的电力,用于处理约2亿个用户请求,相当于美国家庭每天用电量的1.7万多倍。除了这类生成式AI耗能外,还有同样涉及到海量数据、特别是涉及到大规模并行计算的业务也正在成为“电能吞金兽”。全球前十名的超级计算机每小时耗电量高达2万度,堪比一座小型城镇的能源消耗。可见,随着技术革新步伐加快,全球算力竞争将对能源消耗提出更为严峻的考验,算力与能源将成为未来世界的核心硬通货。

以超级计算机为例,其作为解决复杂问题和大规模计算任务的利器,其能耗问题日益凸显,成为制约其长远发展的关键瓶颈。一味追求极致算力而忽视能源效率,不仅削弱了超算的实际价值,也使其发展陷入困境。正如美国加州大学计算机工程博士刘少山所指出,超级计算机是一个精密复杂的系统工程,任何短板都可能导致算力受限。

目前,各国在竞逐超算领导地位的同时,也在积极寻求在节能前提下提升性能的技术路径。

美国能源部于2013年和2018年先后启动“百亿亿次超级计算机”项目,明确要求E级机的功耗上限为20兆瓦,强调需要在不增加能源消耗的基础上提升性能,这表明如果单纯依赖扩大系统规模提升性能,那么E级机的技术选择将面临严格约束。2022年,麻省理工学院林肯实验室超级计算中心(LLSC)的研究人员进一步指出,超算系统的电源效率有巨大提升空间,如通过简单硬件调整如限制单个GPU功率,即可将AI模型训练的能源成本降低20%,仅带来适度的计算时间增长。

面对如何构建“既快又省”的超级计算机这一课题,大名鼎鼎的专用超级计算机安腾提供了一种新的解题思路。

安腾超级计算机丨图片来源:网络

安腾系列超级计算机由D. E. Shaw研究所研发,在能耗控制方面表现极为出色。

以第二代安腾超级计算机(Anton2)为例,其在一个单个机架内提供约2 TFLOPS(每秒万亿次浮点运算)的计算能力,能耗仅为25千瓦,与一辆中型电动汽车的充电功率相当,这一表现在当时同类设备中居于高位。

为什么超算安腾可以做到算得快还省电呢?

原因在于,有别于全面采用CPU、GPU等通用芯片架构的传统超算,安腾采用的是以ASIC专用芯片为主的专用超算的架构。专用超算在应用场景上受到严格的限制,只能处理某个特定领域的算法,例如安腾就是一台完全聚焦在生物计算领域最常用的分子动力学模拟计算的专用计算机,并且开发成本极其昂贵,但是以此为代价,换来的是在该特定领域的极强的加速性能和极低的能耗。

为降低全面计算资源损耗,超算安腾的软硬件采取了全面定制设计,核心组件为大量专用芯片(ASIC),并通过独特的高速三维环形网络实现互连。据称,在硬件上,整个超算安腾的ASIC芯片由288个核心瓦片和24个边缘瓦片构成,整体提供了5.6 Tbps的片外带宽。由于较大的Serdes物理PHYs在芯片的两个边缘都与这些瓦片相连,瓦片直接相邻,从而减少了未使用的芯片面积,简化了物理设计。

第三代安腾超级计算机的晶片管芯布局

同时,超算安腾的芯片保留了低电阻率的顶部金属层(TM0、TM1等)用于电源分配,从而确保其电源分配网络是完全连续的。为了改善瞬时电流尖峰,安腾将去耦电容、而不是备用单元装入所有可用空间,以良率来换取电源管理。并且,该芯片使用全局时钟网,以最小的偏移实现高时钟速度,这样的网状结构节省了功耗,网络只占芯片TDP(热设计功耗)的5%。

此外,超算安腾的芯片可以分区域、分精度计算不同任务,突破了制约分子模拟速度的瓶颈,这样可以在处理小任务时分配较少的节点用于运算,从而避免多节点时的能源浪费问题。

在通信层面,超算安腾各个节点之间通讯采用特殊设计的高速三维环形网络相互连接,形成了超高速低延迟网络。超算安腾共具有 512 个计算节点,它们在空间上的排布使得相当于将被模拟的系统分为 8 × 8 × 8 的盒子,每个盒子只负责 1/512 的原子,每个节点和盒子一一对应,并且只需要和邻近的 6 个节点通信。这些库中通信基于类 MPI 的「共享内存式并行」,把需要共享的数据放到公共空间各自读取;而这里每个节点之间都有点对点的专用信道,不存在访问资源的冲突问题。对于分子动力学而言,主要的通信内容是处在盒子边界的原子的位置,只有进行准确的通信,我们才能够准确计算这些原子与其他原子之间的作用力。由于低时延(约 50 ns)、高带宽的一对一信道的建设,大大减少了计算节点间通信需要的时间。这样,超算安腾可在512个节点并行处理下,能够对达100万个原子的大体系,每天进行10-100微秒量级的分子动力学模拟。相较于其他每天只能模拟几纳秒到几十纳秒不等的通用架构超算系统,512节点的超算安腾完成分子模拟的速度几乎快了100-10000倍。

图片来源:众妙斋

2020年3月27日,D. E. Shaw研究所公布了新冠病毒3CL蛋白酶的长达100微秒的MD模拟动画及数据,3CL蛋白酶被认为在病毒增殖和组装中发挥了重要作用,并且是新冠药物开发的热门靶点之一。超算安腾完成的3CL蛋白酶MD模拟结果,为科学家和制药学家透彻理解新冠病毒增殖与组装的机理,从而开发针对性的3CL蛋白酶抑制剂提供了极其宝贵的研究基础。随后的两年里,D. E. Shaw研究所更是陆续围绕新冠病毒公布了超过1000微秒的MD模拟结果,对新冠病毒的病理研究和药物研发起到了非常重大的作用。

在计算效率和能耗方面,哪怕是现如今全世界最强的通用超算中心的算效,针对复杂程度达到百万体系的蛋白质给出100微秒的模拟结果,几乎需要花费数年时间才能算完,期间耗费的电量将达到兆瓦级别,换算成电费将达到数亿元。作为对比,超算安腾则只需要十几天就可以算完,并且至多也只需要几万元的电费,几乎是前者的千万分之一,这就是采用的专用超算架构、经过一系列软硬件功能特化的超算安腾在自己擅长的分子动力学领域能够实现的计算效率和能耗的绝对优势。

我们可以看到,超算安腾凭借其对分子动力学模拟的专注,以及自主研发的软硬件设计,实现了相较于通用计算机高达百倍的计算能效提升,并在此过程中显著降低了能耗。这一成果无疑为国内企业在面对未来计算需求与能源挑战时提供了深刻启示:在特定的高价值应用场景大力发展专用超算路线,有望在大幅提高计算性能的同时有效降低能耗,实现绿色、可持续的科技创新。

这篇关于算力与能源正在成为世界的硬通货,看超级计算机安腾如何突围的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1069127

相关文章

揭秘世界上那些同时横跨两大洲的国家

我们在《世界人口过亿的一级行政区分布》盘点全球是那些人口过亿的一级行政区。 现在我们介绍五个横跨两州的国家,并整理七大洲和这些国家的KML矢量数据分析分享给大家,如果你需要这些数据,请在文末查看领取方式。 世界上横跨两大洲的国家 地球被分为七个大洲分别是亚洲、欧洲、北美洲、南美洲、非洲、大洋洲和南极洲。 七大洲示意图 其中,南极洲是无人居住的大陆,而其他六个大洲则孕育了众多国家和

如何用GPU算力卡P100玩黑神话悟空?

精力有限,只记录关键信息,希望未来能够有助于其他人。 文章目录 综述背景评估游戏性能需求显卡需求CPU和内存系统需求主机需求显式需求 实操硬件安装安装操作系统Win11安装驱动修改注册表选择程序使用什么GPU 安装黑神话悟空其他 综述 用P100 + PCIe Gen3.0 + Dell720服务器(32C64G),运行黑神话悟空画质中等流畅运行。 背景 假设有一张P100-

绿色能源在日常生活中的革新应用

绿色能源在日常生活中的革新应用 在当今社会,绿色能源已成为推动可持续发展的关键力量。它不仅代表着对环境的尊重与保护,更引领着生活方式的绿色转型。在我们的日常生活中,绿色能源正以多样化的形式,悄然改变着我们的生活方式。 一、太阳能的普及与升级 太阳能,这一古老而永恒的能量源,正通过现代科技的力量焕发新生。从太阳能充电器到太阳能背包,再到家庭屋顶上的太阳能光伏板,太阳能正逐渐渗透到我

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

如何成为一个优秀的测试工程师

链接地址:http://blog.csdn.net/KerryZhu/article/details/5250504 我一直在想,如何将自己的测试团队打造成世界一流的团队?流程、测试自动化、创新、扁平式管理、国际标准制定、测试社区贡献、…… 但首先一点是明确的,就是要将每一个测试工程师打造成优秀的测试工程师,优秀的团队必须由优秀的成员构成。所以,先讨论“如何成为一个优秀的测试工程师”,

【Linux】萌新看过来!一篇文章带你走进Linux世界

🚀个人主页:奋斗的小羊 🚀所属专栏:Linux 很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~ 目录 前言💥1、初识Linux💥1.1 什么是操作系统?💥1.2 各种操作系统对比💥1.3 现代Linux应用💥1.4 Linux常用版本 💥2、Linux 和 Windows 目录结构对比💥2.1 文件系统组织方式💥2.2

Elasticsearch:无状态世界中的数据安全

作者:来自 Elastic Henning Andersen 在最近的博客文章中,我们宣布了支持 Elastic Cloud Serverless 产品的无状态架构。通过将持久性保证和复制卸载到对象存储(例如 Amazon S3),我们获得了许多优势和简化。 从历史上看,Elasticsearch 依靠本地磁盘持久性来确保数据安全并处理陈旧或孤立的节点。在本博客中,我们将讨论无状态的数据持

【AI大模型应用开发】2.1 Function Calling连接外部世界 - 入门与实战(1)

Function Calling是大模型连接外部世界的通道,目前出现的插件(Plugins )、OpenAI的Actions、各个大模型平台中出现的tools工具集,其实都是Function Calling的范畴。时下大火的OpenAI的GPTs,原理就是使用了Function Calling,例如联网检索、code interpreter。 本文带大家了解下Function calling,看

005:VTK世界坐标系中的相机和物体

VTK医学图像处理---世界坐标系中的相机和物体 左侧是成像结果                                                    右侧是世界坐标系中的相机与被观察物体 目录 VTK医学图像处理---世界坐标系中的相机和物体 简介 1 在三维空间中添加坐标系 2 世界坐标系中的相机 3 世界坐标系中vtkImageData的参数 总结: