阿里云 hpc8ae 实例商业化发布详解

2024-06-21 03:44

本文主要是介绍阿里云 hpc8ae 实例商业化发布详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

云布道师

引言:本文整理自阿里云高性能计算产品负责人黄泽辉在【HPC 优化实例商业化发布会】中的分享。

近日,全球领先的云计算厂商阿里云宣布最新 HPC 优化实例 hpc8ae 的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代 AMD EPYC 处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE 场景下的性价比最少提升 50%。

本文根据黄泽辉的主题分享整理而成。

高性能计算无所不在

过去多年,高性能计算在很多专业领域解决着各种各样的大型复杂计算问题,如分析地震数据、模拟汽车碰撞、设计药物靶点等等,以上的场景都需要巨大的计算能力才能够在可预期的时间内解决问题。
在这里插入图片描述
通过使用高性能计算能够有效加速科学研究发现的进展,帮助对日常使用的产品设计和研发上实现创新,高性能计算也成为了在当今社会无所不在且推动技术进步和经济发展的关键工具。

云上高性能计算正在加速普及

采用传统的自建线下 HPC 集群,采购及建设周期冗长,集群容量有限,在业务高峰时往往面临着资源不足和需要排队,浪费研发时间,集群硬件相对老旧,难更新,计算效率较低,性能上无法完全满足业务上的需求。这些都制约了高性能计算在全行业中发挥更大的作用。
在这里插入图片描述
基于云的高性能计算(Cloud HPC),与传统 HPC 相比更加灵活、高效。用户可以利用云计算多样化、最新、最符合业务需求的计算硬件,保证计算效率最高。并可以根据业务负载动态增加/减少计算资源。用户只用为已使用的资源付费,具有更好的成本效益;同时,不需要专业 IT 人员创建、部署集群,也不需要管理维护底层基础设施,用户使用起来更加简单和可靠。

Cloud HPC 是一种更加普惠、更加民主化的 HPC 使用方式。任何一个初创企业,都可以通过云使用高性能计算,进行产品研发和设计,而不是只有大型企业/政府机构才具备这个能力。根据 Hyperion Research 的研究报告,2022 年 Cloud HPC 的市场份额已经能够占到整个市场份额的 17%,接下来的 5 年,都会以 18%/年复合增长率继续快速增长。所以说, Cloud HPC 正在加速普及,并成为线下超算的重要补充。

针对 HPC 工作负载专门优化云的基础设施

如何在云上开展高性能计算,是一件十分有挑战的事情。HPC 作为计算机科学皇冠上的明珠,对于计算性能、存储性能、网络性能都有极高的要求。以工业仿真最常用的Fluent 软件为例,它属于计算密集型的应用,需要很高的 CPU 主频。同时它的性能也受内存带宽大小约束,只有内存带宽足够大,才能快速处理数据。
在这里插入图片描述
使用 Fluent 进行整车仿真时,需要多个节点并行计算。这些计算节点之间,必须要有低延时、高带宽的网络通信能力;计算集群使用的存储也必须需要有更强的 I/O 读写能力才能不阻塞计算的进行。云厂商目前更多考虑的还是互联网类的应用,性能更加通用和均衡,难以满足高性能计算的要求,特别是一些计算流体、气象预报等高精尖场景。

在摩尔定律逐渐放缓甚至失效的今天,已经很难只凭芯片的先进制程,来应对各行各业的算力爆发性增长。云计算厂商必须能够围绕特定的应用场景,比如典型的 HPC、AI 领域,来针对性优化云的基础设施。只有这样才能既最大限度的提升应用性能,又降低大规模使用的成本。

阿里云弹性计算技术持续创新

阿里云作为国内最早的云计算服务厂商,在过去十几年间。一直在持续不断的进行技术创新。从最早的 Xen 架构,KVM 架构,演变到自主研发的神龙架构,以及最新专为数据中心研发的 CIPU 架构。对于这些产品技术,阿里云一直都是最成熟和领先的云服务商。借助这些技术创新,也成功的将高性能计算融入到云计算领域,满足所有主流 HPC 主流应用的性能需求。
在这里插入图片描述
从 2017 年的神龙架构开始,包括上汽、吉利在内的汽车行业客户,就开始在阿里云上进行云上的工业仿真。2021 年发布的 CIPU 架构,能够让我们的客户,进一步用更低成本、更高效率、更大规模的方式来运行 HPC 业务,大大增强阿里云 Cloud HPC 的产品竞争力。

高性能计算优化实例 hpc8ae 规格族

基于 CIPU 架构,专为 HPC 设计和优化的高性能计算实例 hpc8ae,采用第四代的AMD EPYC 处理器,能够提供 64 个物理核心,256GiB 内存,基础频率 3.4GHz,最高可以到 3.75,还有 500GB/s 的内存带宽优化。整体超强配置使得 hpc8ae 特别适用于包含计算流体、有线元分析在内的典型工业仿真应用。
在这里插入图片描述
与其他通用计算类实例不同的是,hpc8ae 有两大专为 HPC 应用设计的重要功能特性:

第一,hpc8ae 直接提供物理核心,性能更加稳定,而且不支持启用超线程,避免了超线程切换影响到 HPC 应用性能。虽然 hpc8ae 是虚拟机,但借助CIPU架构,虚拟机的性能基本零损耗,和物理机等同。和其他 ECS 企业级实例一样,hpc8ae 的可靠性为 99.975%,能够实现自动的故障切换和自愈恢复,非常稳定可靠。

第二,hpc8ae 提供了高带宽、低延时,低抖动的 eRDMA 网络,最低时延达到 8us。能够兼容传统的 RDMA ,应用的软件不需要改动可以直接使用。从应用的 E2E 的性能角度来说,eRDMA 能在云上完全替代传统的 RDMA 网络,支持用户在阿里云的任意可用区,就可以构建云上大规模仿真集群,加速并行计算的任务。

依赖 CIPU 的强大性能和普惠特性,hpc8ae 实例对 CAE 类应用至少实现50% 以上性价比提升,是用户 HPC 工作负载的最佳选择。

全新 CIPU 架构提供高性能计算、网络和存储

作为阿里云弹性计算最重要的技术创新 CIPU,即云基础设施的处理单元,它是一种 DPU 的实现,专门设计用来提高云计算的效率和安全。CIPU 可以将包含虚拟化在内的网络、安全、存储等等,非计算密集型的任务卸载到一个专用的软硬件上,不占用主 CPU 处理能力,让其只应用于核心应用逻辑处理,大大提升整体云计算在网络、存储、性能以及安全方面的表现。
在这里插入图片描述
例如实例的存储 IOPS 可以达到 300 万,本盘接近零的延迟损耗,网络的PPS 也可以到 4000 万水平。CIPU 在阿里云已经得到了大规模应用,所有的 CPU、GPU 存储网络都是通过 CIPU 统一管理和调度。通过 CIPU,阿里云在通用计算性能方面优于同类产品 20%-60%,大数据 AI 也比同类产品高 30% 以上。同样的, 在 HPC 领域,基于 CIPU 架构的 hpc8ae 实例也实现了大幅度的性能提升和成本优化。

免费 eRDMA 网络提供低延时、低抖动的节点通信

Cloud HPC 另外一个关键点就是网络。传统的 TCP/IP 一直是业界主流的网络通信实例。很多应用都是基于 TPC/IP 构建,但是 HPC 的应用对于网络的性能,比如延迟、吞吐要求很高,TCP/IP 的网络通信能力是一个瓶颈。传统的线下 HPC 集群会使用 RDMA 网络解决以上痛点,相比TCP/IP,eRDMA 可以实现零拷贝,bypass 内核等特性,可以减少频繁上下文切换带来的开销,实现低延迟,高吞吐的网络通信。
在这里插入图片描述
但是 RDMA 网络建设成本很高,受限于物理网络,它的扩展性和弹性能力也不足,因此无法在云上大规模使用。eRDMA 是阿里云自研的云上弹性RDMA 网络,底层链路复用 VPC 网络,利用 CIPU 卸载网络通信开销,bypass 操作系统,并结合自研的拥塞算法可以提供最低 8us 的低时延,有着更低长尾抖动。通过对 libfabric 的支持,传统应用也不需要改动就能够直接使用。

和传统 RDMA 网络不同,阿里云的 eRDMA 网络基于数据中心的 VPC 网络,所以用户在阿里云的任何一个可用区,比如北京、上海,秒级实现大规模 eRDMA 组网。同时,为了保证所有计算节点的低延时网络通信性能,用户可以使用 ECS 部署集能力,来保证创建的 hpc8ae 实例紧凑放置。也就是说,同一个部署集的 ECS 实例,在创建时会保证物理距离接近,从而来保证 eRDMA 低延时通信效果。

CAE 应用性能提升 30%,性价比提升 50%

了解 hpc8ae 的实例规格参数以及背后的技术创新之后,我们来看一下hpc8ae的具体性能表现如何:
在这里插入图片描述
使用常见的HPC软件进行单节点benchmark 性能测试中,相比八代通用计算实例,专门优化的hpc8ae实例,WRF性能提升了40%,STAR-CCM提升了47%,Fluent提升了35%,普遍至少提升了30%以上。使用STAR-CCM+测试超过512核的多节点作业,应用性能基本上都可以实现线性提升,具有非常好的扩展效率。

使用 E-HPC一键创建 hpc8ae 仿真集群

不仅是计算实例 hpc8ae 的超高性价比优势,阿里云还为 hpc 客户提供了功能完善的弹性高性能计算产品 E-HPC。通过 E-HPC,用户可以自动化创建 HPC 集群,提供 SLURM、PBS 等常见调度器调度作业。
在这里插入图片描述
同时,E-HPC 还提供完整的云上运维、监控、告警、报表等服务,与阿里云其他云产品无缝对接,能够实现完整业务流程上云。对用户来说,E-HPC 可以安装部署软件,使用部署集创建 hpc8ae 实例集群,集成包含并行文件存储 CPFS、无影可视化节点等其他云产品,从而端到端的提供包含前处理、后处理、仿真在内的完整 CAE 云上方案,简单易用。

高性能计算优化实例 hpc8ae 规格族正式商业化

阿里云的高性能计算优化实例hpc8ae规格族正式商业化发布,支持北京、上海、杭州地域的开放购买。
在这里插入图片描述

这篇关于阿里云 hpc8ae 实例商业化发布详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080117

相关文章

一文详解Java异常处理你都了解哪些知识

《一文详解Java异常处理你都了解哪些知识》:本文主要介绍Java异常处理的相关资料,包括异常的分类、捕获和处理异常的语法、常见的异常类型以及自定义异常的实现,文中通过代码介绍的非常详细,需要的朋... 目录前言一、什么是异常二、异常的分类2.1 受检异常2.2 非受检异常三、异常处理的语法3.1 try-

Java中的@SneakyThrows注解用法详解

《Java中的@SneakyThrows注解用法详解》:本文主要介绍Java中的@SneakyThrows注解用法的相关资料,Lombok的@SneakyThrows注解简化了Java方法中的异常... 目录前言一、@SneakyThrows 简介1.1 什么是 Lombok?二、@SneakyThrows

Java中字符串转时间与时间转字符串的操作详解

《Java中字符串转时间与时间转字符串的操作详解》Java的java.time包提供了强大的日期和时间处理功能,通过DateTimeFormatter可以轻松地在日期时间对象和字符串之间进行转换,下面... 目录一、字符串转时间(一)使用预定义格式(二)自定义格式二、时间转字符串(一)使用预定义格式(二)自

Redis Pipeline(管道) 详解

《RedisPipeline(管道)详解》Pipeline管道是Redis提供的一种批量执行命令的机制,通过将多个命令一次性发送到服务器并统一接收响应,减少网络往返次数(RTT),显著提升执行效率... 目录Redis Pipeline 详解1. Pipeline 的核心概念2. 工作原理与性能提升3. 核

Python正则表达式语法及re模块中的常用函数详解

《Python正则表达式语法及re模块中的常用函数详解》这篇文章主要给大家介绍了关于Python正则表达式语法及re模块中常用函数的相关资料,正则表达式是一种强大的字符串处理工具,可以用于匹配、切分、... 目录概念、作用和步骤语法re模块中的常用函数总结 概念、作用和步骤概念: 本身也是一个字符串,其中

Nginx location匹配模式与规则详解

《Nginxlocation匹配模式与规则详解》:本文主要介绍Nginxlocation匹配模式与规则,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、环境二、匹配模式1. 精准模式2. 前缀模式(不继续匹配正则)3. 前缀模式(继续匹配正则)4. 正则模式(大

Android实现在线预览office文档的示例详解

《Android实现在线预览office文档的示例详解》在移动端展示在线Office文档(如Word、Excel、PPT)是一项常见需求,这篇文章为大家重点介绍了两种方案的实现方法,希望对大家有一定的... 目录一、项目概述二、相关技术知识三、实现思路3.1 方案一:WebView + Office Onl

Java实现优雅日期处理的方案详解

《Java实现优雅日期处理的方案详解》在我们的日常工作中,需要经常处理各种格式,各种类似的的日期或者时间,下面我们就来看看如何使用java处理这样的日期问题吧,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言一、日期的坑1.1 日期格式化陷阱1.2 时区转换二、优雅方案的进阶之路2.1 线程安全重构2

Java中的JSONObject详解

《Java中的JSONObject详解》:本文主要介绍Java中的JSONObject详解,需要的朋友可以参考下... Java中的jsONObject详解一、引言在Java开发中,处理JSON数据是一种常见的需求。JSONObject是处理JSON对象的一个非常有用的类,它提供了一系列的API来操作J

HTML5中的Microdata与历史记录管理详解

《HTML5中的Microdata与历史记录管理详解》Microdata作为HTML5新增的一个特性,它允许开发者在HTML文档中添加更多的语义信息,以便于搜索引擎和浏览器更好地理解页面内容,本文将探... 目录html5中的Mijscrodata与历史记录管理背景简介html5中的Microdata使用M