【观察】从EasyOP到先进计算服务平台,曙光HPC价值使命的全新飞跃

本文主要是介绍【观察】从EasyOP到先进计算服务平台,曙光HPC价值使命的全新飞跃,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=jpeg

申耀的科技观察

读懂科技,赢取未来!

640?wx_fmt=jpeg 640?wx_fmt=jpeg 640?wx_fmt=jpeg 640?wx_fmt=jpeg


众所周知,中国HPC经过近四十年的发展,尤其最近十五年时间的快速崛起,已经从跟跑、并跑,进入到部分关键技术领跑的新时代。近期,中国HPC产学界共同努力,逐渐打破国外硬件制约,部分实现自主研发,软硬件协同支撑应用高速发展,迈向由应用引领机器研制的新时代。


但也要看到,一方面相比硬件领域取得的成绩,中国整体HPC的应用发展还有待发展,软硬件之间发展不平衡的现状依旧很明显;另一方面,中国HPC领域的人才建设工作同样也存在着不少的“短板”。


640?wx_fmt=jpeg


面对上述困扰中国HPC行业多年的痛点和难题,作为一家以高性能计算起家的企业,曙光一直以来始终坚持在HPC领域的不断探索和创新,不仅为科研、航天、气象、生命科学等多个行业提供了领先成熟的超算解决方案,同时也积极在应用、人才乃至生态建设方面不断求新求变,为中国HPC长远发展夯实了坚实的基础。


以2015年曙光创新推出的EasyOP在线运维平台为例,经过近四年时间不断进化和迭代,如今EasyOP已升级蜕变成为先进计算服务平台。更重要的是,依托该平台,曙光也正在搭建起中国HPC领域独具特色的O2O先进计算服务网络。


在我看来,曙光的先进计算服务平台,正在把中国HPC和人工智能等新技术变成像水和电一样的新生产力,这对降低全社会的HPC使用门槛,推进HPC规模化的应用,实现HPC的“普惠”经济,赋能全行业的数字化转型必将起到更大的促进作用,而这不仅是曙光HPC业务未来重点发展的新方向,更是价值使命的一次全新飞跃。


应用和人才成中国HPC“拦路虎”


我们知道,高性能计算是科技领域最“硬核”的行业之一,所以也被称为“国之重器”,是因为它的制造和应用水平不仅代表着国家的实力,更是一个国家在经济建设中打造核心竞争力的关键武器。


客观的说,中国HPC经过过去多年的发展,取得了令人瞩目的成就,但应用和人才的“短板”也正在成中国HPC长远发展的“拦路虎”,我们可以从三个维度来做观察:


640?wx_fmt=jpeg


第一,从硬件层面看,中国在HPC领域可谓是从“一穷二白”做起的。在2002年之前,TOP500榜单上就没有中国的超算,或者说中国超算本身就很少。从2002年之后,经过15年的高速发展,中国超算的上榜数量,包括性能都是指数级增长,并以“旱地拔葱”的方式一跃而起。


尽管在去年年中公布的TOP500榜单上,美国超算Summit“终结”了中国超算第一的位置,但中国“天河2号”以及“太湖之光”,分别六次和四次拿到冠军,相当于连续五年占据了TOP500的冠军位置。此外,在最新一期TOP500的榜单中,中国HPC的上榜套数依然高居第一,以曙光为代表的中国“超算军团”,正在全球超算领域大规模的强势崛起。


第二,从软件层面看,情况则相对不容乐观。目前,中国HPC不论是系统软件、应用软件还是工具软件,都还不成熟、不完善。例如,如今真正到P级规模并用上异构众核处理单元的应用相对较少,期待更多对重大科学发现、满足国家重大战略需求的应用能给跑出规模,实现“高速路上跑赛车,而不是跑拖拉机”。


同时,HPC在硬件层面上并行计算技术已经大规模投入使用,但是大量超算应用软件仍需要接受“代码现代化”的改造,这就意味着尚有大量的应用软件需要进行重新设计。此外,HPC的支撑和工具软件种类也不多,包括能够在结构化网格、非结构化网格以及无网格几何组合,以及有限元和图计算等方面提供支撑,同时还有在前处理、后处理、用户界面等方面的软件都比较“薄弱”。


第三,从人才建设看,HPC应用的开发、实施,以及HPC系统的运维需要千千万万的高素质人才,可以说如果人才储备质与量都能获得提高,中国的HPC应用水平才能不断提高,并最终产生真正的创新成果。


但实际的情况是,中国HPC领域除了具有跨学科知识和视野的高水平人才数量不足之外,HPC在管理和运维方面也一直存在着一些问题,包括缺乏专业人才、管理运维水平落后等等。


不难看出,应用和人才正在成为中国HPC长远发展之路上的“拦路虎”,要实现上述这些突破,应用领域的软件开发和人才培养投入就显得迫在眉睫。因此,这也意味着HPC需要建立一个全新的,不同以往的生态环境,才能促进中国HPC长远的发展。


从EasyOP到先进计算服务平台


对此,曙光高性能计算产品事业部首席科学家吉青博士告诉我,正是洞察到HPC领域面临的种种难题,早在2105年11月,曙光就创新推出了EasyOP在线运维平台,从“运维”这一痛点入手,希望帮助更多HPC用户解决运维人员不足的问题。


EasyOP带来的好处是,它不仅可以提供7*24小时全程专家支持的自动化运维能力,能够帮助HPC人员大大提升工作效率,一定程度上也提升了工作的自由度;同时,借助曙光在HPC领域多年积累的深厚技术和知识储备,EasyOP通过搭建“在线运维平台知识库”,并通过共享和开放的方式,让HPC运维人员形成强大的高性能计算专业知识体系。目前,曙光已在安徽、河北以及欧洲建立了三个EasyOP分中心。截至今年6月初,EasyOP的活跃集群已经接近200套。


640?wx_fmt=jpeg


值得一提的是,基于EasyOP在HPC运维领域的探索与实践,曙光又萌发了更大的想法,那就是能否把这一套经过实战检验和验证成功的经验、方法以及体系,延伸到计算、应用乃至生态领域,构建一个功能更加丰富、作用更加强大的服务平台呢?


在此背景下,曙光先进计算服务平台“应运而生”。通过该平台,曙光希望将传统的HPC集群和其他计算资源等,进行统一的管理和维护,并将应用软件进行封装,为用户提供一个全新的云环境,以应用服务的形式提供给更多的用户,让他们更加方便、快捷、高效的使用HPC的资源。


不仅如此,在实现HPC服务化的基础之上,曙光还将逐步把生物、气象、高校、科研机构等行业领域的应用,如CAE、深度学习等应用集成到平台,更好的发挥应用的价值,为中国HPC在应用领域发展进一步“添砖加瓦”。


640?wx_fmt=png


据曙光EasyOP产品总监、首席运维架构师安磊介绍,曙光先进计算服务平台主要包括先进计算运维体系、先进计算运营体系及先进计算分享体系三大部分,具体而言:


首先,先进计算运维体系,是指继续依托于EasyOP高性能计算运维服务平台提供服务,主要承担各大计算中心集群与资源的监控、运维、检查、维护、升级及管理服务,是面向先进计算中心管理人员的统一入口,该体系采用中心化管理原则辐射全国先进计算中心,提供运维支撑服务。


其次,先进计算运营体系,主要承担科学、合理、智能、高效的调度和利用资源服务计算的任务,是面向先进计算中心终端用户的统一入口,通过该平台,实现整合资源的共享应用、统一管理、动态调度,并通过建设云服务环境,使其成为面向全国先进计算中心的资源和信息服务的统一入口,全面汇聚全国先进计算中心资源。


最后,先进计算分享体系,主要包括互动平台、数据分享及应用发布三大模块。互动平台将针对应用和学科划分专业计算“生态圈”,汇聚相关专业人才互动交流;数据分享将提供科学计算数据及成果分享与交易平台功能,促进科研成果价值化、产业化;应用发布平台将允许用户发布自己的镜像、软件、环境或算法等知识产权,初步形成先进计算开放的资源交易平台。


640?wx_fmt=png


安磊表示,曙光先进计算服务平台2018年10月正式上线,2019年1月正式商用。截止目前,该平台已接入6+个遍布全国的大型先进计算中心,总计算能力高达6000+TFlops,并可通过智能策略,为用户提供最佳的资源分配和使用方案,满足用户超大规模并行计算的需求。


此外,该平台还汇聚了4000+个HPC计算节点,可为用户提供丰富的计算能力;以及100+个HPC相关应用;并维护了一支面向HPC各个应用领域的软件专家团队,为用户提供全面的技术支持。


据了解,曙光先进计算服务平台未来还有更大的目标,一方面是结合曙光目前的优势方向,针对物理化学、气环科学、生命科学、智能制造及人工智能五大领域展开更多的合作,以计算科学带动行业创新的突破;另一方面是,该平台的定位不仅是重大科技基础设施,还是创新的公共服务平台,未来也会围绕重点支柱产业,以促进科技创新和产业向中高端转型升级为目标,力争成为地方产业经济发展中重要支撑。


由此可见,从EasyOP到先进计算服务平台,不仅是曙光从一种技术工具到整体服务能力全面升级和进化的体现,更是曙光在HPC计算、应用和人才领域不断探索与创新的印证,其价值可谓是“不止于眼下,更关注未来。”


曙光HPC价值使命的全新飞跃


毫无疑问,曙光EASYOP在线运维平台和先进计算服务平台正在为中国HPC在计算、应用和人才领域探索一套新的长效机制,某种程度上也有助于破解中国HPC长远发展的难题。


640?wx_fmt=jpeg


一是,从计算层面看,两大平台通过“HPC云化交付”的方式,可以让用户快速获得高性能计算集群的计算能力、调度能力和软件能力。更关键的是,这种云中交付HPC集群应用的新模式,还可以大大减轻用户的运维压力,同时也最大化的提升了HPC的资源利用率。


二是,从应用层面看,曙光先进计算服务平台还能促进中国HPC应用领域的长足发展,通过该平台,用户可以将成熟算法或者应用通过标准统一的格式发布在平台上,也可将其他人分享的成品镜像直接调用使用,由此解决硬件发展和软件优化不平衡、不同步的难题。


三是,从人才层面看,如前文所述,中国在HPC的领域的人才依然有很多的“短板”,人才依然是中国HPC产业发展的主要瓶颈。那么,通过曙光两大平台,不仅可以减少运维人员日常面临的管理和运维压力,更大的意义在于,通过曙光搭建的平台以及创造的机制,还可以为HPC创新人才的培养提供土壤,更为HPC人才价值的释放提供了空间和舞台。


正如吉青博士最后所言:“HPC是科技的基础性产业,几乎涉及人类科学和生活的每一个领域,而曙光深耕高性能计算二十余年,不仅为中国HPC产业的发展提供了强有力的支撑,也希望在计算、生态和人才领域发挥更大价值,为中国HPC长远的发展创造更多的可能。这也是曙光从Supercomputer走向Supercomputing的一点感悟和现实需求。HPC相关环节顺畅打通才能良性快速发展,从而真正达成好用、用好”。


总的来看,曙光EASYOP在线运维平台和先进计算服务平台是曙光在HPC领域综合能力的全面体现,也是曙光在HPC领域厚积薄发的印证,更是曙光HPC未来新价值使命的升级所在。所以,它的出现不仅会把整个中国HPC行业带上一个新的台阶,也为曙光今后赋能百行百业的数字化转型奠定关键基础。


640?wx_fmt=gif


申耀的科技观察,由科技与汽车跨界媒体人申斯基(微信号:shenyao)创办,16年媒体工作经验,拥有中美两地16万公里自驾经验,专注产业互联网、企业数字化、渠道生态以及汽车科技内容的观察和思考。


640?wx_fmt=jpeg

这篇关于【观察】从EasyOP到先进计算服务平台,曙光HPC价值使命的全新飞跃的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/563829

相关文章

poj 1113 凸包+简单几何计算

题意: 给N个平面上的点,现在要在离点外L米处建城墙,使得城墙把所有点都包含进去且城墙的长度最短。 解析: 韬哥出的某次训练赛上A出的第一道计算几何,算是大水题吧。 用convexhull算法把凸包求出来,然后加加减减就A了。 计算见下图: 好久没玩画图了啊好开心。 代码: #include <iostream>#include <cstdio>#inclu

uva 1342 欧拉定理(计算几何模板)

题意: 给几个点,把这几个点用直线连起来,求这些直线把平面分成了几个。 解析: 欧拉定理: 顶点数 + 面数 - 边数= 2。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#inc

uva 11178 计算集合模板题

题意: 求三角形行三个角三等分点射线交出的内三角形坐标。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#include <stack>#include <vector>#include <

XTU 1237 计算几何

题面: Magic Triangle Problem Description: Huangriq is a respectful acmer in ACM team of XTU because he brought the best place in regional contest in history of XTU. Huangriq works in a big compa

音视频入门基础:WAV专题(10)——FFmpeg源码中计算WAV音频文件每个packet的pts、dts的实现

一、引言 从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以打印WAV音频文件每个packet(也称为数据包或多媒体包)的信息,这些信息包含该packet的pts、dts: 打印出来的“pts”实际是AVPacket结构体中的成员变量pts,是以AVStream->time_base为单位的显

计算数组的斜率,偏移,R2

模拟Excel中的R2的计算。         public bool fnCheckRear_R2(List<double[]> lRear, int iMinRear, int iMaxRear, ref double dR2)         {             bool bResult = true;             int n = 0;             dou

GPU 计算 CMPS224 2021 学习笔记 02

并行类型 (1)任务并行 (2)数据并行 CPU & GPU CPU和GPU拥有相互独立的内存空间,需要在两者之间相互传输数据。 (1)分配GPU内存 (2)将CPU上的数据复制到GPU上 (3)在GPU上对数据进行计算操作 (4)将计算结果从GPU复制到CPU上 (5)释放GPU内存 CUDA内存管理API (1)分配内存 cudaErro

Java - BigDecimal 计算分位(百分位)

日常开发中,如果使用数据库来直接查询一组数据的分位数,就比较简单,直接使用对应的函数就可以了,例如:         PERCENT_RANK() OVER(PARTITION BY 分组列名 ORDER BY 目标列名) AS 目标列名_分位数         如果是需要在代码逻辑部分进行分位数的计算,就需要我们自己写一个工具类来支持计算了 import static ja

OpenStack离线Train版安装系列—2计算节点-环境准备

本系列文章包含从OpenStack离线源制作到完成OpenStack安装的全部过程。 在本系列教程中使用的OpenStack的安装版本为第20个版本Train(简称T版本),2020年5月13日,OpenStack社区发布了第21个版本Ussuri(简称U版本)。 OpenStack部署系列文章 OpenStack Victoria版 安装部署系列教程 OpenStack Ussuri版

新一代车载(E/E)架构下的中央计算载体---HPC软件架构简介

老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己,无利益不试图说服别人,是精神上的节能减排。 无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事.而不是让内心的烦躁、焦虑、毁掉你本就不多的热情和定力。 时间不知不觉中,快要来到夏末秋初。一年又过去了一大半,成