本文主要是介绍高性能计算:应用在抗击新冠肺炎一线,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
高性能计算:应用在抗击新冠肺炎一线
编译 李升伟 茅 矛
(深圳特趣生物科技有限公司,广东省深圳市518000,中国)
[题记]在抗击新冠肺炎大流行中,计算科学家们应用高性能计算(HPC),做出了杰出的研究成果,美国计算机协会戈登·贝尔奖对这些工作的奖励,表彰了国际计算科学界在持续的全球危机中做出的重要科学工作。
美国计算机协会戈登·贝尔奖(the ACM Gordon Bell Prize)创始于1987年,是一项每年颁发一次的著名科学大奖,以奖励高性能计算领域杰出的研究成果,多年来已经奖励了很多项应用高性能计算技术在科学、工程和大规模数据分析领域做出的最具创新性的研究工作。回顾这项科学大奖的历史,我们发现国际科学计算界的能力与时俱进、取得了实质性的进步, 随着其应用范围的拓宽,成功地实现了许多强有力的应用,著名的有流体力学模拟、分子动力学(MD)模拟、气候分析、以及量子电路的经典模拟,等等。当然,引人注意的是,我们看到了学术界采用创新性的解决方案,来更加有效地运用强有力的计算设施进行计算,否则的话,如果使用较为有限的资源如常规的桌面计算机或工作站将很难或根本不可能进行这样的计算。
新冠肺炎德尔塔病毒颗粒的雾化变体的十亿原子多尺度模拟图。本图片经加州大学圣地亚哥分校阿马罗实验室的阿比盖尔·多默尔(Abigail Dommer)许可使用。
为了应对持续的新冠肺炎大流行,美国计算机协会戈登·贝尔奖2020年度首次设立了专门的奖励“超算抗疫奖”、授予基于高性能计算的新冠肺炎研究,2021年再次奖励了应用高性能计算以创新的方式深化我们对新冠肺炎的本质、传播和/或治疗的认识。本奖励凸现了计算科学界的杰出工作,在高性能计算的帮助下,解决了我们近年最为困扰的危机之一。在美国计算机协会2021年年会上颁发的此项专门大奖,展示了学术界对新冠肺炎相关问题的广泛研究、和科学家们应用计算科学解决方案的前沿探索。
在多项入围的获奖项目中,有几项研究聚焦于新冠肺炎病毒SARS-CoV-2的抗病毒药物设计。确定潜在的药物候选物是非常昂贵的:鉴于需要计算的化学空间具有巨大的规模,搜索能够结合于靶标的抑制物(例如SARS-CoV-2病毒Mpro和PLpro蛋白酶)需要运行详尽而且昂贵的检索计算。美国橡树岭国家实验室(ORNL)的简斯·格拉斯(Jens Glaser) 及其同事们使用一种自然语言处理方法来加速潜在药物候选物的筛选过程。该团队使用一种称为简化分子输入线登录系统(简称SMILES)的文本表达方法,生成了规模前所未有的由大约96亿分子组成的数据集,并在这个输入数据集上预训练了一种大型深度学习语言模型,该模型以一种完全无人监督的方式学习了一种化学结构的表达。从计算角度来说,这种预训练过程是非常昂贵的,研究人员们使用橡树岭国家实验室顶尖超级计算机(ORNL Summit超级计算机)--目前运算速度美国第一、世界第二的超级计算机--来完成这项任务。接下来,一种较小规模的分子(潜在的抑制物)和靶标之间结合亲和力的已知数据集被用来调整结合亲和力预测模型,在这个过程中,预训练模型可以被用来生成候选物,而调整模型则用来选择具有更大结合亲和力的候选物。这两种模型都可以运行在运算资源适中的台式机或工作站上,从而使得药物筛选过程可以广泛地为学术界所采用和进行。
ORNL团队并不是唯一聚焦药物设计的团队:中国中山大学药学院的罗海彬及其同事们同样集中研究大规模筛选机制,但他们采用的是基于统计力学的方法、而不是语言模型。说得更具体一些,这个团队采用一种称为自由能摄动绝对结合自由能预测(FEP-ABFE)的方法,运用分子动力学模拟或称蒙特卡罗模拟在微观状态采样分析的基础上,对靶标系统的宏观性能(比如与结合亲和力相关的性能)进行预测。虽然FEP-ABFE可以达到良好的精确度,它对计算资源有极高的要求,这阻碍了它在大规模药物筛选中的应用进程。为了解决这个问题,研究人员们在相关技术上进行研发,开发了一种用户化作业管理系统来以一种可扩展方式运行这种方法,计算的实施是在世界排名第七的超级计算机--天河新一代超算系统中进行的。实际上,他们运用分子锚定方法、筛选了超过360万个来自于商业数据库的化合物,然后对大约12000个化合物进行了FEP-ABFE计算,得到了基于自由能摄动的结合自由能结果。
(图文来源:中山大学药学院罗海彬/李哲课题组基于天河超级计算机的新冠药物筛选合作研究成果入围国际戈登贝尔奖评选:http://news2.sysu.edu.cn/ky/1396612.htm)
其他团队则聚焦于运用建模和模拟来更好地理解新冠病毒生命周期不同阶段的生理机制。例如,美国阿贡国家实验室的计算生物学家阿尔温德·拉马纳坦(Arvind Ramanathan) 及其同事们探索了新冠病毒在宿主细胞内的复制机制,为药物设计提供了新的战略。科学家们已经运用冷冻电镜技术来阐明新冠病毒RNA复制机制的结构配置,但得到的数据总体分辨率经常很差,从而阻碍了对此机理的全面认识。这个研究团队开发了一种迭代法、通过分子动力学模拟和有限元分析的使用来改善冷冻电镜数据集的分辨率。这种方法的挑战之一是不同分辨率的耦合,通过扩充性机器学习算法来进行智能化实施。为了帮助平衡工作负荷,研究人员们在遍及多个地理分散性的超级计算中心上建立了单个协同工作流,其中包括:目前运算速度世界第五、位于美国加州伯克利的超级计算机铂尔马特(Perlmutter);目前运算速度世界第十七、位于美国伊利诺斯阿贡国家实验室的“塞塔图形处理器”(ThetaGPU,“塞塔”的扩展系统)。
作为2021年新冠特别奖获得者,日本理化学研究所首席研究员坪仓诚(Makoto Tsubokura)及其同事则将他们的注意力转向了新冠肺炎是如何通过飞沫和气溶胶传播的。为了更好地理解和评估通过飞沫和气溶胶传播的风险,这个研究团队聚焦于模拟飞沫从某个感染者排放后通过空气传播到达另外的个体的过程。这些端对端模拟必须考虑复杂的现象和几何学,包括周围的环境、飞沫和气溶胶的物理学参数、其它元素(例如空调系统)诱导的空气流活性、周围人员的数量,等等。这些科学家在目前世界第一的超级计算机“富岳(Fugaku)”系统上用不同的计算流体动力学技术实施了调整模拟。这种模拟产生了数字孪生体(又称数字化双胞胎,digital twin/digital twins),表现了不同的传播场景,其结果被媒体广泛报道、并被日本政府用来制定和实施其公共政策。
美国加州大学圣地亚哥分校的罗米·阿马罗和他的同事们也把他们的工作聚焦在了新冠病毒的空气传播上、开发了一种多尺度框架来研究雾化病毒。研究这些复杂系统需要考虑不同的分辨率(大小从数纳米到大约一微米)和较长的时间量程(横跨数微秒到数秒):这种多分辨率需求使得全原子分子模拟非常的具有挑战性,计算成本昂贵。在许多技术性研究论文中,令人眼前一亮的是,研究人员们在顶尖超级计算机上运行和对分子动力学模拟进行测量,实现了引人瞩目的新冠病毒德尔塔毒株的雾化变体的十亿原子模拟,这是到目前为止首例对呼吸道气溶胶的模拟。这样的模拟实现了对呼吸道气溶胶的构成、结构和动力学的探索,成为了开发新冠肺炎创新治疗药的基础,比如发现潜在的结合位点。
最后,非常重要的是,另外一个入围奖励的团队则聚焦于一个不同的挑战:进行流行病学模拟。美国弗吉尼亚大学计算机科学教授马德哈夫·马拉地(Madhav Marathe)和同事们开发了一种框架来生成实时场景预测,以评估可能的未来场景中流行病学结果的可能性。这种框架可以用来更好地配给疫苗供应、评价疫苗迟疑的作用、并且认识免疫力减弱的影响,在其他公共卫生运用方面重要研究独具特色。作为他们建立的框架的一部分,研究人员们运用各种国家级数据集建立了美国随时间变动的社交网络的一套数字孪生体(参见: 解读Digital Twin)。这种数字孪生体通过再次运用各种规模的不同数据集、通过融入当前实际世界的背景条件中而带来生命周期管理。他们还建立了一种并行的、基于代理的社会-流行病学模拟器,在初始化数字孪生体后,用来生成和分析不同的场景。鉴于模拟在计算开销上非常密集,研究人员们探索建立了一种高性能计算集群的元调度器以实现对多个集群的有效使用。在他们的分析中,团队使用了两台超级计算机:位于匹兹堡超级计算中心的桥-2号(Bridges-2)和位于弗吉尼亚大学的里瓦那(Rivanna)。值得一提的是,该团队从新冠肺炎大流行开始就已经对美国各个州和联邦政府进行了场景预测。
总体上来说,所有这些研究工作不仅发表了众多的技术论文、理所当然地可以实施在其它高性能计算应用中,而且这些重要的计算框架和研究可以用来改善我们对持续肆虐的新冠肺炎大流行、并且更好地贯彻落实有关政策来减少病毒的传播。随着新的高性能计算技术和新的计算架构的持续开发,比如百万兆等级运算项目的不断研发,我们可以预期计算科学界会涌现出更多非凡的成就与进展。
[资料来源:Nature Computational Science]
原文链接:
Fighting COVID-19 with HPC | Nature Computational Science
这篇关于高性能计算:应用在抗击新冠肺炎一线的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!