AI + Science :科学研究新范式

2024-03-11 08:52
文章标签 ai 范式 science 科学研究

本文主要是介绍AI + Science :科学研究新范式,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

AI 发展七十余年,每一技术性突破都将给人类未来开辟新一种可能性。而它与科学研究的深度融合,则会裂变出无数或无穷种可能性。

正文:
万众瞩目下,今年 10 月,有着诺贝尔奖 “嫡传” 之称的诺贝尔化学奖终于揭晓,授予了对 “链接化学和生物正交化学的发展作出了贡献” 的三位化学家,他们分别是美国化学家 Carolyn R. Bertozzi、丹麦化学家 Morten Meldal、美国化学家 K. Barry Sharpless。

实际上,靴子落地前,关于这一奖项到底花落谁家引起了无数热议。其中国际化学领域权威期刊《Chemical Reviews》就曾对该奖获得者进行了读者投票预测,带领 DeepMind 团队开发出能够精准预测蛋白质结构的 AlphaFold 2 的 John Jumper 获得了最高票数。

尽管由于 “时间问题”,最终 John Jumper 并未折桂,但在此之前,John Jumper 团队已成功拿到了另一个堪称 “豪华版诺贝尔奖”、“科学界的奥斯卡” 的奖项 —— 2023 年生命科学突破奖(Breakthrough Prize in Life Sciences),这是迄今科研领域里奖金最高的生物学及医学奖项。

为何 John Jumper 及其领导开发的 AlphaFold 会收获如此多的青睐?主要原因在于,AlphaFold 的诞生解决了困扰生物学界半个多世纪的经典难题,即 1972 年诺贝尔化学奖得主 Christian Anfinsen 提出的蛋白折叠问题(Protein Folding Problem)—— “蛋白质的氨基酸序列应该能完全决定其结构”。

John Jumper 团队开创性地利用人工智能技术,终于破解了这一著名猜想,不仅让蛋白质结构预测的研究走入一个新阶段,也将人们对 “AI for Science(科学智能)” 的关注推向高潮。

简单来说,AI for Science 就是让人工智能利用自身强大的数据归纳和分析能力去学习科学规律和原理,得出模型来解决实际的科研问题,特别是辅助科学家在不同的假设条件下进行大量重复的验证和试错,从而大大加速科研探索的进程,如今这一方法已在多个前沿科学领域中取得了显著的成果。

AI for Science
与大家此前耳熟能详且触手可及的人工智能应用相比,AI for Science 所涉及的生物制药、能源、材料研发等科研领域尽管离大众生活看似遥远,但其背后的共同之处在于,利用人工智能来 “解放” 生产力 —— 让人们能够从许多重复性、机械化的基础工作中释放出来,在人工智能的辅助下进行更高效的生产工作。这正是人工智能的价值和魅力所在。
在这里插入图片描述

AI for Science:用人工智能催化一场新的 “科学革命”

让我们回到 AlphaFold,从解析蛋白质的技术演进,来观察 AI 的加入到底能给科研带来怎样的颠覆。

作为生命的物质基础,蛋白质与生命及各种生命活动有着极其紧密的联系,包括人体所有疾病的发生几乎都与蛋白质功能异常有关。换句话说,如果能人为地激发或抑制蛋白靶标,“控制” 蛋白质的结构和功能,就能够大大加速对疑难杂症的靶向药物和高效疗法的研发。

在过去,生物学家们曾广泛使用 X 射线衍射、冷冻电子显微镜等实验技术来破译蛋白质的三维结构,这类方法耗时长且成本高。因此从 1994 年开始,多支科研团队在两年一届的国际蛋白质结构预测竞赛(CASP,Critical Assessment of protein Structure Prediction)上施展拳脚,并由此催生了 I-TESSER、RaptorX、RoseTTAFold等蛋白质结构预测模型。

但是问题也随之而来,这些大部分用计算机基于理论预测的蛋白质结构模型,其实与实际观测到的实验数据相去甚远,正确率不足 40%。其后续发展需要持续提高预测模型的精度,以无限缩小预测结构和实验误差。

不仅如此,从蛋白质结构预测推进到药物研发环节,不同药物设计方法的原理和应用场景也有着极大差异。例如在制药流程中,从前端的靶点发现、先导化合物的筛选优化,再到后期 ADMET 预测、甚至临床效果预测等多个环节,都面临着独特的技术挑战。在这个过程中,研究人员必须要进行高通量的重复性实验,甚至要花费多年的时间,验证次数也高达数百万次。

而今,回看这个半世纪以来令无数学者着迷却又难以跨越的难题,不过是科研领域延绵壁垒中的冰山一角。而成熟的 AI 技术与科研领域及多学科交叉融合诞生的 “AI for Science”,无疑给这个难题以及人类在科学无人区的更多探索带来了全新的可能性。

从 2020 年开始,AI for Science 进入了集中爆发的发展阶段,其中就包括了 AlphaFold 项目,其最新成果——由 DeepMind 在 2021 年发布的 AlphaFold 2,已能成功预测 98.5% 的人类蛋白质三维结构,且预测结果与大部分蛋白质的真实结构只相差一个原子的宽度,可达到以往通过冷冻电子显微镜等复杂实验观察预测的水平。

类似于生命科学领域,分子动力学领域也出现了影响力同样显著的 DeePMD-kit 项目,其通过利用机器学习、高性能计算技术与物理建模相结合,能够将分子动力学的极限提升至 10 亿原子规模,同时保持高精度,大大解决了传统分子动力学中 “快而不准”、“准而不快” 的难题。

还有在气象预测领域,基于新型算子学习的神经网络模型 FourCastNet,能够将天气预报提速 45000 倍;在工业领域的流体、结构等 PDE 方程求解方面,也已证实基于数据 + 物理机理融合的 AI 方法,是解决复杂高维物理问题的突破口……

AI for Science
一言以蔽之,无论是今年爆火的 AI 绘画、AI 对话模型 ChatGPT 等 AI 应用,亦或是大量 AI for Science 领域的项目案例,都足以证明 AI 正在为各个行业、领域带来了一场范式革新。但 AI for Science 更重要的意义在于,其对前沿科研所施加的加速作用,将对人类社会和经济发展有着更为基础,也更为深远的影响。

而且,AI for Science 的应用也不仅仅局限于依据已知科学原理来高效验证或试错,它也让更多科研人员能够基于 AI 在更复杂的场景中做探索,结合数据反推复杂场景下更为准确的物理规律。

毫不夸张地说,人工智能将成为科学家继计算机之后的全新生产工具,同时也正在催化一场新的 “科学革命”。
在这里插入图片描述

跨越落地壁垒,从深度学习框架出发

但从畅想回归现实,人工智能行业想要获得长足发展,真正成为人类新的生产工具,必然要跨过落地这道关卡。而 AI for Science 所具备的全面、深层次革新价值,亦让它面临远高于人们常见 AI 应用的落地壁垒。

主要原因在于,AI for Science 的落地应用需要大量的工业场景数据支持,以及合理的科学机理等效,而且高维、海量的数据也对算力和内存提出了更高的要求。总的来看,目前 AI for Science 落地应用的最大壁垒主要体现在数据、平台技术、软硬协同、领域求解能力和优秀研发生态上。

从数据角度,工业场景的数据维度高、格式繁杂且存在孤岛现象,同时由于隐私和法律上的一些限制,部分数据很难实现公开共享。因此如何高效治理这些多特征、多来源的数据,解决小样本、零样本数据建模,是当前 AI 在科研领域落地的基础。

从软硬件协同角度,AI for Science 的发展既离不开深度学习框架的支持,也无法脱离底层高性能硬件的支撑。一方面,AI for Science 需要更加科学地求解真实物理问题,如高阶 PDE 方程组的求解,以及数据 + 物理机理驱动的模型开发。另一方面,传统的科学计算中心已广泛支持各类科研任务,在其持续增加智能计算硬件能力的同时,也需要科学计算/智算硬件与 AI 开发框架深度整合,支持各类新型 AI for Science 计算场景并达到性能领先。

从研发生态角度,AI for Science 作为一个充分体现交叉学科的新兴科研范式,涉及生物学、分子动力学、计算流体力学、固体力学等学科,需要大量的跨领域科研人才,且不断扩展的开源生态库要与传统数据集模拟软件、数据集打通,才能满足研发人员对开发工具链的需求,逐步形成稳定且优质的科研生态。

为了跨越这些壁垒,拉低 AI for Science 的应用门槛,产、学、研各界的科学家、企业们都开始踏上了 AI for Science 的范式革新 + 普惠之路。

在深度学习框架领域,国外如 TensorFlow、PyTorch、MXNet 等 AI 框架,自诞生以来就一直在帮助众多科学家和工程师进行学术研究及工程实现,大大促进了 AI 领域的发展。作为国内 AI 领域的先行者,百度也凭借百度飞桨(PaddlePaddle)从 2016 年打响国产 AI 框架开源第一枪,并一路朝着全面 AI 技术布局演进。如今,飞桨平台已能够对各类硬件实现广泛适配,并能直接部署到大规模的科学计算集群,与已有的科学计算生态紧密融合,强力支撑 AI for Science 方案的部署与应用。

同样在 2016 年,向辉也开始在百度接触 AI 行业,随后亲身经历了 AI 在计算机视觉、自然语言处理、推荐等领域的技术应用与快速更迭,如今她已成为百度飞桨 AI for Science 产品负责人。

向辉在接受 36 氪专访时谈到,面对 AI for Science 的落地挑战,百度飞桨认为核心要解决的是构建一个通用化的深度学习平台,能够衔接下游的各种异构算力,提供支持科学计算问题求解的 API,以及编译加速机制等,以更好支撑典型的科学计算场景建设和分析,如支持气象预测、流体仿真、材料发现等领域问题。“同时也要建设可持续的、融合科研、科学计算、平台以及终端用户的开放生态。” 她说。

为让不同领域的科学工作者都可以灵活地使用当下热门的科研模型,早在 2019 年,百度飞桨就已开始尝试在 AI for Science 领域进行技术形态、产品路线等规划,并在 2020 年初至 2021 年底相继发布了生物计算平台 “螺旋桨 PaddleHelix”、量子计算平台 “量桨 PaddleQuantum”,以及面向流体、固体、电磁等领域的科学计算平台 “赛桨 PaddleScience”。

此外,百度飞桨还提供了 PINN、FNO、DeepONet 等主流模型,以及用户可直接复用的标准案例,如 CFD 中障碍物绕流、涡激振动、达西流等。

百度飞桨还支持基于组件进行定制化的问题复现与分析,支持数据驱动以及与物理机理相结合的多种方法,分别在物理仿真、化合物分子表征、量子纠缠处理等场景有了突破性的进展。

其中,为了更好地服务广大科学计算用户对各类 PDE 方程的求解需求,百度飞桨也在积极实现与优秀科学计算 Repo-DeepXDE 的全量模型支撑,目前已初步完成所有模型的精度对齐工作,并在百度飞桨最新的高阶自动微分机制、自动化的分布式策略以及编译加速机制等加持下,部分用例的求解效率已领先同类产品。

为进一步推动 AI for Science 的落地进程,百度飞桨还与多家高校、科研机构等开展了流体、材料、生物等方面的范例建设,并形成了一些开放性的、多学科交叉的生态社区。今年 5 月还推出了 “飞桨 AI for Science共创计划”,希望通过与各方一道进行技术联合开发、推广资源共享,共建生态商机。

回想这些社区的发展经历,向辉对不少学生团队的项目记忆犹新。她回忆,其中北航有一个学生团队开展了一个真空羽流模拟实验,实验本身需要在真空条件下,无法在地面上复现,但通过飞桨 AI for Science 的产品,团队繁衍出了玻尔兹曼方程的一些系数,最终达到了令人惊艳的效果。“这些案例都已证明,在某些场景中,百度飞桨的 AI for Science 能够一定程度地解决开发者们的科研问题。” 向辉说。

一路发展至今,百度飞桨 AI for Science 工具集已能支持 AI 方法与基础学科方法交叉融合,最大的特点在于能突破基础学科中 “基于数值计算求解控制方程” 面临的维数高、时间长、跨尺度、算力不足等挑战,将数值差分等效为 “基于数据、物理机理驱动的神经网络模型实现”。

开辟 AI for Science 赛道,对百度飞桨来说无疑是 AI 能力的又一次挑战和跃升。在大幅加速科学问题求解的同时,它也将为行业在探索更多未知科学问题的路上深踩油门。
在这里插入图片描述

平台之下,底层算力赋能软硬协同发展

正如前文所说,AI for Science 的科学问题加速求解和产业落地,不仅需要框架或软件平台层面的支持,亦需要基础设施提供强大算力和软件优化能力。

面向科学计算领域,有大量芯片厂商在围绕如何提高 AI 算力,加速 AI 应用落地做相应布局。而英特尔正是这一赛道中颇具代表性的领军企业之一,其一直以来都在致力于 “让 AI 无处不在”。

AI for Science
在英特尔人工智能架构师杨威与 36 氪的访谈中,他从一家芯片企业的角度出发,针对 AI for Science 这一领域给我们带来了不一样的视角和观点。

杨威认为,AI for Science 普及的主要难点卡在如何降低 AI 硬件的成本,以及要有易于上手的 AI 软件优化工具。

他强调:英特尔从第二代至强® 可扩展处理器开始,实现了 CPU 内置的 AI 加速。通过 AVX-512 和 DL Boost 等 AI 加速技术,让 “用 CPU 跑 AI” 成为了可能。此举的意义,在于能够充分激活和利用部署更广泛且成本优势更明显的 CPU 的算力,在输出绝大多数应用所需的通用算力的同时,还能通过对AI推理的加速推进 AI 应用的落地。同时英特尔还向公众开源,即免费提供各种 AI 软件优化工具,包括 oneAPI、OpenVINO 等,这些软件的技术门槛与使用难度较低,且能帮助用户释放至强 CPU 的 AI 加速能力。

此外,考虑到 AI for Science 领域的模型或相似变体对内存的消耗非常敏感,且对大内存应用来说 CPU 平台的计算资源通常会更具优势,英特尔还有的放矢地的进一步强化了这方面的能力 —— 其与至强 CPU 搭档的英特尔® 傲腾™ 持久内存,能提供远超主流 DRAM 的容量,更容易达成 TB 级内存配置并拥有接近 DRAM 的性能。也就是说,它能够在尽可能降低科学计算模型在整个链路上时延的同时,突破限制 AI for Science 应用的内存容量瓶颈。

虽然在现阶段,英特尔针对 AI for Science 等 AI 应用的核心硬件布局是以 CPU 为主,加速的应用类型也是以推理为主,但这只是其在 XPU 时代扩展 AI 产品组合的第一步。在英特尔的 “XPU 愿景” 里,随着未来数据类型和应用类型的高速增长和裂变,其底层硬件架构也将从 CPU 拓展到 CPU 与 GPU、FPGA 和 AISC 加速器俱全的 XPU 架构。

基于这一策略,英特尔 2023 年不但会推出代号为 Sapphire Rapids 的第四代至强® 可扩展处理器,还会发布可与这款 CPU 搭配,专攻科学计算及 AI 加速的、代号为 Ponte Vecchio 的数据中心 GPU 产品,并由此形成在 AI 推理上以高性价比、易获取和使用的 CPU 为主,在 AI 训练上则以 GPU 为主的更完善布局。而且这种 XPU 组合还可借助 oneAPI 工具包实现对异构硬件的统一编程和管理,具有灵活调配、无缝协作和高效易用等特点。

依托上述产品组合已经或即将带来的强大算力支持,英特尔从硬件到软件多维度地为 AI for Science 提供了优化,力求让更多科研人员可以亲自参与到开发和定制当中,并实现科学智能的真正普及。在其持续的努力下,如今已有许多合作伙伴实现了产品落地。

例如在 AI 小分子药物设计领域,英特尔与剂泰生物合作,在小分子药物优化方面实现了高通量的分子生成,有望在更大的化学空间中探索更多潜在的候选分子。在大分子药物设计领域,英特尔则与百度飞桨、晶泰科技、上海交大等各大机构和高校进行了深入合作,基于 AlphaFold 2 实现了高通量和长序列蛋白结构预测推理的优化,并在 AlphaFold 2 中引入了 TB 级内存技术,总体达到了降本增效。

AI for Science
其中,英特尔与百度飞桨也早在 2017 年就开始了以软硬件协同优势为主的合作。随着双方在 AI 领域的持续布局,合作的广度和深度也在不断提升。例如,英特尔和百度飞桨致力于实现英特尔全栈软硬件和飞桨的相互支持,通过 oneAPI 实现深度适配与性能优化,并通过飞桨 + OpenVINO 等方式共建部署生态。

有意思的是,如今百度飞桨与英特尔在 AI for Science 领域达成合作,不仅与这些前序的合作有关,也与开发者生态有着千丝万缕的关系。

长期以来,百度飞桨都在积极发展开发者生态,如建设飞桨特殊兴趣小组(PPSIG),希望通过开放的社区形式与全球开发者共同构建一个开放、多元和架构包容的生态体系。而英特尔的一位专家正巧是 PPSIG- 科学计算 Science 小组最早期的成员,曾积极参与了 PaddlePaddle 科学计算开源社区建设,并且对分子动力学模拟在生物蛋白分子和能源材料的应用产生了浓厚兴趣。

在这个契机下,双方在 AI for Science 的合作也水到渠成。从 2022 年 3 月起,百度飞桨与英特尔结合各自实际,经过多次讨论交流,最终确定了任务方向与合作内容,共同开展 AI for Science 在分子动力学和生命科学领域的实质性工作,并取得了一系列成果,包括:百度飞桨实现了国内首个完成与传统分子动力学软件 LAMMPS 以及 AI 势函数训练软件 DeepMD-kit 融合工作的 AI 深度学习框架,并基于英特尔® oneAPI 实现了从训练到推理全流程打通的 “0 到 1” 式突破性进展;百度 Helix Fold 模型基于至强平台的 AVX-512、oneDNN 和大内存能力进行优化,不但实现了性能的显著提升,还可轻松预测推理长度超过 4000,即超长序列的蛋白质结构。
在这里插入图片描述

结语:AI for Science 的普惠之路,临界点已近

一个是在深度学习领域深耕多年,已成长为国内开源 AI 框架一哥的百度飞桨,一个是科学计算领域 Top 级玩家英特尔,双方正依托各自优势产品和对 AI 领域的持续布局,以灵活多样的 “组合拳” 不断拉低 AI for Science 的应用门槛,共同朝着 “让 AI 无处不在,更加普惠千行百业” 以及 “让合作贯穿产、学、研,助 AI for Science 打通理论、实验和产业应用道路“ 的目标持续推进。

站在这个关键的时间节点,我们再次回溯 AI 发展的七十余年,或能更清晰地看到,它在每一个发展阶段的爆发,都在历史长河中砸出了创新的波纹,这些波纹终于在今天叠加成推动产业变革的巨浪。正如今天的 AI for Science,就正在一浪又一浪地驱动着科研冲击范式革新的临界点,身处其中的每一个参与者,都在抑制不住地畅想这种冲击成功后将为人类未来开辟的可能性。

毕竟,这将是如核裂变链接反应或寒武纪生命大爆发一样的无穷种可能性。

这篇关于AI + Science :科学研究新范式的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/797328

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

AI基础 L9 Local Search II 局部搜索

Local Beam search 对于当前的所有k个状态,生成它们的所有可能后继状态。 检查生成的后继状态中是否有任何状态是解决方案。 如果所有后继状态都不是解决方案,则从所有后继状态中选择k个最佳状态。 当达到预设的迭代次数或满足某个终止条件时,算法停止。 — Choose k successors randomly, biased towards good ones — Close