AlphaFold最新发布:生物大分子复合物结构预测问题将被解决?

本文主要是介绍AlphaFold最新发布:生物大分子复合物结构预测问题将被解决?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

谷歌DeepMind团队近几年在生命科学领域不断创造新的奇迹。该团队创造这些奇迹的最主要利器就是人工智能和深度学习。这可能要从他们在围棋领域的开创性工作说起。

2016年1月,DeepMind团队在国际著名杂志《Nature》发表了基于人工智能的围棋新算法(AlphaGO)。同年3月,AlphaGO 以4:1的比分,完美击败韩国职业九段棋手李世石,从此掀开了围棋历史的新篇章,彻底改变围棋训练和竞赛的模式。

随后,DeepMind转战生物科学领域。2018年,DeepMind利用卷积神经网络技术,训练出第一代AlphaFold(俗称 AlphaFold1)。AlphaFold1于2018年5月参加第13届国际蛋白质结构预测(CASP)大赛,并且取得不俗战绩。此时的AlphaFold虽然超出了人们的预期,但是与其他顶级研究团队(包括密歇根大学张阳教授团队)相比,并没有明显的优势。在不同的评价指标和范畴下(比如基于模板的TBM蛋白组),张阳团队甚至超过AlphaFold1的成绩 (Groups Analysis: zscores - CASP13)。AlphaFold1论文于2020年1月在《Nature》上发表。

2020年,DeepMind发布第二代AlphaFold(也称AlphaFold2),并参加2020年的第14届CASP大赛。AlphaFold2引进新的Transformer网络,实现端到端的机器模型训练。在CASP14上,AlphaFold2在所有的结构模型范畴,甚至是在几乎所有的单个蛋白目标,都大大超过其他参赛团队。这也是DeepMind在生命科学领域,第一次惊艳所有科学家的眼睛,真正的显示了人工智能在解决复杂生命科学上的巨大威力。尽管如此,此时的AlphaFold仅限于蛋白质单链的结构预测,对更加复杂、也更加重要的生物大分子复合物的结构预测尚未涉足。AlphaFold2论文于2021年7月发表在《Nature》期刊上。

2021年10月,DeepMind团队将AlphaFold2进一步推广到AlphaFold-Multimer,对蛋白质-蛋白质复合物的结构进行预测。尽管突破了该领域的传统,但是AlphaFold-Multimer在复合物的精度只达到了23%(即可以对23%的复合物产生高精度预测结构,改进后版本达到36%),比它在单链蛋白质上所创造的2/3左右的高精度蛋白预测成功率仍然逊色不少。显示出,蛋白质复合物的结构在当时仍然是一个远没有被解决的问题。AlphaFold-Multimer于同期发布在bioRxiv预印本网站上。

2023 年 10 月 31 日,DeepMind研究团队分享了最新一代 AlphaFold 的最新进展(论文称之为AlphaFold-last。我们在此称其为AlphaFold3,因为AlphaFold将来可能会继续更新)。其最新的模型现在可以对蛋白质数据库 (PDB) 中的几乎所有分子类型进行预测,通常达到原子精度。新版模型极大地扩展了应用范围,能够预测包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物的联合结构。这些不同的结构类型和复合物对于理解细胞内的生物机制至关重要。

AlphaFold3论文目前在Googleapis.com网站以博客形式发表。该论文并没有提供关于算法原理以及代码的任何细节。本文主要是来介绍一下AlphaFold3的模型预测精度的结果,让我们能够感知人工智能和生命科学最前沿的进展。

超越单链蛋白质折叠

AlphaFold2 是单链蛋白预测的根本性突破。AlphaFold-Multimer 随后扩展到具有多个蛋白质链的复合物,随后是AlphaFold2.3,它提高了性能并将覆盖范围扩大到更大的复合物。

2022 年,AlphaFold 与 EMBL 的欧洲生物信息学研究所(EMBL-EBI)合作,通过 AlphaFold 蛋白质结构数据库免费提供了几乎所有科学界已知的已编目蛋白质的结构预测。

迄今为止,已有 190 多个国家的 140 万用户访问了 AlphaFold 数据库,世界各地的科学家已经使用 AlphaFold 的预测来帮助推进各种研究,从加速新的疟疾疫苗和推进癌症药物的发现,到开发用于解决污染的塑料食用酶。

在这里,研究人员展示了 AlphaFold-latest 在预测蛋白质折叠之外的精确结构方面的卓越能力,可以在配体、蛋白质、核酸和翻译后修饰之间产生高精度的结构预测。

图1:AlphaFold 最新功能和性能;蛋白质-配体复合物 (a)、蛋白质 (b)、核酸 (c) 和共价修饰 (d) 的性能。

AlphaFold3 将生物组装的描述作为输入,其中包含聚合物序列和配体 SMILES,以及可选的共价键合配体的序列位置,并输出每个重原子 3D 位置的预测。水和氢被排除在外。用于训练模型的所有实验结构均来自 PDB,发布日期截至 2021 年 9 月 30 日。模板仅过滤为 2021 年 9 月 30 日之前发布的模板。

输入被「标记化」以获得模型输入,每个标准聚合物残基有一个标记,配体和非标准聚合物残基的每个重原子有一个标记。Token 的数量是不同硬件上计算时间和预测大小限制的主要驱动因素。为了便于计算,该团队在最多 5,120 个 token 的复合体上评估系统性能,但系统能够在具有大量内存的加速器上运行更大的复合体。

每个输出结构都带有每个原子、每个 token 对和聚合结构级置信度度量。此外,结构内的每个实体以及结构内实体之间的每个接口都具有关联的置信度度量。

研究人员主要展示了四个类别的性能:

  1. 尽管基线使用真实结合蛋白质结构作为输入,但 AlphaFold3 在 PoseBusters 配体对接基准上优于 AutoDock Vina 等经典系统,而 AlphaFold-latest 仅从蛋白质序列和配体身份开始。
  2. 它在蛋白质-蛋白质结构预测方面改进了 AlphaFold 2.3,特别是在某些类别(例如抗体结合结构)中。
  3. 在蛋白质-核酸界面上,AlphaFold-latest 优于竞争系统,而对于 RNA 结构预测,它优于自动化方法,但略低于使用手动专家干预的顶级 CASP15 参赛者 (AIchemy_RNA2)。
  4. AlphaFold3 能够预测其他实体的结构,如键合配体、糖基化和修饰的残基或核苷酸。

图 2: AlphaFold3在不同的分子类型中结构预测的例子显示。 预测的蛋白质链以蓝色显示(预测的抗体以绿色显示),预测的配体和聚糖以橙色显示,预测的 DNA 以粉色显示,预测的 RNA 以紫色显示,真实实验结构以灰色显示。

高精度结构预测加速药物发现

早期研究表明,AlphaFold3模型在一些与药物发现相关的蛋白质结构预测问题(如抗体结合)上大大优于AlphaFold2.3。此外,准确预测蛋白质配体结构是一种非常有价值的药物发现工具,因为它可以帮助科学家识别和设计可能成为药物的新分子。

目前的行业标准是使用「对接方法」(Docking)来确定配体和蛋白质之间的相互作用。这些对接方法需要一个严格的参考蛋白结构和配体结合的建议位置。

AlphaFold3通过优于报道的最佳对接方法,为蛋白质-配体结构预测设定了新的标准,而不需要参考蛋白质结构或配体口袋的位置-允许预测以前未被结构表征的全新蛋白质。

它还可以联合模拟所有原子的位置,使其能够代表蛋白质和核酸与其他分子相互作用时的全部固有灵活性-这是使用对接方法无法实现的。

例如,图3显示了AlphaFold3对最近发布的三个与治疗相关的蛋白质的结构预测结果。其中,AlphaFold3预测的结构(以彩色表示)与实验确定的结构(用灰色表示)非常吻合:

  1. PORCN::一种临床阶段的抗癌分子,与另一种蛋白质结合在一起。
  2. KRAS:具有重要癌症靶点共价配体(一种分子胶)的三元配合物。
  3. PI5P4Kγ:脂质激酶的选择性变构抑制剂,与多种疾病相关,包括癌症和免疫疾病。

图3:案例研究展示了 AlphaFold-latest 在治疗相关结构上的性能;PORCN (a)、KRAS (d) 和 PI5P4Kγ (e)。

该论文的共同作者之一,Isomorphic Lab, 正在将新一代 AlphaFold 模型应用于治疗药物设计,帮助快速准确地表征许多类型的大分子结构,这些大分子结构对治疗疾病很重要。

促进对生物学的新认识

通过解锁蛋白质和配体结构以及核酸和含有翻译后修饰的结构的建模,AlphaFold3 为检查基础生物学提供了更快速和准确的工具。

其中一个例子涉及到 CasLambda 与 crRNA 和 DNA 结合的结构,这是 CRISPR 家族的一部分。CasLambda 具有 CRISPR-Cas9 系统的基因组编辑能力,通常被称为「基因剪刀」,研究人员可以用它来改变动物、植物和微生物的DNA。CasLambda 更小的体积可以更有效地用于基因组编辑。

图4:与 crRNA 和 DNA(CRISPR 子系统的一部分)结合的 CasLambda (Cas12l) 的预测结构。

AlphaFold 的最新版本能够模拟如此复杂的系统,这表明人工智能可以帮助我们更好地理解这些类型的机制,并加速它们在治疗应用中的应用。

小结

AlphaFold3 在结构预测精度和预测范围上的巨大飞跃表明,人工智能有潜力极大地增强对构成人体的分子机器的科学理解——以及更广阔的自然世界。

虽然该研究仍在积极开发中,但谷歌 DeepMind 和 Isomorphic Labs 的研究人员相信,一般生物分子的计算结构预测可以通过 AlphaFold 等机器学习模型来实现,并为理解生物学开辟了许多令人兴奋的未来研究途径。

正如DeepMind团队在博客中所说的那样,“谷歌新一代 AlphaFold 模型为科学领域带来了无限的潜力,将在更广泛的自然界中提供更深刻的科学认识。这一巨大的进步预示着 AI 在生命科学中的前景广阔,为未来的科学探索提供了强大的支持。”

参考文献

Google DeepMind AlphaFold Team and Isomorphic Labs Team. "Performance and structural coverage of the latest, in-development AlphaFold model". Oct 31, 2023. 

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/a-glimpse-of-the-next-generation-of-alphafold/alphafold_latest_oct2023.pdf

这篇关于AlphaFold最新发布:生物大分子复合物结构预测问题将被解决?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/356412

相关文章

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

如何解决线上平台抽佣高 线下门店客流少的痛点!

目前,许多传统零售店铺正遭遇客源下降的难题。尽管广告推广能带来一定的客流,但其费用昂贵。鉴于此,众多零售商纷纷选择加入像美团、饿了么和抖音这样的大型在线平台,但这些平台的高佣金率导致了利润的大幅缩水。在这样的市场环境下,商家之间的合作网络逐渐成为一种有效的解决方案,通过资源和客户基础的共享,实现共同的利益增长。 以最近在上海兴起的一个跨行业合作平台为例,该平台融合了环保消费积分系统,在短

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨削加工的精度。 转速范围 宽广的转速范围意味着平衡机能够处理更多种类的磨轮,适应不同的工作条件和规格要求。 振动监测能力 振动监测能力是评估平衡机性能的重要因素。通过传感器实时监

缓存雪崩问题

缓存雪崩是缓存中大量key失效后当高并发到来时导致大量请求到数据库,瞬间耗尽数据库资源,导致数据库无法使用。 解决方案: 1、使用锁进行控制 2、对同一类型信息的key设置不同的过期时间 3、缓存预热 1. 什么是缓存雪崩 缓存雪崩是指在短时间内,大量缓存数据同时失效,导致所有请求直接涌向数据库,瞬间增加数据库的负载压力,可能导致数据库性能下降甚至崩溃。这种情况往往发生在缓存中大量 k

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

6.1.数据结构-c/c++堆详解下篇(堆排序,TopK问题)

上篇:6.1.数据结构-c/c++模拟实现堆上篇(向下,上调整算法,建堆,增删数据)-CSDN博客 本章重点 1.使用堆来完成堆排序 2.使用堆解决TopK问题 目录 一.堆排序 1.1 思路 1.2 代码 1.3 简单测试 二.TopK问题 2.1 思路(求最小): 2.2 C语言代码(手写堆) 2.3 C++代码(使用优先级队列 priority_queue)