超全拆解AlphaFold 3,上海交大钟博子韬:极致利用数据,以原子精度预测所有生物分子结构,但并不完美

本文主要是介绍超全拆解AlphaFold 3,上海交大钟博子韬:极致利用数据,以原子精度预测所有生物分子结构,但并不完美,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

能够以「原子精度」预测出所有生物分子结构和相互作用的 AlphaFold 3,一经面世便引起了业界的广泛讨论。8 月 13 日,在上海交通大学 AI for Bioengineering 暑期学校活动中,钟博子韬博士以「AlphaFold 3:原理,应用与展望」为题,系统性地梳理了他的学习心得,并广泛整理了来自科研界的众多相关研究成果,向大家分享了他对于 AlphaFold 3 的深刻洞察, HyperAI超神经在不违原意的前提下,整理了演讲的核心内容,以下为演讲实录。

在这里插入图片描述

钟博子韬博士分享现场

聚焦蛋白质结构预测,今天我们来谈谈 AlphaFold 3,作为当前顶尖的蛋白质、乃至更广泛的生物分子结构预测工具,AlphaFold 3 的地位已不言而喻。

蛋白质合成始于 DNA 转录,后将遗传信息传递给 RNA,再翻译成蛋白质,进一步折叠成二级结构、三级结构、四级结构。大多数蛋白质会折叠成独特的构象,而结构所需的信息都编码在氨基酸序列中,也就是我们常说的:序列决定结构,结构决定功能,蛋白质结构预测对于了解生物功能至关重要。

AlphaFold 3 突破:革新模型架构,提高数据利用率

对比 AlphaFold 3 与 AlphaFold 2 模型架构

过去,AlphaFold 2 在蛋白质结构预测方面直接「血虐」其他算法。 其核心架构可归结为 3 个关键部分,如下图所示:第一部分,蓝色框内的 MSA & Template 模块,其功能在于搜集并整合多序列比对 (MSA) 及模版结构信息作为模型的输入数据。第二部分,绿色框内的 Evoformer 模块,其功能在于理解多序列组织中的共进化信息,通过提炼并处理收集到的信息,将其传递给第三部分紫色框内的 Structure Module 模块。

在这里插入图片描述

以深度学习视角来看,Evoformer 扮演了编码器的角色,而 Structure Module 则相当于解码器,从这方面来说,AlphaFold 2 之所以备受赞誉,很大程度上归功于其端到端的优化能力,即直接从序列输入映射到结构输出。

外界普遍认为 AlphaFold 3 的模型架构变化并没有想象中那么大,其模型框架也是由 3 个关键部分组成,每部分和 AlphaFold 2 的对比如下:

第一部分:保持高度相似

如下图所示,比较 AlphaFold 3 和 AlphaFold 2 的架构图可得,AlphaFold 3 的第一部分(蓝色框内)依然包括 MSA & Template,并额外引入了Conformer generation(构象生成)环节。

在这里插入图片描述

第二部分:减少对 MSA 序列的依赖

AlphaFold 3 第二部分(绿色框内)命名为 Pairformer,其结构实质上与 Evoformer 高度相似,但 MSA Module 数量减少到 4 个。如下图所示,绿色箭头是两个模块相同的内容,黄色箭头标代表有区别,可以看到,AlphaFold 3 更重视目标蛋白质序列,而减少对 MSA 序列的依赖。

在这里插入图片描述

进一步地,我们认为,AlphaFold 3 之所以能在多项任务中表现出强大性能,可能就是因为它降低了对多序列比对 (MSA) 的依赖。 如下图所示,右侧展示了 MSA 对 AlphaFold 2 性能的影响:随着 MSA 数量的增加,当超过某一阈值(粉色线)后,AlphaFold 2 性能的提升趋于平缓。据下图中间部分可得,与 AlphaFold 2 相比,MSA 对 AlphaFold 3 的影响减弱(曲线浮动幅度很小)。

在这里插入图片描述

另外,抗体的成熟经常需要通过体内超突变的过程, MSA 信息对其结构预测的帮助较为有限,蛋白质及其复合物也很难找到成对的 MSA 信息,从这一点来看,AlphaFold 3 应用范围的拓展或许就是其对 MSA 的依赖性减弱。

第三部分:全原子结构生成+去除立体旋转不变性

AlphaFold 3 第三部分(紫色框内)采用 Diffusion model(扩散模型),它也属于结构模块范畴,区别在于,Diffusion model 将 Structure Module 中的重复迭代优化替换为一种称为扩散模型的新机制。

*Diffusion model:给模型加噪(前向),让模型去噪(反向),学习反向过程,生成类似的数据分布。

如下图所示,在第三部分,AlphaFold 3 实现了全原子级别的结构生成。原子作为分子的基本组成单元,可能含有更丰富的物理信息,这意味着 AlphaFold 3 在预测蛋白质结构时,或许会捕捉更深层次的物理规律。此外,AlphaFold 3 放弃了AlphaFold 2 中强调的立体旋转不变性,删除 AlphaFold 2 中该特性的额外架构后,研究人员发现,模型 (Diffusion Module) 的设计变得更加自由。

在这里插入图片描述

AlphaFold 3 提高对数据的利用率

蛋白质数据资源有限,但 AlphaFold 3 不仅数据集变大,还提高了数据利用率。 具体而言,相比于 AlphaFold 2 的百万级数据集,AlphaFold 3 直接逼近亿级,训练集增大。此外,其训练集除了包含 PDB 中的数据外,还融入了大量其他数据,比如,选取 AlphaFold 2 预测较准的结构数据作为训练集的扩充。具体训练集如下图所示:

在这里插入图片描述

AlphaFold 3 在应用范围上实现高度飞跃

AlphaFold 3 的最大改变是它在应用范围上实现了质的飞跃。 过去,AlphaFold 2 更多的是预测氨基酸结构,而 AlphaFold 3 能直接预测原子级结构,其功能拓展具体体现在以下 4 个方面:

  • 能够准确预测配体 (Ligand),即预测小分子在蛋白质中的结合位点;

  • 能够预测蛋白质复合物 (Protein complex) 结构;

  • 能预测蛋白质及核酸上的翻译后修饰 (Post-translational modification) 结构;

  • 能够预测 DNA 和 RNA 的结构,以及 DNA/RNA 和蛋白质的复合物结构。

AlphaFold 3 改变 Ligand Docking 领域

其中,AlphaFold 3 对科学领域影响最大的是对 Ligand Docking(即配体对接)任务的改善。 如下图所示,在基准测试 PostBusters Benchmark 下评估不同深度学习算法在 4 个不同 Ligand Docking 任务下的成功率,可以得到,AlphaFold 3 在未知口袋和结构先验知识的前提下,能够达到最高的成功率,即 76.4%。

在这里插入图片描述

PostBusters Benchmark 选择 428 个来自于 2021 年之后的 PDB 数据

任务成功的标准:预测的小分子对接位置与真实对接位置之间的偏差小于 2Å

如上图所示,在第一类 Blind docking 任务中,未知口袋位置、已知蛋白质结构 (No pocket, Holo structure),DiffDock 能达到最高的成功率 37.9%。

在第二类 Co-folding 任务中(小分子和蛋白质结构都折叠),未知口袋位置、未知蛋白质结构 (No pocket, No structure),AlphaFold 2+DiffDock 结合预测的成功率降到了 18%,另外,AlphaFold 3 达到了最高的 76.4% 成功率,这说明,AlphaFold 3 不仅预测准确,还无需依赖口袋和结构的先验知识。

在第三类 Traditional docking 任务中,已知小分子的口袋位置、已知蛋白质结构 (With pocket, Holo structure),即口袋处于暴露状态,Gold 达到 51.2% 的成功率,Vina 表现出 52.3% 的成功率,Glide 则提升至 55%,其他深度学习算法也能达到相对较好的水平,说明成功率受到口袋的影响。

在第四类 Guided co-folding 任务中,已知口袋位置、未知蛋白质结构 (With pocket, No structure),模型的成功率都显著提升,AlphaFold 3 从 76.4% 提升到 90.2%,说明已知口袋信息可以提高任务成功率。但是,由于目前口袋的定义存在一些争议,所以想要知道 AlphaFold 3 对 Ligand docking 任务的具体改善,可以只考虑第二类任务下的成功率,该结果相对来说更稳定。

如下图所示,不同模型的口袋定义存在显著差异。Gold 的口袋是一个 25Å 的球体(图左上方蓝色部分),而 Vina 模型则采用 25Å 的正方体作为口袋表示,DeepDock 口袋尺寸为 10Å,Uni-Mol 口袋尺寸为 8Å。

在这里插入图片描述

如上图右侧所示,当 Gold 模型的口袋大小从 25Å 逐步缩小 6Å 时,其 PoseBusters 基准测试成功率相对稳定,这得益于 Gold 基于物理算法的特性。相反,深度学习算法 Uni-Mol 逐步缩小口袋至 6Å,成功率升高至 68%,25Å 下则降为零,体现了一部分深度学习对接算法对于口袋的依赖性。

同样地,前面说到,AlphaFold 3 在引入口袋信息后,对接成功率显著提升,从 76.4% 提升至 90.2%,综上,口袋信息对于提高模型预测成功率有关键作用。但理想情况下,无需口袋或结构信息即可达到高准确性的模型是我们的最优选择,比如 AlphaFold 3。

AlphaFold 3 实现抗体、抗原结构预测

AlphaFold 3 的另外一个应用就是抗体、抗原的结构预测。下图左侧是 AlphaFold 3 对于抗体、抗原结构预测的性能评估。在较低评估标准下 (DockQ>0.23),只运行 1 次,AlphaFold 3 的成功率低于 40%(浅蓝色线),但经过 1,000 次尝试后,预测成功率能提升至 60%。

在这里插入图片描述

  • 左图:抗体结构预测,每个数据点表示在 1,200 个种子中随机抽取 1,000 个种子的的平均得分

  • 右图:当评估指标 DockQ 大于 0.23 时,可视为结构准确性尚待验证;当 DockQ 超过 0.8 时,结构预测高度精确

进一步地,若以更为严格的标准衡量 (DockQ>0.8),单次运行的成功率可能低至 10%,通过增加运行次数至 1,000 次,成功率可提升至 30%。这表明,我们可以通过增加 AlphaFold 3 运行次数 (seeds per target),来提升抗体抗原结构预测成功率。

然而,如上图右侧表示,AlphaFold 3 仅在预测复合物 protein-protein 的结构时,能够通过增加运行次数提升成功率,这说明,对于其他类型的复合物结构预测,AlphaFold 3 的适用性也需进一步优化。

AlphaFold 3 实现共价修饰预测

如下图所示,在修饰预测方面,AlphaFold 3 同样展现出了出色的结构预测能力, 成功率可达到约 80%、60%、40% 的水平。对于从事 Covalent Modifications(共价修饰)的研究人员而言,AlphaFold 3 无疑是一个强有力的工具。

在这里插入图片描述

AlphaFold 3 在 RNA 结构预测的局限

目前,RNA 结构预测仍然很难, 如下图所示,与 RoseTTAFoId2NA 模型相比,AlphaFold 3 预测性能有了较高提升。但在预测 CASP15 RNA 结构时,AlphaFold 3 的准确率低于 Alchemy_RNA2 (has human input) 模型。

在这里插入图片描述

对比 AlphaFold 3 在不同任务上的优劣

通过分析 AlphaFold 3 的训练曲线,可以明确模型在不同任务上的表现优劣,LDDT 指标越高越好。 如下图所示,模型在预测 intra ligand(配体内部)结构时表现最佳;在预测 intra protein(蛋白质内部)时也展现出较高的准确性;对于 intra dna(DNA 内部)预测,模型同样表现良好,这得益于 DNA 稳定的双螺旋结构;相比之下,模型在 intra rna(RNA 内部)上的表现较差。

在这里插入图片描述

转向复合物预测领域,模型在 protein-ligand 复合物结构预测上表现最优,其次是 protein-protein 复合物预测,在 protein-dna 复合物预测上,模型表现有所下滑,protein-rna 复合物预测表现最差。该结果也反映了 RNA 结构预测的难度,RNA 结构数据稀缺,结构动态、灵活,是当前结构生物学领域中面临的难题之一。

此外,研究人员在使用 AlphaFold 3 进行结构预测时,还可以通过 PAE 表来评估预测结果的可靠性。

在这里插入图片描述

AlphaFold 3 并不完美

AlphaFold 3 并不完美,比如,它会找错手性, 运行过程中如果出现异常情况,建议多次运行以验证结果的稳定性。其次,AlphaFold 3 在蛋白质 Dynamic 预测上也存在局限,这可能是因为结构数据匮乏,无法掌握蛋白质的多维构象信息。
*如果某物体与其镜像不同,则其被称为「手性的」,其镜像不能与原物体重合,就如同左手和右手互为镜像而无法叠合

另外,AlphaFold 3 还有一个生成模型普遍存在的问题,即幻觉 (Hallucination)。 如下图的蛋白质结构预测结果,左侧的蛋白质结构仅灰色区域可解析,其余部分因电子密度不足,可能处于未折叠状态。中间的图是 AlphaFold 2 预测该蛋白质的结果,蓝色区域被认为是折叠状态,其他「彩带」部分被认为未折叠,预测的结构相对合理。右侧是 AlphaFold 3 的预测结果,它倾向于将所有可能折叠的区域均进行折叠处理,该结构看似合理,但从实际情况出发,上述大部分区域其实并未折叠。因此,AlphaFold 3 的幻觉倾向于将蛋白质预测为折叠状态,而非保留其可能存在的未折叠状态。

在这里插入图片描述

为应对 AlphaFold 3 的幻觉问题, 研究人员选择了一个直接而有效的方法:既然 AlphaFold 2 预测的结果相对合理,那就将 AlphaFold 2 预测的结果纳入 AlphaFold 3 的训练数据集中,以增强模型的训练效果。然而,该方法存在一个局限:若 AlphaFold 2 的预测本身存在错误,则可能影响到 AlphaFold 3 的预测质量,除非能引入其他的数据源来进一步优化模型。

另外,将 256x OLA 作为输入提交给 AlphaFold 3 时,如下图所示,其预测结果呈现出了一个类似双分子层的结构形态,该结构并非预期或典型形态。

在这里插入图片描述

此外,AlphaFold 3 预测 RNA 与 DNA 的结构也并不精确, 如下图所示,预测 RNA 结构时甚至还出现了匪夷所思的互补配对,如 G:G、G:A 等。

在这里插入图片描述

AlphaFold 3 的使用限制

在满足数据非高度保密性的前提下,大家可以通过谷歌提供的网站访问 AlphaFold 3。但该平台也存在一些使用限制,如下图所示,在蛋白质修饰方面,AlphaFold 3 目前仅支持特定 3 个位置上的有限种类修饰,共计 23 种,DNA 修饰仅支持 9 种,RNA 修饰仅支持 15 种,金属离子仅支持 10 种不同金属,而配体仅限于 14 种小分子。

在这里插入图片描述

因此,在上述特定限制的情况下,AlphaFold 3 可能无法处理大多数研究和反应,或许还要等待其真正开源后才能实现。

综上所述,AlphaFold 3 在扩展其预测范围方面取得了显著成就,超越了现有的 AI 模型,但它在特定任务上的表现仍有待提升,尤其是在精细结构预测方面。因此,尽管 AlphaFold 3 已取得重大进展,但完全解决某些复杂问题仍需持续的研究与努力。

关于钟博子韬

在这里插入图片描述

钟博子韬现为上海交通大学人工智能方向博士生,主要研究方向包括高通量蛋白质结构和功能预测,蛋白质构象生成等。2019 年至今发表 20 余篇论文,在 Nature Communications 上发表了高通量 AlphaFold 结构预测解析深海蛋白质组与代谢通路关联的成果,曾 3 度获得国际遗传工程机器大赛 (iGEM) 金奖,并多次出任该竞赛评委。

Google Scholar:
https://scholar.google.com/cita

这篇关于超全拆解AlphaFold 3,上海交大钟博子韬:极致利用数据,以原子精度预测所有生物分子结构,但并不完美的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1130545

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者