西湖大学利用 Transformer 分析百亿多肽的自组装特性,破解自组装法则

本文主要是介绍西湖大学利用 Transformer 分析百亿多肽的自组装特性,破解自组装法则,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

多肽是两个以上氨基酸通过肽键组成的生物活性物质,可以通过折叠、螺旋形成更高级的蛋白质结构。多肽不仅与多个生理活动相关联,还可以自组装成纳米粒子,参与到生物检测、药物递送、组织工程中。

然而,多肽的序列组成过于多样,仅 10 个氨基酸就可以组成超过百亿种多肽。因此,人们很难对其自组装特性进行全面系统的研究,进而优化自组装多肽的设计。

为此,西湖大学的李文彬课题组利用基于 Transformer 的回归网络,对百亿种多肽的自组装特性进行了预测,并分析得到了不同位置氨基酸对自组装特性的影响,为自组装多肽的研究提供了强力的新工具。

作者 | 雪菜
编辑 | 三羊

多肽是两个以上氨基酸通过肽键组成的生物活性物质。多肽合成便利、可生物降解、生物相容性强,且具有丰富的化学多样性,可以组成具有荧光、半导体导电性或是磁性的纳米物质。正因为此,多肽得到了科研界的广泛关注。

然而,也正是因为多肽的多样性,人们暂缺乏预测其自组装倾向 (AP, Aggregation Propensity) 的方法,很难将其转变为有序结构。目前只有极少的多肽能够自组装,形成满足需求的超分子结构,并投入到工业应用中。

在这里插入图片描述

图 1:不同自组装探针对 hCA、抗生物素和胰蛋白酶的特异性荧光

过去数十年间,自组装多肽主要是通过生物实验发现的。然而,实验往往需要很长的周期,而且存在一定的倾向性,不利于对大量多肽进行全面的系统研究。

近年来,计算筛选 (Computational Screening) 被广泛用于自组装多肽的设计中。2015 年,Frederix 等人利用粗粒度分子动力学 (CGMD) 分析了三肽的 AP。然而,随着氨基酸数量的增加,多肽序列数量会指数级增长,使 CGMD 的成本大幅增加。

因此,有研究者结合 AI 和 CGMD ,以降低传统方法的分析成本。然而,AI-CGMD 需要大量的训练数据。据推测,十肽 (decapeptide) 的序列超过百亿种,需要 320 万个多肽序列数据。基于上述原因,目前尚无对 5 个以上氨基酸组成多肽 (pentapeptide) 的 AP 预测。

为解决这些问题,西湖大学的李文彬课题组利用基于 Transformer 的回归网络 (TRN),结合 CGMD,对百亿种多肽的自组装特性进行了预测,得到了五肽和十肽的 AP,并得到了不同位置的氨基酸对多肽 AP 的影响。这一成果已发表于「Advanced Science」。

在这里插入图片描述

相关成果已发表于「Advanced Science」

论文链接:

https://onlinelibrary.wiley.com/doi/full/10.1002/advs.202301544

实验过程

训练集:拉丁超立方采样

首先,利用拉丁超立方采样筛选出 8,000 个多肽序列。筛选出的多肽序列通过 CGMD 模型分析得到其 AP。

模型构建:编码与解码

研究人员基于 TRN 构建了 AP 预测模型。模型包括 Transformer 编码器和多层感知机 (MLP) 解码器。Transformer 编码器由输入嵌入层 (Input Embedding)、位置编码器 (Positional Encoding) 和编码块 (Encording Block) 组成。

输入嵌入层用于将多肽的组成单元(即氨基酸)映射到 512 维的连续空间中,位置编码器会输出氨基酸的位置信息。编码块包括自注意网络和前馈神经网络。

Transformer 编码器最终输出一个隐藏层表示的多肽序列。这一序列经过 MLP 降维 5 次后,被压缩为一维向量。MLP 解码器的最后一层会输出多肽的 AP。

在这里插入图片描述

图 2:TRN 模型的工作流

a:α-螺旋和 β-折叠的原子模型及 α-螺旋的 CG 模型;

b:通过 CGMD 输出训练数据的流程;

c:TRN 模型示意图。

实验结果

模型预测:提升 54.5%

研究人员对比了 TRN 模型和其他非深度学习模型(支持向量机 SVM、随机森林 RF、临近算法 NN、贝叶斯回归 BR 和线性回归 LR)的 AP 预测表现。

在仅有 8,000 个训练数据时,模型的决定系数 R2 就超过了 0.85,较 SVM 提升了 11.8%,较 RF 提升了 54.5%

在这里插入图片描述

图 3:TRN 模型和其他非深度学习模型的性能对比

随着训练数据的增加,TRN 模型的表现随着增加。 当训练数据达到 54,000 时,TRN 模型的平均绝对误差 (MAE) 为 0.05,R2 为 0.92。

在这里插入图片描述

图 4:训练数据对 TRN 模型性能的影响

上述结果说明,相比非深度学习模型,TRN 模型可以用较少的训练数据达到较高的预测率。同时,随着训练数据的增加,TRN 模型的表现随之提升。

亲水性:APHC 修正

据报道,除 AP 外,多肽的亲水性 (log P) 也会对多肽的自组装产生影响

当 AP 自低向高增长时,log P 的中位数随之降低,说明亲水性强的多肽聚集能力较差。然而,log P 位于 0.25-0.75 之间的多肽 AP 跨度很大,分布在 0-1 之间,说明二者的联系并不密切,还有其他因素会影响多肽的 AP。

在这里插入图片描述

图 5:AP 与 log P 的关系

a:320 万种五肽的 AP 与 log P 的相关性;

b:AP 在不同区间的分布;

c:log P 在不同 AP 区间的分布。

为找出 AP 和 log P 对多肽自组装的影响,研究人员利用 log P 对 AP 进行了修正,得到了 APHC。修正后的 APHC 能够分辨出多肽自组装和沉淀,筛选出可以形成水凝胶的多肽。

在这里插入图片描述

图 6:APHC 与 log P 的关系

a:320 万种五肽的 APHC 与 log P 的相关性;

b:APHC 在不同区间的分布;

c:log P 在不同 APHC 区间的分布。

自组装法则:不同位置的氨基酸影响

在分析了五肽中不同位置的 20 种氨基酸对 APHC 的影响后,研究人员总结得到了不同氨基酸及其分布对多肽自组装特性的影响,并将其分成了 5 组。

第一组氨基酸包括苯丙氨酸 (F)、酪氨酸 (Y) 和色氨酸 (W)。这组氨基酸中存在 π-π 堆叠且疏水性强,对多肽自组装贡献最大。其中 W 的疏水性最强,对 APHC 的影响最大,这与 WWWWW 的观察结果一致。

在这里插入图片描述

图 7:不同 AP 区间中,20 种氨基酸在不同位置的分布比例

F、Y、W 在 3-5 号位,尤其是 3 号位时,对多肽自组装贡献最强。可能是因为在 3 号位上,氨基酸的自由度较高,更易通过 π-π 作用驱动多肽自组装。

在这里插入图片描述

图 8:π-π 堆叠示意图

然而,这些芳香类氨基酸在 5 号位时,是强质子接受体,会与其他多肽相互作用,拉大苯环的距离,削弱分子内的 π-π 作用。

第二组氨基酸包括异亮氨酸 (I)、亮氨酸 (L)、缬氨酸 (V) 和半胱氨酸 ©由于这些氨基酸的侧链和水之间相互排除,疏水性强,对多肽自组装贡献较强。这组氨基酸常分布在多肽的两端,尤其是自组装多肽的 N 端。

在这里插入图片描述

图 9:氨基酸的疏水作用

第三组氨基酸包括组氨酸 (H)、丝氨酸 (S) 和苏氨酸 (T)。这组氨基酸有极化侧链,可以通过氢键提升多肽的自组装能力。然而,氢键的作用相比于 π-π 堆叠较弱,因此在高 APHC 的多肽中,第三组氨基酸含量较少。

T 和 S 倾向于占据多肽的两端,尤其是 N 端,这有利于氢键的形成。而 H 会远离多肽的两端。

在这里插入图片描述

图 10:极性侧链对多肽结构的影响

第四组氨基酸包括蛋氨酸 (M) 和脯氨酸 §M 和 P 在不同 APHC 的多肽中分布基本一致,仅对多肽的特定指标有微弱的影响。

第五组氨基酸不利于多肽的自组装,包括带负电的天冬氨酸 (D) 和谷氨酸 (E)、带正电的赖氨酸 (K) 和精氨酸 ®、强极性的天冬酰胺 (N) 和谷氨酰胺 (Q)、无侧链的丙氨酸 (A) 和甘氨酸 (G)。

然而,C 端的 D 和 E、N 端的 R 和 K 可以形成带双电荷的头基,通过异性电荷相互吸引、形成盐桥促进多肽的自组装。N 和 Q 由于极性太强,会促进多肽的溶解。而 A 和 G 缺乏明显的相互作用,不利于多肽自组装。

在这里插入图片描述

图 11:库仑作用对多肽结构的影响

实验验证:与 CGMD 和 TEM 结果基本一致

为确认 TRN 模型的预测结果,研究人员用 CGMD 对五种多肽的自组装特性进行了验证。CGMD 的计算结果与 TRN 模型的预测结果基本一致。

同时,NRMMR、DMGID、NRMMRDMGID 和 NRMMR + DMGID 的自组装特性还得到了实验的验证。透射电子显微镜 (TEM) 的结果与 CGMD 的结果基本一致。

在这里插入图片描述

图 12:CGMD (a) 和 TEM (b) 观察到的多肽自组装结果

上述结果说明,TRN 模型可以准确预测五肽、十肽和混合五肽的自组装特性,为自组装多肽的研究提供了强力的新工具。

自组装多肽:生物医药新方向

虽然人们对多肽的自组装特性研究还不够深入,但自组装多肽已经广泛用于组织工程、药物递送和生物传感当中。此外,细胞的收缩和舒张、内吞囊泡的移动、细菌和病毒的跨膜传输都离不开多肽的自组装,阿尔兹海默症、帕金森氏病和II型糖尿病等疾病也与蛋白质的错误折叠有关。

在这里插入图片描述

图 13:自组装多肽用于抗肿瘤药物的递送

随着 AI 的发展,科研人员对于大批量数据的处理能力不断增强。生物研究从传统的实验研究,走向计算研究,再走向 AI 研究的同时,研究的规模也从以往的几十上百种可能,逐渐迈向了百亿种。在 AI 的帮助下,人类正在推进生物研究的边界,相信未来人们能对生物有更精细更全面的研究,让 AI + 生物普惠大众。

参考链接:

https://pubs.rsc.org/en/content/articlelanding/2014/CS/C4CS00161C

这篇关于西湖大学利用 Transformer 分析百亿多肽的自组装特性,破解自组装法则的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/497662

相关文章

java8的新特性之一(Java Lambda表达式)

1:Java8的新特性 Lambda 表达式: 允许以更简洁的方式表示匿名函数(或称为闭包)。可以将Lambda表达式作为参数传递给方法或赋值给函数式接口类型的变量。 Stream API: 提供了一种处理集合数据的流式处理方式,支持函数式编程风格。 允许以声明性方式处理数据集合(如List、Set等)。提供了一系列操作,如map、filter、reduce等,以支持复杂的查询和转

大学湖北中医药大学法医学试题及答案,分享几个实用搜题和学习工具 #微信#学习方法#职场发展

今天分享拥有拍照搜题、文字搜题、语音搜题、多重搜题等搜题模式,可以快速查找问题解析,加深对题目答案的理解。 1.快练题 这是一个网站 找题的网站海量题库,在线搜题,快速刷题~为您提供百万优质题库,直接搜索题库名称,支持多种刷题模式:顺序练习、语音听题、本地搜题、顺序阅读、模拟考试、组卷考试、赶快下载吧! 2.彩虹搜题 这是个老公众号了 支持手写输入,截图搜题,详细步骤,解题必备

[职场] 公务员的利弊分析 #知识分享#经验分享#其他

公务员的利弊分析     公务员作为一种稳定的职业选择,一直备受人们的关注。然而,就像任何其他职业一样,公务员职位也有其利与弊。本文将对公务员的利弊进行分析,帮助读者更好地了解这一职业的特点。 利: 1. 稳定的职业:公务员职位通常具有较高的稳定性,一旦进入公务员队伍,往往可以享受到稳定的工作环境和薪资待遇。这对于那些追求稳定的人来说,是一个很大的优势。 2. 薪资福利优厚:公务员的薪资和

高度内卷下,企业如何通过VOC(客户之声)做好竞争分析?

VOC,即客户之声,是一种通过收集和分析客户反馈、需求和期望,来洞察市场趋势和竞争对手动态的方法。在高度内卷的市场环境下,VOC不仅能够帮助企业了解客户的真实需求,还能为企业提供宝贵的竞争情报,助力企业在竞争中占据有利地位。 那么,企业该如何通过VOC(客户之声)做好竞争分析呢?深圳天行健企业管理咨询公司解析如下: 首先,要建立完善的VOC收集机制。这包括通过线上渠道(如社交媒体、官网留言

打包体积分析和优化

webpack分析工具:webpack-bundle-analyzer 1. 通过<script src="./vue.js"></script>方式引入vue、vuex、vue-router等包(CDN) // webpack.config.jsif(process.env.NODE_ENV==='production') {module.exports = {devtool: 'none

Java中的大数据处理与分析架构

Java中的大数据处理与分析架构 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们来讨论Java中的大数据处理与分析架构。随着大数据时代的到来,海量数据的存储、处理和分析变得至关重要。Java作为一门广泛使用的编程语言,在大数据领域有着广泛的应用。本文将介绍Java在大数据处理和分析中的关键技术和架构设计。 大数据处理与

段,页,段页,三种内存(RAM)管理机制分析

段,页,段页         是为实现虚拟内存而产生的技术。直接使用物理内存弊端:地址空间不隔离,内存使用效率低。 段 段:就是按照二进制文件的格式,在内存给进程分段(包括堆栈、数据段、代码段)。通过段寄存器中的段表来进行虚拟地址和物理地址的转换。 段实现的虚拟地址 = 段号+offset 物理地址:被分为很多个有编号的段,每个进程的虚拟地址都有段号,这样可以实现虚实地址之间的转换。其实所谓的地

mediasoup 源码分析 (八)分析PlainTransport

mediasoup 源码分析 (六)分析PlainTransport 一、接收裸RTP流二、mediasoup 中udp建立过程 tips 一、接收裸RTP流 PlainTransport 可以接收裸RTP流,也可以接收AES加密的RTP流。源码中提供了一个通过ffmpeg发送裸RTP流到mediasoup的脚本,具体地址为:mediasoup-demo/broadcaste

国产数据库 - 内核特性 - CloudberryDB中的Runtime Filter

国产数据库 - 内核特性 - CloudberryDB中的Runtime Filter 今年5月份GreenPlum官方将GitHub仓库代码全部删除,各个分支的issues和bugs讨论等信息全部清除,仅将master分支代码进行归档。对于国内应用GPDB的用户来说,这是一个挑战性事件,对与后期维护、升级等都变得非常困难。有幸HashData开源了基于GP衍生版本CloudberryDB版本,

Java并发编程—阻塞队列源码分析

在前面几篇文章中,我们讨论了同步容器(Hashtable、Vector),也讨论了并发容器(ConcurrentHashMap、CopyOnWriteArrayList),这些工具都为我们编写多线程程序提供了很大的方便。今天我们来讨论另外一类容器:阻塞队列。   在前面我们接触的队列都是非阻塞队列,比如PriorityQueue、LinkedList(LinkedList是双向链表,它实现了D