NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

2023-11-01 11:11

本文主要是介绍NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

科学家们创建了一个能够从头合成人工酶的人工智能系统。实验测试发现,一些酶与自然界中发现的酶具有相同的功效,即使人工生成的氨基酸序列与任何已知的天然蛋白质明显不同。

实验表明,尽管自然语言处理是为了阅读和编写语言文本而开发的,但它也可以学习生物学的一些基本原理。Salesforce Research开发了名为ProGen的AI程序,该程序使用next-token预测将氨基酸序列组装成人工蛋白质。

450a7bf1f96544cc2bcf292707345e2c.png

科学家们表示,这项新技术可能会比获得诺贝尔奖的定向进化蛋白质设计技术更强大,它将通过促进新蛋白质的开发来为拥有50年历史的蛋白质工程领域注入活力,这些蛋白质将被广泛应用于医学治疗甚至塑料降解等领域。

“人工设计比受进化过程启发的设计具备更好的优势,”加州大学旧金山分校药学院生物工程和治疗科学的教授James Fraser博士说,他是这项工作的作者之一,该工作于2023年1月26日发表在《Nature Biotechnology》杂志。

“语言模型可学习进化的各个方面的知识,但它与正常的进化过程不同,”Fraser说。“我们现在有能力调整这些属性的生成以获得特定效果。例如,可以合成一种非常耐热或耐酸性环境或不与其他蛋白质相互作用的酶。

6719eba4b89c469d6d0c463afaa55913.png

为了创建该模型,科学家们需将28亿种不同蛋白质的氨基酸序列输入机器学习模型,花几周的时间学习蛋白质的相关信息。然后,他们通过用来自五个溶菌酶家族的56000条序列以及有关这些蛋白质的特征信息对模型进行微调。

该模型会迅速生成一百万条序列,研究小组根据这些序列与天然蛋白质序列的相似程度以及AI蛋白质的氨基酸“语法”和“语义”,选择100条序列进行测试。(注:这里的选择就有很大随机性了??)

利用Tierra Biosciences体外筛选的第一批100种蛋白质,研究小组合成了五种人工蛋白质并在细胞中进行试验,将其活性与鸡蛋蛋白中发现的母蛋清溶菌酶(HEWL)进行了比较。在人类的眼泪、唾液和牛奶中也发现了类似的溶菌酶,它们可以抵御细菌和真菌。

其中两种人工酶能够分解细菌的细胞壁,其活性与HEWL相当,但它们的序列仅有18%是相同的。这两个序列与任何已知蛋白质的相似度分别约为90%和70%。

天然蛋白质中存在一个突变即可使其失活,但在另一轮筛选中,研究小组发现,尽管仅有31.4%的序列与任何已知的天然蛋白质相同,AI生成的酶依然表现出活性。

1ad1c6ed61f6c02399c57fe56d9c9905.png

人工智能甚至能够通过研究原始序列数据来学习酶的晶体结构。用X射线晶体学测量发现,人造蛋白质的原子结构看起来就像它们本来的样子,尽管序列是以前从未见过的。

Salesforce Research 基于他们的研究人员最初开发的一种自然语言编程 于2020 年开发了英语版本的ProGen。

依据他们先前的工作经验,人工智能系统可以自学语法和单词的含义,以及其他润色写作的基本规则。

“当你用大量数据训练基于序列的模型时,它们在结构和规则学习方面非常强大,”Salesforce Research人工智能研究总监、该论文的资深作者Nikhil Naik博士说。“他们学会了哪些单词可以同时出现,并且符合语义。

对于蛋白质,设计方案几乎是无限的。溶菌酶和蛋白质一样小,最多约300个氨基酸。但是如果有 20 种可能的氨基酸,就会有有大量的 (20300) 可能的组合方式。这比把所有生活在古往今来的人类乘以地球上的沙粒数,再乘以宇宙中的原子数还要大。

鉴于无限的可能性,该模型可以如此容易地产生活性酶是非常了不起的。

“从头合成功能蛋白质的能力表明我们正在进入蛋白质设计的新时代,”Profluent Bio创始人,Salesforce Research前研究科学家,该论文的第一作者Ali Madani博士说。“这是蛋白质工程师可以使用的多功能新工具,我们期待看到它在治疗领域的应用。

AI模型详情参见: https://github.com/salesforce/progen

7d92cd5a837c1a144fc01031a0c622ae.png

深度学习语言模型在各种生物技术应用中表现出很大的潜力,包括蛋白质设计和工程领域。本文描述了一个语言模型ProGen,利用该模型可以生成蛋白质家族中具有可预测功能的蛋白质序列,类似于在不同主题上生成语法和语义正确的自然语言句子。该模型利用了超过19,000个家族的2.8亿个蛋白质序列进行训练,采用蛋白质特异性控制标签加强了模型的准确性。通过对ProGen的训练序列集和标签进行微调,可进一步改善具有充足同源样本家族蛋白质的可控生成性能。尽管微调后的人造蛋白质与天然蛋白质的序列相似性低至31.4%,但在五个不同的溶菌酶家族中均显示出类似于天然溶菌酶的催化效率。正如我们在分支酸变异酶(chorismate mutase)和苹果酸脱氢酶(malate dehydrogenase)中所演示的那样,ProGen可以轻松合成不同蛋白质家族中成员。

点击阅读原文

https://www.sciencedaily.com/releases/2023/01/230126124330.htm

查看原文信息

http://dx.doi.org/10.1038/s41587-022-01618-2

往期精品(点击图片直达文字对应教程)

c2facec3f4dfce2696b8c1358eb4d91c.jpeg

cef50ccaec24635d32e26d089546a143.jpeg

7b1e1538132c03cef2ffdb8f1f1a6d66.jpeg

fa12a9b85dbe1090fb5ab6fb7616d678.jpeg

b44037fa6c2f598149f5412796ab0555.jpeg

358e91cb5db2265fa4f48a70a796e85b.jpeg

c4609eca1c16587095fb391f88e8b5ba.jpeg

bdc5dce22d1f2ef1a9883c707f02deb8.jpeg

c3a8b2ff1bbad10b842966dff0a88eb7.jpeg

b4656db675ab04e714a2c0794667830a.jpeg

e503336bc773c8f1fe316ad0b42eaf8b.jpeg

3dc8b658893a183ae702ba32b9d2b764.jpeg

35b3c110c912bf56b823644d16765f7e.png

d796626c2c31222a477f1bbf4d2ca8d6.png

7e7c096cee5fb450e87de639bbb40375.png

c7c57bac2f61992093c1777893189dc8.png

d405fd4bdcd8a188d8f37649c2ee116f.jpeg

99b1b21263ab7d020e42b122b072b9a3.jpeg

aaf7777c2b90da3e3c8c6aea8f66db98.jpeg

9e386a5de596a5908477def43aae798e.jpeg

79d89edcb142ce12823450e3641cb30a.png

0b9d68121724313886f60c37495d3b87.png

2cb8a7572e54a2a3d1c37c8075f5fbb2.jpeg

e339c2041985cde10bd921e91e7fcbf6.png

1c27ec61833daa0059c3386ca5706c50.png

12fbb607553dba3935890d72f1e620af.jpeg

fc620b9631ae2b045c5be14bcc6444e0.png

ba168884d54a8e8b3b8a729f72f845ba.png

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

2a1a1d4b0239452263066cb076af3480.jpeg

c05b1f4ee51b62a4481c35d80895089d.jpeg

75b047a22bcc83b5fabcb360bad6d8a3.png

这篇关于NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/322546

相关文章

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Spring AI ectorStore的使用流程

《SpringAIectorStore的使用流程》SpringAI中的VectorStore是一种用于存储和检索高维向量数据的数据库或存储解决方案,它在AI应用中发挥着至关重要的作用,本文给大家介... 目录一、VectorStore的基本概念二、VectorStore的核心接口三、VectorStore的

Spring AI集成DeepSeek三步搞定Java智能应用的详细过程

《SpringAI集成DeepSeek三步搞定Java智能应用的详细过程》本文介绍了如何使用SpringAI集成DeepSeek,一个国内顶尖的多模态大模型,SpringAI提供了一套统一的接口,简... 目录DeepSeek 介绍Spring AI 是什么?Spring AI 的主要功能包括1、环境准备2

Spring AI集成DeepSeek实现流式输出的操作方法

《SpringAI集成DeepSeek实现流式输出的操作方法》本文介绍了如何在SpringBoot中使用Sse(Server-SentEvents)技术实现流式输出,后端使用SpringMVC中的S... 目录一、后端代码二、前端代码三、运行项目小天有话说题外话参考资料前面一篇文章我们实现了《Spring

Spring AI与DeepSeek实战一之快速打造智能对话应用

《SpringAI与DeepSeek实战一之快速打造智能对话应用》本文详细介绍了如何通过SpringAI框架集成DeepSeek大模型,实现普通对话和流式对话功能,步骤包括申请API-KEY、项目搭... 目录一、概述二、申请DeepSeek的API-KEY三、项目搭建3.1. 开发环境要求3.2. mav

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

SpringBoot整合DeepSeek实现AI对话功能

《SpringBoot整合DeepSeek实现AI对话功能》本文介绍了如何在SpringBoot项目中整合DeepSeekAPI和本地私有化部署DeepSeekR1模型,通过SpringAI框架简化了... 目录Spring AI版本依赖整合DeepSeek API key整合本地化部署的DeepSeek