ICLR 2024 | MolGen: 化学反馈引导的预训练分子生成

2024-02-03 20:44

本文主要是介绍ICLR 2024 | MolGen: 化学反馈引导的预训练分子生成,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

MolGen: 化学反馈引导的预训练分子生成

英文题目:Domain-Agnostic Molecular Generation with Chemical Feedback

发表会议:ICLR 2024

论文链接:https://arxiv.org/abs/2301.11259

代码链接:https://github.com/zjunlp/MolGen

目录

引言

MolGen的训练框架

实验分析

总结


引言

药物发现的核心环节之一是合成和设计具有理想化学特性的分子。随着语言模型展现出在解析复杂分子分布方面的潜力,研究人员开始尝试将分子的SMILES描述符与预训练语言模型相结合。然而,SMILES描述符的语法特质并不总能保障所生成化学结构的有效性,经常导致生成化学上无意义的字符串。除此之外,虽然分子语言模型在预训练过程中学习了大量的分子结构信息,它们仍难以准确捕捉到现实世界中化学与生物特性的复杂关系。这使得它们常常陷入“分子幻觉”,生成在结构上看似正确,但缺乏理想化学属性的分子。 为了应对上述挑战,本文提出了新的分子生成框架MolGen。MolGen通过双阶段预训练深入学习分子的结构与语法特征,并采用化学反馈机制优化分子生成过程,使其产生的分子既化学有效又具备预期属性。

图1

MolGen的训练框架

MolGen的预训练包含两个关键阶段:

  • 首先,基于Seq2seq的模型架构,MolGen在超过一亿的分子序列上执行掩码操作,通过重构原始序列深度挖掘分子的结构本质,同时采用SELFIES作为分子描述符,确保生成的分子序列的100%有效性。

  • 其次,引入一种通用的分子前缀策略,提升模型跨不同领域的适用性和灵活性。

在预训练阶段之后,尽管模型已经掌握了分子的基本语法规则,但它还需要学习如何根据实际化学需求优化分子结构。因此,MolGen引入了一种化学反馈机制,引导模型优先考虑那些更优候选分子,进而学习评估并纠正自己的生成过程,以实现与优化目标的一致性。这种方法确保了MolGen不仅能生成化学上有效的分子,而且这些分子具备所需的预期特性,适应实际的应用场景。

图2

实验分析

本文通过一系列实验分析验证了MolGen模型的有效性和实用性。 实验结果表明,MolGen能够生成反映现实世界分子分布的多样化且真实的分子,适用于构建虚拟分子库。

表1

通过优化实验,MolGen证明了其能够有效地生成与特定目标蛋白质高度亲和的分子。结合亲和力量化了分子与目标蛋白质之间的相互作用力。如图(a)所示,MolGen专门针对初始结合亲和力较低的1000个分子进行优化,成功提升了这些分子的亲和力。其中亲和力通过解离常数(K_D)来体现,K_D值越低表示亲和力越强。图(b)则进一步展示了在两种不同目标蛋白质上,通过MolGen优化后分子结合亲和力的显著提高,从而突显了MolGen在药物设计和分子优化领域的应用潜力。

图3

此外,MolGen也能够优化相对简单的化学性质,如p-logP和QED值。在天然产物与合成分子两种设定下,不同配置的模型生成的分子化学性质发生了明显的变化。在未应用化学反馈机制的情况下,预训练模型倾向于生成与输入分子化学性质相似的分子。然而,当引入化学反馈后,化学性质得分显著提升,这表明通过化学反馈机制,模型能够将其生成过程与化学上的实际偏好相对齐,从而有效地评估并调整其生成的分子,确保这些分子具备应用中所需的化学特性。

图4

本文将MolGen得到的分子表示空间与基于深度图生成的模型、基于变分自编码器的模型以及基于SMILES的语言模型进行比较。总体而言,预训练语言模型,尤其是MolGen,在维持生成分子多样性的同时,成功捕获了训练集中分子的化学特性和结构特征,展现了其在精确模拟分子化学空间方面的优势。

图5

进一步地,本文还探讨了使用不同分子语言(SMILES和SELFIES)进行预训练的模型在感知分子结构方面的能力。下图可视化了模型最后一个自注意力层的注意力权重。基于SMILES的预训练模型可能会将注意力分配给缺乏内在化学意义的符号或数字,相比之下,MolGen在识别和理解具有化学意义的子结构方面表现出更高的有效性。

图6

总结

本文介绍了一种新的分子生成框架MolGen。实验分析表明,MolGen能够有效生成符合化学偏好的分子,规避了“分子幻觉”问题。未来的研究方向包括将MolGen应用于逆合成、化学反应预测等生成任务,探索多模态预训练技术,或融合更广泛的知识资源。此外,为了进一步满足从头分子设计的需求,作者推出了最新的MolGen-7B版本。该版本基于LLaMA架构,无需依赖现有分子结构即可设计出多样化的新分子,开拓了更为广阔的化学探索空间。

这篇关于ICLR 2024 | MolGen: 化学反馈引导的预训练分子生成的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/675346

相关文章

MybatisGenerator文件生成不出对应文件的问题

《MybatisGenerator文件生成不出对应文件的问题》本文介绍了使用MybatisGenerator生成文件时遇到的问题及解决方法,主要步骤包括检查目标表是否存在、是否能连接到数据库、配置生成... 目录MyBATisGenerator 文件生成不出对应文件先在项目结构里引入“targetProje

Python使用qrcode库实现生成二维码的操作指南

《Python使用qrcode库实现生成二维码的操作指南》二维码是一种广泛使用的二维条码,因其高效的数据存储能力和易于扫描的特点,广泛应用于支付、身份验证、营销推广等领域,Pythonqrcode库是... 目录一、安装 python qrcode 库二、基本使用方法1. 生成简单二维码2. 生成带 Log

Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南

《Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南》在日常数据处理工作中,我们经常需要将不同Excel文档中的数据整合到一个新的DataFrame中,以便进行进一步... 目录一、准备工作二、读取Excel文件三、数据叠加四、处理重复数据(可选)五、保存新DataFram

SpringBoot生成和操作PDF的代码详解

《SpringBoot生成和操作PDF的代码详解》本文主要介绍了在SpringBoot项目下,通过代码和操作步骤,详细的介绍了如何操作PDF,希望可以帮助到准备通过JAVA操作PDF的你,项目框架用的... 目录本文简介PDF文件简介代码实现PDF操作基于PDF模板生成,并下载完全基于代码生成,并保存合并P

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

详解Java中如何使用JFreeChart生成甘特图

《详解Java中如何使用JFreeChart生成甘特图》甘特图是一种流行的项目管理工具,用于显示项目的进度和任务分配,在Java开发中,JFreeChart是一个强大的开源图表库,能够生成各种类型的图... 目录引言一、JFreeChart简介二、准备工作三、创建甘特图1. 定义数据集2. 创建甘特图3.

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只