IJCAI2023 | A Systematic Survey of Chemical Pre-trained Models(化学小分子预训练模型综述)

本文主要是介绍IJCAI2023 | A Systematic Survey of Chemical Pre-trained Models(化学小分子预训练模型综述),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

IJCAI_A Systematic Survey of Chemical Pre-trained Models

综述资料汇总(更新中,原文提供):GitHub - junxia97/awesome-pretrain-on-molecules: [IJCAI 2023 survey track]A curated list of resources for chemical pre-trained models

参考资料:IJCAI2023 | 化学小分子预训练模型综述

从分子描述符、编码器架构、预训练策略和应用描述文章。

直接使用DNN的问题:(1) 标记数据的稀缺性:分子的任务特异性标记可能极其稀缺,因为分子数据标记通常需要昂贵的湿实验室实验;(2) 分布外泛化能力差:在许多现实世界的情况下,学习具有不同大小或官能团的分子需要分布外泛化。

因此更加关注化学预训练模型(CMPs)【以从大量未标记的分子中学习通用分子表示,然后在特定的下游任务中进行微调】

一、Molecular Descriptors and Encoders

Fingerprints (FP). 描述具有二元串的分子的特定子结构的存在或不存在。

Sequences. 最常用的SMILES,

2D graphs. 原子作为节点,键作为边。

3D graphs. 表示分子的原子在3D空间中的空间排列,其中每个原子与其类型和坐标以及一些可选的几何属性(如速度)相关联。使用3D几何的优点是构象信息对许多分子性质,特别是量子性质至关重要。此外,在给定3D几何形状的情况下,还可以直接利用立体化学信息,例如手性。

二、Pre-training Strategies

1、AutoEncoding (AE) 图3a

【SMILES Transformer: Pre-trained Molecular Fingerprint for Low Data Drug Discovery.】:利用了基于转换器的编码器-解码器网络,并通过重建SMILES字符串表示的分子来学习表示。

【PanGu Drug Model: Learn a Molecule Like a Human. 】:预训练图来对不对称的条件变分自动编码器进行排序,以学习分子表示。

尽管自动编码器可以学习分子的有意义表示,但它们只关注单个分子,无法捕捉分子间的关系,这限制了它们在一些下游任务中的性能。(不是主流方法)

2、Autoregressive Modeling (AM) 图3b

将分子输入分解为子序列(通常为原子level结构),然后根据序列中前面的子序列逐个预测后面子序列。公式:

【MolGPT: Molecular Generation Using a Transformer-Decoder Model.2021】:使用transformer decoder,自回归方式预测SMILES字符串中的下一个token。

【GPT-GNN: Generative Pre-Training of Graph Neural Networks.KDD, 2020.】:重建分子图(图3b),给定一个节点和边被随机mask的graph,一次生成一个masked节点和边,并使每次迭代中生成的节点和边的可能性最大。然后,迭代地生成节点和边,直到生成所有masked节点为止。

【Motif-based Graph Self-Supervised Learning for Molecular Property Prediction. NeurIPS, 2021.】:生成分子图片段(子图),而不是单个原子或自回归键。

AM在生成分子表现更好。然而,AM在计算上更昂贵,并且需要预先设置原子或键的顺序,这可能不适合分子,因为原子或键不存在固有的顺序。

3、Masked Component Modeling (MCM) 图3c

MCM掩盖了分子的一些组成(如原子、键和片段),然后训练模型,在给定剩余成分的情况下预测它们。公式:

Sequence-base model:

【ChemBERTa: Large-Scale Self-Supervised Pretraining for Molecular Property Prediction. 2020】、【SMILES-BERT: Large Scale Unsupervised Pre-Training for Molecular Property Prediction. BCB, 2019.】、【Molformer: Large Scale Chemical Language Representations Capture Molecular Structure and Properties. Nat. Mach. Intell., 2022】:屏蔽SMILES strings中的随机字符,然后基于un-masked的SMILES string的transformer的输出来恢复它们。

Graph-based model:

【Strategies for Pre-training Graph Neural Networks. In ICLR, 2020.】:随机屏蔽输入的原子/化学键属性,并预训练GNN来预测它们

【Self-Supervised Graph Transformer on Large-Scale Molecular Data. NeurIPS, 2020.】试图预测masked子图,以捕捉分子图中的上下文信息

【Mole-BERT: Rethinking Pre-training Graph Neural Networks for Molecules. ICLR,
2023】:由于自然界中的原子集极小且不平衡,掩盖原子类型可能会有问题。为了缓解这个问题,设计了一个上下文感知的tokenizer,将原子编码为具有化学意义的离散值,用于mask

基于其surrounding environments来预测masked components,而AM仅依赖于预定义序列中的先前分量。因此,MCM可以捕获更完整的化学语义。然而,由于MCM在BERT后的预训练过程中经常掩盖每个分子的固定部分,因此它不能对每个分子中的所有成分进行训练,这导致样本利用效率较低。

4、Context Prediction (CP) 图3d

以明确的、上下文感知的方式捕捉分子/原子的语义。

【Strategies for Pre-training Graph Neural Networks. ICLR, 2020.】:使用二元分类来判断分子和周围上下文结构中的子图是否属于同一节点。

虽然CP简单有效,但需要一个辅助神经模型将上下文编码为固定向量,从而为大规模预训练增加了额外的计算开销。

5、Contrastive Learning (CL) 图3e

最大化一对相似输入之间的一致性来预训练模型,例如同一分子的两个不同增强或描述符。

根据对比粒度(例如,molecule- or substructure-level),两类CL:Cross-Scale Contrast (CSC) and Same-Scale Contrast (SSC)

1)Cross-Scale Contrast (CSC)

【InfoGraph: Unsupervised and Semi-supervised Graph-Level Representation Learning via Mutual Information Maximization. ICLR, 2020.】:通过互信息最大化的无监督和半监督图级表示学习。

【Contrastive Multi-View Representation Learning on Graphs. ICML,2020.】:执行节点扩散以生成增广分子图,然后通过将一个视图的原子表示与另一个视图(反之亦然)的分子表示进行对比,最大限度地提高原始视图和增广视图之间的相似性。

2)Same-Scale Contrast (SSC).

通过将增强分子推向anchor分子(正对)和远离其他分子(负对),对单个分子进行对比学习。公式:

Graph-level的分子级预训练(各种增强策略)对比学习:

【Graph Contrastive Learning with Augmentations. In NeurIPS, 2020】、

【Graph Contrastive Learning Automated. In ICML, 2021.】

【MoCL: Contrastive Learning on Molecular Graphs with Multi-level Domain Knowledge. In
KDD, 2021.】

【Adversarial Graph Augmentation to Improve Graph Contrastive Learning. In NeurIPS,
2021】

【InfoGCL: InformationAware Graph Contrastive Learning. In NeurIPS, 2021.】

【Molecular Graph Contrastive Learning with Parameterized Explainable Augmentations.
In BIBM, 2021.】

【Molecular Contrastive Learning with Chemical Element Knowledge Graph. In AAAI,2022.】

【Improving Molecular Contrastive Learning via Faulty Negative Mitigation and Decomposed Fragment Contrast. J. Chem. Inf. Model., 2022.】

【SimGRACE: A Simple Framework for Graph Contrastive Learning without Data Augmentation. In WWW, 2022.】

最大限度地提高了相同分子的各种描述符之间的一致性,并排斥了不同的描述符:

【SMICLR: Contrastive Learning on Multiple Molecular Representations for Semisupervised and Unsupervised Representation Learning. J.Chem. Inf. Model., 2022.】:联合graph encoder 和SMILES string encoder

【Multilingual Molecular Representation Learning via Contrastive Pre-training. In ACL,2022.】:MM Deacon利用两个独立的transformers来编码SMILES和IUPAC,使用对比目标来促进同一分子的SMILES与IUPAC相似性

【3D Infomax Improves GNNs for Molecular Property Prediction. In ICML, 2022】:最大化所学习的3D geometry and 2D graph 之间的一致性;

【GeomGCL: Geometric Graph Contrastive Learning for Molecular Property Prediction. In AAAI, 2022.】:采用双视图几何消息传递神经网络(GeomMPNN)对分子的2D和3D图进行编码,并设计geometric contrastive目标,

一些关键问题阻碍了其更广泛的应用,在分子增强过程中很难保留语义。通过手动试验和错误来选择增强【Graph Contrastive Learning with Augmentations. In NeurIPS, 2020.】,繁琐的优化【Graph Contrastive Learning Automated. In ICML, 2021.】,或通过昂贵的领域知识指导【MoCL: Contrastive Learning on Molecular Graphs with Multi-level Domain Knowledge. In KDD, 2021.】,但仍然缺乏一种有效且原则性的方法来设计适合于分子预训练的化学增强。

CL背后拉近相似表征的假设对于分子表征学习来说可能并不总是成立的(分子活性悬崖:类似的分子具有完全不同的性质)。

CL目标随机选择一批中的所有其他分子作为阴性样本,而不管它们的真实语义如何,这将不期望地排斥具有相似性质的分子,并由于假阴性而破坏性能【ProGCL: Rethinking Hard Negative Mining in Graph Contrastive Learning. In ICML, 2022.】

 6、Replaced Components Detection (RCD) 图3f

识别输入分子的随机替换成分。例如,【MPG:An Effective Self-Supervised Framework for Learning Expressive Molecular Global Representations to Drug Discovery. Briefings Bioinform 2021.】将每个分子分成两部分,通过组合两个分子的部分来改变其结构,并训练编码器检测组合的部分是否属于同一分子。

虽然RCD可以揭示分子结构中的内在模式,但编码器经过预训练,始终为所有天然分子产生相同的“非替换”标签,为随机组合的分子产生相同“替换”标签。然而,在下游任务中,输入分子都是天然分子,导致RCD产生的分子表征不太可区分。

7、DeNoising (DN) 图3g

【Pre-training via Denoising for Molecular Property Prediction. ICLR, 2023.】:将噪声添加到3D分子几何的原子坐标中,并预训练编码器来预测噪声。

【Uni-Mol: A Universal 3D Molecular Representation Learning Framework. In ICLR, 2023.】:为原子坐标添加了噪声,其动机是在给定3D原子位置的情况下,可以很容易地推断出掩蔽的原子类型。

【Molecular Geometry Pretraining with SE(3)-Invariant Denoising Distance Matching. In ICLR, 2023.】:距离去噪预训练,以对3D分子的动态特性进行建模。

三、Extensions

1、Knowledge-enriched pre-training.

CPM通常从大型分子数据库中学习一般的分子表示。然而,他们往往缺乏特定领域的知识。

【GraphCL:Graph Contrastive Learning with Augmentations. In NeurIPS, 2020.】:指出键扰动(添加或删除键作为数据增强)在概念上与领域知识不兼容,并且在经验上对化合物的对比预训练没有帮助。因此,他们避免采用键扰动来增强分子图。

【MoCL: Contrastive Learning on Molecular Graphs with Multi-level Domain Knowledge. In KDD, 2021.】提出了一种基于领域的分子增强算子,称为子结构替换,其中分子的有效子结构被生物异构体所取代,生物异构体产生的新分子具有与原始分子类似的物理或化学性质。

【Molecular Contrastive Learning with Chemical Element Knowledge Graph. In AAAI, 2022.】:构建了一个化学元素知识图(KG)来总结化学元素之间的微观关联,并提出了一个新的用于分子表征学习的知识增强对比学习(KCL)框架。

【Motif-based Graph Self-Supervised Learning for Molecular Property Prediction. In NeurIPS, 2021.】:首先利用现有算法(On the Art of Compiling and Using ‘Drug-Like’ Chemical Fragment Spaces. ChemMedChem, 2008.)提取语义上有意义的基序,然后预处理神经编码器,以自回归的方式预测基序。

【Geometry-Enhanced Molecular Representation Learning for Property Prediction. Nat. Mach. Intell. 2022.】:提出利用分子几何信息来增强分子图预训练。设计了一种基于几何的GNN体系结构以及几种几何级的自监督学习策略(键长预测、键角预测和原子距离矩阵预测),以在预训练过程中获取分子几何知识。

尽管知识丰富(注入知识)的预训练有助于CPM获取化学领域知识,但它需要昂贵(计算代价、数据代价)的先验知识作为指导,当先验知识不完整、不正确或获取成本高昂时,这限制了更广泛的应用。

2、Multimodal pre-training.

使用包括图像和生物化学文本等。

【KV-PLM:A Deep-Learning System Bridging Molecule Structure and Biomedical Text with Comprehension Comparable to Human Professionals. Nat. Commun.,2022】:标记SMILES字符串和生物化学文本。然后,随机屏蔽部分令牌,并预训练神经编码器以恢复屏蔽的令牌。

【MolT5:Translation between Molecules and Natural Language. In EMNLP, 2022.】:mask大量SMILES字符串的一些跨度和分子的生物化学文本描述,然后预训练转换器来预测掩盖的跨度。通过这种方式,这些预先训练的模型可以生成SMILES字符串和生物化学文本,这对于文本引导的分子生成和分子字幕(生成分子的描述性文本)特别有效。

【Featurizations Matter: A Multiview Contrastive Learning Approach to Molecular Pretraining. In AI4Science@ICML, 2022.】:提出使用对比目标最大化四个分子描述符的嵌入与其聚合嵌入之间的一致性。通过这种方式,这些不同的描述符可以相互协作用于分子性质预测任务。

【MICER: A Pre-Trained Encoder–Decoder Architecture for Molecular Image Captioning. Bioinform., 2022.】:采用了一种基于自动编码器的预训练框架来进行分子图像字幕。将分子图像馈送到预先训练的编码器,然后解码相应的SMILES字符串。

上述多模式预训练策略可以促进各种模式之间的翻译。此外,这些模式可以协同工作,为各种下游任务创建更完整的知识库

四、Applications

1、Molecular Property Prediction (MPP)

标签可能非常稀缺,因为湿实验室实验通常既费力又昂贵。CPM利用大量未标记的分子,并作为下游分子性质预测任务的backbone。

与从头开始训练的模型相比,CPM可以更好地推断出分布外的分子【Strategies for Pre-training Graph Neural Networks. In ICLR, 2020.】

2、Molecular Generation (MG)

1)类似于MolGPT自回归在SMILES上生成。

2)通过将描述性文本转化为分子结构,进一步扩大了分子生成的可能性。

3)三维分子构象的产生,特别是用于预测蛋白质配体结合姿势。但是受计算限制。基于3D几何的CPM在构象生成任务中表现出显著的优势,因为可以在预训练过程中捕捉2D分子和3D构象之间的一些固有关系。

3、Drug-Target Interactions (DTI)

药物靶标相互作用预测(DTI)

4、Drug-Drug Interactions (DDI)

药物相互作用预测(DDI),相互作用可能导致不良反应,从而损害健康,甚至导致死亡。

五、Conclusions and Future Outlooks

1、Improving Encoder Architectures and Pre-training Objectives

CPM的理想功能和架构仍然难以捉摸,预训练目标仍有很大的改进空间,MCM中子组件的有效掩蔽策略就是一个主要例子。

2、Building Reliable and Realistic Benchmarks

尽管对CPM进行了大量研究,但由于所使用的评估设置不一致(例如,随机种子和数据集分割),它们的实验结果有时可能不可靠。例如,在包含几个用于分子性质预测的昂贵数据集的MoleculeNet上,同一模型的性能可能因不同的随机种子而显著不同,这可能是由于这些分子数据集的规模相对较小。同样至关重要的是,要为CPM建立更可靠、更现实的基准,将分布外的泛化考虑在内。一种解决方案是通过scafold split来评估CPM,这涉及到基于分子的亚结构来分裂分子。事实上,研究人员必须经常将从已知分子训练的CPM应用于新合成的未知分子,这些分子可能在性质上有很大差异,属于不同的结构域。

3、Broadening the Impact of Chemical Pre-trained Models

CPMs研究的最终目标是开发多功能分子编码器,可应用于大量与分子相关的下游任务。尽管如此,与NLP社区中PLM(pretraining language model)的进步相比,CPM的方法进步和实际应用之间仍然存在很大差距。一方面,CPM产生的表示尚未被广泛用于取代化学中的传统分子描述符,并且预先训练的模型尚未成为社区的标准工具。另一方面,对于这些模型如何使单个分子之外的更广泛的下游任务受益,如化学反应预测、虚拟筛选中的分子相似性搜索、逆转录合成、化学空间探索等,目前的探索有限。

4、Establishing Theoretical Foundations

CPM在各种下游任务中表现出了令人印象深刻的性能,但对这些模型的严格理论理解仍然有限。这种基础的缺乏阻碍了科学界和行业利益相关者寻求最大限度地发挥这些模型的潜力。必须建立CPM的理论基础,以便充分理解它们的机制以及它们如何在各种应用中提高性能。有必要进行进一步的研究,以更深入地了解不同分子预训练目标的有效性,从而为优化方法设计提供指导。

这篇关于IJCAI2023 | A Systematic Survey of Chemical Pre-trained Models(化学小分子预训练模型综述)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/169826

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

MOLE 2.5 分析分子通道和孔隙

软件介绍 生物大分子通道和孔隙在生物学中发挥着重要作用,例如在分子识别和酶底物特异性方面。 我们介绍了一种名为 MOLE 2.5 的高级软件工具,该工具旨在分析分子通道和孔隙。 与其他可用软件工具的基准测试表明,MOLE 2.5 相比更快、更强大、功能更丰富。作为一项新功能,MOLE 2.5 可以估算已识别通道的物理化学性质。 软件下载 https://pan.quark.cn/s/57