【AAAI 2021】Multi-constraint Molecule Sampling for Molecule Optimization

2024-01-13 21:40

本文主要是介绍【AAAI 2021】Multi-constraint Molecule Sampling for Molecule Optimization,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

多限制分子采样分子优化

 Multi-constraint Molecule Sampling for Molecule Optimization


摘要

挑战:face difficulties in simultaneously optimizing multiple drug properties.

方法:To address such challenges, we propose the MultI-constraint MOlecule SAmpling (MIMOSA) approach, a sampling framework to use input molecule as an initial guess and sample molecules from the target distribution.

具体来说:MIMOSA首先对两个属性不可知图神经网络(GNN)进行预训练,用于分子拓扑和子结构类型预测,其中子结构可以是原子或单环。对于每次迭代,MIMOSA使用GNN的预测并使用三种基本的子结构操作(添加,替换,删除)来生成新的分子和相关的权重(associated weights)。权重可以编码多个约束,包括相似性约束和药物性质约束,在此基础上我们选择有希望的分子进行下一次迭代。

算法示意图:

1、(Pretrain GNN),MIMOSA使用大量未标记的分子对两个图形神经网络(GNN)进行预训练,这些分子将在采样过程中使用。 MIMOSA预训练两个属性不可知(property-agnostic)的GNN(bGNN、mGNN)用于分子拓扑和子结构类型预测。

2、(Candidate Generation,生成很多候选分子),MIMOSA根据 bGNN、mGNN 的预测结果,采用三种基本的子结构操作(ADD、REPLACE和DELETE)生成新的候选分子并评分。

3、 (Candidate Selection,从步骤 II 生成的新分子候选中使用MCMC sampling选择出最有潜力的分子进行下一轮的迭代),MIMOSA为新分子的每个性质分配权重。权重可以理解为:权重编码为多个约束,包括相似性约束和药物性质约束,在此基础上我们接受有希望的分子进行下一次迭代。MIMOSA对分子进行迭代编辑,可以高效地绘制分子样本。【其实就是将step2得到的分子求出性质,然后根据性质的重要性不同,为每个性质分配不同的权重,最后求出综合性质最优的进行下一次的迭代】

1、用于子结构类型和分子拓扑预测的预训练GNN(Pretrain GNN)

为了准确地表示分子,在大分子数据集上预先训练分子嵌入。用图表示分子,其中每个子结构都是一个节点,作者建立了两个基于GNN的预训练任务来辅助分子修饰,这两个GNN将评估每个子结构受分子图中所有其他子结构制约的概率。选择训练两个单独的GNN是因为存在很多未标记分子样本,而且这两个任务在本质上差异很大。两个GNN模型中,一个用于子结构类型预测,称为mGNN,另一个用于分子拓扑预测,称为bGNN。

mGNN模型(子结构类型预测:以多类分类为目标,用于预测掩码节点的子结构类型。mGNN模型根据其他子结构和连接来输出单个子结构的类型。用一个特殊的掩码指示器单独掩码子结构。

bGNN模型(分子拓扑预测:旨在对分子拓扑结构进行二分类预测。bGNN的目标是预测节点是否会扩展

2、通过子结构修改操作来生成候选对象(Candidate Generation)

借助于mGNN和bGNN定义子结构修饰操作,即对输入分子Y进行替换、添加或删除操作。

【采样候选分子是通过给“替换”、“添加”、“删除”不同的权重,从而用不同概率采样不同的分子,这是否可以看成一种“变异”操作?这样就可以使变异变的有意义,而不是单纯的通过概率进行变异

生成的候选分子集合可以根据它们接受的子结构修饰的类型被分组为三个集合(three sets),即替换集合Splace、添加集合Sadd和删除集合Sdelete。MIMOSA使用MCMC的一种特殊类型Gibbs采样,用于候选分子选择。Gibbs采样算法根据其他变量的当前值,按顺序或随机顺序从每个变量的分布中生成一个实例(见算法1)。在这里,这三组分子将以不同的采样权重进行采样【这些权重代表了不同子结构修改类型的候选分子集合(如替换集S_replace、添加集S_add和删除集S_delete)被选择成为下一步迭代中的分子的概率。这里是通过Gibbs采样完成的采样】。它们的权重被设计为满足详细的平衡条件(Brooks et al. 2011)。

(1)采样替换Sreplace。对于“replace”操作产生的分子,采样wr中的权重由式(13)给出:

(2)采样添加Sadd。对于“加”操作产生的分子,采样的权重由等式给出 (14):        

(3)采样删除Sdelete。对于这些通过“删除”操作产生的分子,采样中的权重由等式给出 (15):

3、通过MCMC采样进行候选分子选择(Candidate Selection)

算法流程:

  1. 输入:

    • 分子 X
    • 粒子数量 N
    • 最大采样次数 Tmax
    • 预热迭代次数 Tburnin
  2. 输出:

    • 生成的分子集合 Φ
  3. 预训练GNN:

    • 使用方程(6)训练mGNN
    • 使用方程(9)训练bGNN
  4. 初始化候选集Θ为单一分子X,输出集Φ为空。

  5. 进行Tmax次迭代:

    • 候选生成:

      • 初始化候选池Ψ为空。
      • 对于集合Θ中的每个分子Z:
        • 通过编辑Z(如子结构操作)生成候选Z'。
        • 验证Z'的有效性。
        • 如果Z'有效,则将其添加到Ψ中。
    • 候选选择:

      • 如果当前迭代次数小于预热迭代次数Tburnin:
        • 从Ψ中选择具有最高密度值的N个分子(根据方程(1))并将其加入到Θ中。
      • 否则:
        • 使用重要性采样从Ψ中抽取N个分子,根据方程(13)、(14)或(15)的权重,并将其加入到Θ中。
    • 更新生成的分子集合Φ,将Θ中的分子添加到Φ中。

  6. 迭代结束后,输出生成的分子集合Φ。

此MIMOSA算法主要通过多次迭代进行分子优化。在每次迭代中,首先基于当前的候选集合Θ生成新的分子候选,然后根据给定的条件选择新的分子并更新候选集。经过预定的迭代次数后,算法输出一个经优化的分子集合。

CASE

意思应该是它做的这种优化正好符合事实,改变这些极性基团就应该改变它对应的某些属性, 同时也是画出他的模型是如何优化属性的

Figure 2: Exp 3. Examples of “QED & PLogP” optimization. (Upper), the imidazole ring in the input molecule:
(a) is replaced by less polar rings thiazole (b and c) and thiadiazol
(d). Since more polar indicates lower PLogP, the output molecules increase PLogP while maintaining the molecular scaffold. (Lower), the PLogP of input molecule
(e) is increased by neutralizing the ionized amine
(g) or replacing with substructures with less electronegativity (f and h). These changes improve the QED.

为了进一步探究MIMOSA如何有效改善对局部结构变化敏感的属性,例如PLogP,我们在图2中展示了两个示例。对于第一行,输入分子(a)中的咪唑环被较少极性的五元环噻唑(b和c)和噻二唑(d)所替代。由于PLogP与分子的极性相关:极性更强意味着PLogP更低。这种生成结果在保持分子骨架的同时增加了PLogP。对于第二行,通过中和离子化的胺基(g)或替换为电负性较低的亚结构(f和h),增加了输入分子(e)的PLogP。这些变化也有助于提高药物样性,即QED值。

MIMOSA: 用于分子优化的多约束分子采样

这篇关于【AAAI 2021】Multi-constraint Molecule Sampling for Molecule Optimization的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/602885

相关文章

2014 Multi-University Training Contest 8小记

1002 计算几何 最大的速度才可能拥有无限的面积。 最大的速度的点 求凸包, 凸包上的点( 注意不是端点 ) 才拥有无限的面积 注意 :  凸包上如果有重点则不满足。 另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

2014 Multi-University Training Contest 7小记

1003   数学 , 先暴力再解方程。 在b进制下是个2 , 3 位数的 大概是10000进制以上 。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

2014 Multi-University Training Contest 6小记

1003  贪心 对于111...10....000 这样的序列,  a 为1的个数,b为0的个数,易得当 x= a / (a + b) 时 f最小。 讲串分成若干段  1..10..0   ,  1..10..0 ,  要满足x非递减 。  对于 xi > xi+1  这样的合并 即可。 const int maxn = 100008 ;struct Node{int

GPU 计算 CMPS224 2021 学习笔记 02

并行类型 (1)任务并行 (2)数据并行 CPU & GPU CPU和GPU拥有相互独立的内存空间,需要在两者之间相互传输数据。 (1)分配GPU内存 (2)将CPU上的数据复制到GPU上 (3)在GPU上对数据进行计算操作 (4)将计算结果从GPU复制到CPU上 (5)释放GPU内存 CUDA内存管理API (1)分配内存 cudaErro

2021-8-14 react笔记-2 创建组件 基本用法

1、目录解析 public中的index.html为入口文件 src目录中文件很乱,先整理文件夹。 新建components 放组件 新建assets放资源   ->/images      ->/css 把乱的文件放进去  修改App.js 根组件和index.js入口文件中的引入路径 2、新建组件 在components文件夹中新建[Name].js文件 //组件名首字母大写

2021-08-14 react笔记-1 安装、环境搭建、创建项目

1、环境 1、安装nodejs 2.安装react脚手架工具 //  cnpm install -g create-react-app 全局安装 2、创建项目 create-react-app [项目名称] 3、运行项目 npm strat  //cd到项目文件夹    进入这个页面  代表运行成功  4、打包 npm run build

[SWPUCTF 2021 新生赛]web方向(一到六题) 解题思路,实操解析,解题软件使用,解题方法教程

题目来源 NSSCTF | 在线CTF平台因为热爱,所以长远!NSSCTF平台秉承着开放、自由、共享的精神,欢迎每一个CTFer使用。https://www.nssctf.cn/problem   [SWPUCTF 2021 新生赛]gift_F12 这个题目简单打开后是一个网页  我们一般按F12或者是右键查看源代码。接着我们点击ctrl+f后快速查找,根据题目给的格式我们搜索c

【面试个人成长】2021年过半,社招和校招的经验之谈

点击上方蓝色字体,选择“设为星标” 回复”资源“获取更多资源 长话短说。 今天有点晚,因为一些事情耽误了,文章发出来有些晚。 周末的时候和一个知识星球的读者1对1指导了一些应届生的学习路径和简历准备。 因为马上就要秋招了,有些公司的提前批已经启动。2021年已经过半了,各位。时间真是太快了。 正好周末抽了一点时间看之前买的关于面试的电子书,针对校招和社招的面试准备和需要注意的点在啰嗦几句。 校

【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Spark篇

欢迎关注博客主页:https://blog.csdn.net/u013411339 欢迎点赞、收藏、留言 ,欢迎留言交流! 本文由【王知无】原创,首发于 CSDN博客! 本文首发CSDN论坛,未经过官方和本人允许,严禁转载! 本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。 硬刚大数据系列文章链接: 2021年从零到大数据专家的

【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之消息队列篇

📢欢迎关注博客主页:https://blog.csdn.net/u013411339 📢欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流! 📢本文由【王知无】原创,首发于 CSDN博客! 📢本文首发CSDN论坛,未经过官方和本人允许,严禁转载! 本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。 硬刚大数据系列文章链接: