【Chemical Science-2020】GGM: Scaffold-based molecular design with a graph generative model

本文主要是介绍【Chemical Science-2020】GGM: Scaffold-based molecular design with a graph generative model,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

用图生成模型生成基于scaffold的分子

paper:Scaffold-based molecular design with a graph generative model - Chemical Science (RSC Publishing)

code:GitHub - jaechanglim/GGM: graph generative model for molecule 

code:GitHub - jaechanglim/GGM at branch_feature_predictor_merging

接受一个scaffold作为输入,并通过依次添加原子和键来扩展它,它可以向多个性质上进行优化,尽管搜索空间受限于固定的子结构 


本文中的符号表示

该模型不难,主要分为两部分:

1、Graph encoding

目标:a whole-molecule 图 G --> a latent vector z

给定一个分子图 G = (V(G), E(G)) , 首先将节点 v = V(G) 与节点特征向量连接(associate)起来,然后将每一个边 (u,v) = E(G) 与它对应的边特征向量 连接(associate)起来;

我们将原子和边的类型当成初始的节点和边的特征;

然后,我们将初始特征向量嵌入(embed)到具有更高维度的新向量中,使这些向量有足够的能力在节点和边之间表达深度信息。 为了完全编码分子的结构信息,我们希望每个嵌入向量的节点不仅包含其自身节点v的唯一信息,而且还包含v与其邻域的关系。这可以通过将每个节点的信息传播(propagate)到图中的其他节点来实现。。

编码器包括一个“ propagate ”阶段和一个" readout "阶段,我们把它写成:

 

(1)信息传播(propagate)包括两部分:

第一阶段:用一个信息函数 M 计算每一个结点与它邻居阶段的聚合信息:

 第二阶段:用更新函数 U 将每个节点 聚合后的信息更新每个节点向量:

 由公式(1)更新所有的节点的特征向量,无论什么时候都使用一个固定的传播次数

(2)readout 阶段

如公式(2)所示,计算节点特征向量 的加权和,生成一个向量表示,将图总结为一个整体。最后,从隐空间中取出一个潜在向量z分布,其均值和方差由推出。

 可以通过在计算聚合消息时引入附加向量 c 来调节图传播。在这种情况下,函数M和传播接受c作为附加参数(即,它们变为M(*,*,*,c)并且propagate(*,*,c))。

  1. 在编码输入图时,我们选择c与属性向量y,yS的串联,c 作为属性控制的生成。
  2. 在图解码过程中,我们使用y、yS和潜向向量z的串联作为条件向量。

2、Graph decoding

图解码的目的是从在图编码阶段采样的潜在矢量z中重建整个分子的图G。通过连续添加节点和边缘,从骨架图G0(分子的初始scaffold)构建整个分子图G。其中,Gt来表示由G0构造的任何瞬态(或完成)图。

图解码从准备和传播G0的初始scaffold特征开始。正如我们对G所做的那样,我们通过嵌入骨架分子的原子类型和键类型来制备G0的初始特征载体。这种初始嵌入与编码中的嵌入相同,将整个分嵌入。

然后,G0的初始特征向量由另一个交互网络传播固定的次数。

当传播结束时,通过下面的循坏添加边和节点:

第1阶段:节点添加(node addition)。选择原子类型或使用估计的概率终止构建过程,如果选择了原子类型,则在当前瞬态图Gt中添加一个新节点,例如w,并继续执行第2阶段。否则,请终止生成过程并返回图。

第2阶段:边缘添加(edge addition)。在给定新节点的情况下,选择连接类型或返回阶段1,并提供估计的概率。如果选择连接类型,则继续进行第3阶段。

第3阶段:节点选择(node selection)。从除具有估计概率的w之外的现有节点中选择一个节点,例如v。然后,使用在阶段2中选择的焊接类型将新边缘(v,w)添加到Gt。继续从阶段2添加边。

整个过程的流程如图1右侧所示。从第1-3阶段中排除的是选择合适异构体的最后阶段,我们将在下面单独描述。在每个阶段,模型通过估计候选动作的概率向量来绘制动作。根据当前阶段是否应添加原子(阶段1)、是否应添加边(阶段2)或选择要连接的原子(阶段3),概率向量由以下各项中的相应一项计算:

 药物设计笔记(二)_m0_47163076的博客-CSDN博客

这篇关于【Chemical Science-2020】GGM: Scaffold-based molecular design with a graph generative model的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/649042

相关文章

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

MVC(Model-View-Controller)和MVVM(Model-View-ViewModel)

1、MVC MVC(Model-View-Controller) 是一种常用的架构模式,用于分离应用程序的逻辑、数据和展示。它通过三个核心组件(模型、视图和控制器)将应用程序的业务逻辑与用户界面隔离,促进代码的可维护性、可扩展性和模块化。在 MVC 模式中,各组件可以与多种设计模式结合使用,以增强灵活性和可维护性。以下是 MVC 各组件与常见设计模式的关系和作用: 1. Model(模型)

Science|癌症中三级淋巴结构的免疫调节作用与治疗潜力|顶刊精析·24-09-08

小罗碎碎念 Science文献精析 今天精析的这一篇综述,于2022-01-07发表于Science,主要讨论了癌症中的三级淋巴结构(Tertiary Lymphoid Structures, TLS)及其在肿瘤免疫反应中的作用。 作者类型作者姓名单位名称(中文)通讯作者介绍第一作者Ton N. Schumacher荷兰癌症研究所通讯作者之一通讯作者Daniela S. Thomm

Science Robotics 首尔国立大学研究团队推出BBEX外骨骼,实现多维力量支持!

重复性举起物体可能会对脊柱和背部肌肉造成损伤,由此引发的腰椎损伤是工业环境等工作场所中一个普遍且令人关注的问题。为了减轻这类伤害,有研究人员已经研发出在举起任务中为工人提供辅助的背部支撑装置。然而,现有的这类装置通常无法在非对称性的举重过程中提供多维度的力量支持。此外,针对整个人体脊柱的设备安全性验证也一直是一个缺失的环节。 据探索前沿科技边界,传递前沿科技成果的X-robot投稿,来自首尔国立

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

SIGMOD-24概览Part7: Industry Session (Graph Data Management)

👇BG3: A Cost Effective and I/O Efficient Graph Database in ByteDance 🏛机构:字节 ➡️领域: Information systems → Data management systemsStorage management 📚摘要:介绍了字节新提出的ByteGraph 3.0(BG3)模型,用来处理大规模图结构数据 背景

深度学习--对抗生成网络(GAN, Generative Adversarial Network)

对抗生成网络(GAN, Generative Adversarial Network)是一种深度学习模型,由Ian Goodfellow等人在2014年提出。GAN主要用于生成数据,通过两个神经网络相互对抗,来生成以假乱真的新数据。以下是对GAN的详细阐述,包括其概念、作用、核心要点、实现过程、代码实现和适用场景。 1. 概念 GAN由两个神经网络组成:生成器(Generator)和判别器(D

Axure元件库Ant Design中后台原型模板:提升设计与开发效率的利器

企业对于中后台产品的设计与开发需求日益增长。为了提升用户体验和开发效率,设计者和开发者们不断寻求更加高效、统一的解决方案。Ant Design,作为阿里巴巴开源的一套企业级UI设计语言和React组件库,凭借其丰富的组件和统一的设计风格,已成为众多项目的首选。而在Axure中使用Ant Design元件库,更是为中后台产品的原型设计带来了极大的便利。 Ant Design简介 Ant D

【UVA】11400-Lighting System Design(动态规划)

这道题感觉状态式不是很好推。。。 WA了好几次是因为排序的时候出问题了。 这道题出在线性结构里了,先说一下最长上升子序列吧。 dp[i]代表了以array[i]结尾的时候,最长子序列长度。 推导的时候,以起点递增的顺序进行推导。 #include<cstdio>#include<cstring>#include<iostream>#include<algorithm>#i