本文主要是介绍Multi-view Graph Contrastive Representation Learning for Drug-Drug Interaction Prediction,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Multi-view Graph Contrastive Representation Learning for Drug-Drug Interaction Prediction
基本信息
博客创建者
鲁智深
博客贡献人
鲁智深:主要内容介绍
作者
Yingheng Wang, Yaosen Min, Xin Chen, and Ji Wu
标签
multi-view graph, contrastive learning, link prediction, graph embedding
摘要
在预测药物-药物相互作用(DDI)方面,基于图的学习方法往往局限于挖掘视图内(inter-view)的药物分子结构,而忽略了药物视图间(intra-view)的相互作用关系,这对于捕获复杂的DDI模式至关重要。为解决此问题,这篇文章:
- 提出了一种新的药物-药物相互作用预测的多视图图对比表示学习方法MIRACLE,可以同时捕捉视图内分子结构和视图间分子间的相互作用。
- 为了平衡药物表征中的多视图信息,我们不仅依赖于监督信息,还设计了一种新的对比学习组件,通过互信息最大化目标来更新药物嵌入。
- 在各种真实数据集上进行的大量实验表明,MIRACLE的性能明显优于最先进的方法,即使是在很少标记训练实例的情况下。
问题定义
假定有一个图 G G G,由 G = { V , E } G = \{V, E\} G={V,E}表示,其中 V V V是顶点的集合, E E E是边的集合。我们将第 𝑖 𝑖 i个原子表示为 𝑣 𝑖 ∈ V 𝑣_𝑖∈V vi∈V,将连接第 𝑖 𝑖 i个原子和第 j j j个原子的化学键表示为 𝑒 𝑖 𝑗 ∈ E 𝑒_{𝑖𝑗}∈E eij∈E。
问题声明:DDI预测任务可以定义为图上的一个链路预测问题。给定 𝑔 𝑔 g个药物分子图 G : = { 𝐺 ( 𝑖 ) } 𝑖 = 1 𝑔 G:=\{𝐺^{(𝑖)}\}_{𝑖=1}^𝑔 G:={G(i)}i=1g和DDI网络 N = ( G , L ) N =(G, L) N=(G,L),其中 L L L表示相互作用链接,链接预测任务可以定义为,对于网络 N N N,预测缺失链接的存在。
方法
方法描述
所提出的DDI预测方法是一个端到端表示学习模型,由三个顺序和相互依赖的阶段组成。首先,定义了一个具有注意池的键感知消息传递网络,它将药物分子图数据编码到相应的低维嵌入向量。二是信息集成模块,使用GCN编码器将视图间的药物嵌入向量与外部的DDI关系进行集成。最后是相互作用预测器,它负责预测DDI网络中缺失的相互作用。
具有注意池的键感知消息传递网络
使用键感知消息传递网络(BAMPN)将节点映射到低维空间中的实值嵌入向量。根据简单的化学知识为模型配备了基于传播的消息传递层,具有注意池的图读出层,以生成图级表示。
键感知消息传递:对于每个节点,对其直接相邻节点发送的消息进行聚合,并将消息直接相加,作为节点 v i v_i vi第 l l l层的候选隐藏状态 h ^ i ( l ) \hat{h}_i^{(l)} h^i(l)。该过程可以用下面公式来描述:
h ~ i ( l ) = ∑ j ∈ N ( i ) A e i j ( l ) h j ( l − 1 ) \tilde{h}_i^{(l)}=\sum_{j∈N(i)}A_{e_{ij}}^{(l)}h_j^{(l-1)} h~i(l)=j∈N(i)∑Aeij(l)hj(l−1)其中 N ( 𝑖 ) N(𝑖) N(i)表示中心节点 𝑣 𝑖 𝑣_𝑖 vi的一阶邻域节点, A e i j ( l ) ∈ R d h × d h A_{e_{ij}}^{(l)}∈R^{d_h×d_h} Aeij(l)∈Rdh×dh是第𝑙层上相同类型的化学键 e i j e_{ij} eij共享的可训练参数矩阵, h j ( l − 1 ) ∈ R d h h_j^{(l-1)}∈R^{d_h} hj(l−1)∈Rdh表示相邻节点 𝑣 j 𝑣_j vj在第 ( l − 1 ) (l-1) (l−1)层的隐藏状态。根据此公式,将相邻节点 v j v_j vj发送到中心 v i v_i vi的信息建模为一个线性变换,其可训练的权值参数由具有相同类型化学键的边共享。节点级相互作用的建模在化学中有一个直观的解释:具有相同化学键的相邻原子的影响是相似的,而具有不同化学键的相邻原子的影响则是非常不同的。
第一阶段针对药物的分子图,对于分子图中任意一个节点/原子,将拥有相同键类型的邻居节点信息同时聚合,然后将得到的聚合结果与当前节点在上一层学习到的向量表示拼接,从而得到新的节点表示向量:
h ~ i ( l ) = ∑ j ∈ C ( i ) W c i j ( l ) h j ( l − 1 ) (1) \tilde{h}_i^{(l)}=\sum_{j∈C(i)}W_{c_{ij}}^{(l)}h_j^{(l-1)}\tag{1} h~i(l)=j∈C(i)∑Wcij(l)hj(l−1)(1)其中 W c i j ( l ) ∈ R d h × d h W_{c_{ij}}^{(l)}∈R^{d_h×d_h} Wcij(l)∈Rdh×dh是第𝑙层上相同类型的化学键 c i j c_{ij} cij共享的可训练参数矩阵, h ~ i ( l ) \tilde{h}_i^{(l)} h~i(l)表示节点 𝑣 𝑖 𝑣_𝑖 vi在第𝑙层上的候选隐藏状态, h j ( l − 1 ) ∈ R d h h_j^{(l-1)}∈R^{d_h} hj(l−1)∈Rdh表示相邻节点 𝑣 j 𝑣_j vj在第 ( l − 1 ) (l-1) (l−1)层的隐藏状态, C ( 𝑖 ) C(𝑖) C(i)表示中心节点 𝑣 𝑖 𝑣_𝑖 vi的相邻节点。 h ^ i ( l ) = [ h i ( l − 1 ) ; h ~ i ( l ) ] \hat{h}_i^{(l)}=[{h}_i^{(l-1)};\tilde{h}_i^{(l)}] h^i(l)=[hi(l−1);h~i(l)]。
Highway networks:用来解决基于梯度的学习模型在拥有较多层数时,难以训练的问题。
模型描述
对于一个朴素的包含 L L L层的前馈神经网络,第 l l l层( l ∈ { 1 , 2 , . . . , L } ) l∈\{1, 2,...,L\}) l∈{1,2,...,L})对输入 x l x_l xl进行非线性转化 H H H(参数为 W H , l W_{H, l} WH,l),得到输出 y l y_l yl。简化下标和偏移量之后,形式如下:
y = H ( x , W H ) y=H(x, W_{H}) y=H(x,WH)
对于Highway networks,额外增加两个非线性转化 T ( x , W T ) T(x, W_T) T(x,WT)和 C ( x , W C ) C(x, W_C) C(x,WC),新形式如下:
y = H ( x , W H ) ⋅ T ( x , W T ) + x ⋅ C ( x , W C ) y = H(x, W_H) \cdot T(x, W_T) + x \cdot C(x, W_C) y=H(x,WH)⋅T(x,WT)+x⋅C(x,WC)
其中T称作转换门,C称作携带门,它们决定了输出由非线性变化和原始输入组成的比例。
第二阶段,进一步考虑相邻节点以及上一层学习到的节点向量对中心节点的影响,作者定义三个非线性变换 F ( W f , h ^ i ( l ) ) , T ( W t , h ^ i ( l ) ) F(W_f, \hat{h}_i^{(l)}), T(W_t, \hat{h}_i^{(l)}) F(Wf,h^i(l)),T(Wt,h^i(l))和 C ( W c , h ^ i ( l ) ) C(W_c, \hat{h}_i^{(l)}) C(Wc,h^i(l)),更新节点的表示向量:
h i ( l ) = T ( W t , h ^ i ( l ) ) ⊙ F ( W f , h ^ i ( l ) ) + C ( W c , h ^ i ( l ) ) ⊙ h i ( l − 1 ) (2) {h}_i^{(l)}=T(W_t, \hat{h}_i^{(l)})⊙F(W_f, \hat{h}_i^{(l)})+C(W_c, \hat{h}_i^{(l)})⊙{h}_i^{(l-1)} \tag{2} hi(l)=T(Wt,h^i(l))⊙F(Wf,h^i(l))+C(Wc,h^i(l))⊙hi(l−1)(2)其中, h i ( l ) {h}_i^{(l)} hi(l)表示节点 𝑣 𝑖 𝑣_𝑖 vi在第 l l l层上的隐藏状态,⊙表示元素级的乘法。我们称 F F F为融合门, T T T为转换门, C C C为携带门。
在多层消息函数的作用之后,为了更好的融合分子图中所有节点的信息,引入基于注意力的读出层,从而得到最终的分子图级(inter-view)的表示向量 g g g:
a i = t a n h ( W a [ h i ( 0 ) ; h i ( L ) ] + b a ) (3) a_i=tanh(W_a[h_i^{(0)}; h_i^{(L)}]+b_a) \tag{3} ai=tanh(Wa[hi(0);hi(L)]+ba)(3) g = ∑ v i ∈ V a i ⊙ W 0 h i ( L ) + b 0 (4) g=\sum_{v_i∈V}a_i⊙W_0h_i^{(L)}+b_0 \tag{4} g=vi∈V∑ai⊙W0hi(L)+b0(4)其中所有的参数都是跨所有的原子而共享的。
用于集成多视图网络信息的GCN
为学习DDI相互作用网络中药物的表示向量,采用两层传统的GCN网络,将上一步学习到的药物图级表示向量 g g g作为GCN网络的节点特征,从而学习分子间的相互作用信息,最终得到intra-view的分子表示向量 d d d:
A ^ = K ~ − 1 2 ( A + I n ) K ~ − 1 2 (5) \hat{A}=\tilde{K}^{-\frac{1}{2}}(A+I_n)\tilde{K}^{-\frac{1}{2}}\tag{5} A^=K~−21(A+In)K~−21(5) D ( 1 ) = U ( A , G , W u ( 0 ) , W u ( 1 ) ) = A ^ R e L U ( A ^ G W u ( 0 ) W u ( 1 ) ) (6) D^{(1)}=U(A,G,W_u^{(0)},W_u^{(1)})=\hat{A}ReLU(\hat{A}GW_u^{(0)}W_u^{(1)})\tag{6} D(1)=U(A,G,Wu(0),Wu(1))=A^ReLU(A^GWu(0)Wu(1))(6)
基于图对比学习整合多视角药物表示向量
考虑到药物分子图级表示在图卷积操作之后,变得平滑而且模糊,为了有效平衡多视角信息,作者提出一个新的图对比学习框架(如图3)来学习药物的表示向量。
在多视图图设置中有两个不同的图视图,通过最大化inter-view和intra-view嵌入之间的一致性来学习药物表示。采用一个对比目标函数,使得任意一个药物(Anchor)的intra-view表示向量与其正样本(Positive)的inter-view表示一致,并且可以与其负样本(Negative)的inter-view表示向量区分开:
w ^ , ϕ ^ , ψ ^ = a r g m a x w , ϕ , ψ ∑ i ∈ G 1 C ~ ( i ) ∑ j ∈ C ( i ) ∩ { i } I ^ w , ϕ , ψ ( g j ϕ ; d i ψ ) (7) \hat{w}, \hat{\phi}, \hat{\psi}=argmax_{w,\phi,\psi}\sum_{i∈G}\frac{1}{\tilde{C}(i)}\sum_{j∈C(i)∩\{i\}}\hat{I}_{w,\phi,\psi}(g_j^\phi;d_i^\psi)\tag{7} w^,ϕ^,ψ^=argmaxw,ϕ,ψi∈G∑C~(i)1j∈C(i)∩{i}∑I^w,ϕ,ψ(gjϕ;diψ)(7) I ^ w , ϕ , ψ ( g j ϕ ; d i ψ ) : = E D [ − s p ( − T w , ϕ , ψ ( g j ϕ ( x ′ ) ; d i ψ ( x ) ) ) ] (8) \hat{I}_{w,\phi,\psi}(g_j^\phi;d_i^\psi):=E_D[-sp(-T_{w,\phi,\psi}(g_j^\phi(x');d_i^\psi(x)))]\tag{8} I^w,ϕ,ψ(gjϕ;diψ):=ED[−sp(−Tw,ϕ,ψ(gjϕ(x′);diψ(x)))](8)
药物-药物相互作用预测
在药物-药物相互作用的预测任务中,作者设计两个预测器:通过两个全连接层来预测药物相互作用的概率 p p p,以及仅使用单一的inter-view学习到的药物表示,预测相互作用的概率 r r r。在训练的过程中,既能同时最小化真实标签与预测标签的距离,也能最小化两个不同预测器预测结果的差距,使模型更关注两个不同视角的共性以及两个预测器的一致性。
p = σ ( W p R e L U ( W l ( d i ⊙ d j ) + b l ) + b p ) (10) p=σ(W_pReLU(W_l(d_i⊙d_j) + b_l) + b_p)\tag{10} p=σ(WpReLU(Wl(di⊙dj)+bl)+bp)(10) L s = ∑ l i ∈ L l ( l ( r i , y i ) + l ( p i , y i ) ) (11) L_s=\sum_{l_i∈L_l}(l(r_i,y_i)+l(p_i,y_i))\tag{11} Ls=li∈Ll∑(l(ri,yi)+l(pi,yi))(11) L d = ∑ l j ∈ L u K ( p j ∣ ∣ r j ) (12) L_d=\sum_{l_j∈L_u}K(p_j||r_j)\tag{12} Ld=lj∈Lu∑K(pj∣∣rj)(12)
基于对比损失 L 𝑐 L_𝑐 Lc、监督损失 L 𝑠 L_𝑠 Ls和不一致损失 L 𝑑 L_𝑑 Ld,模型的目标函数是:
L = L 𝑠 + α L 𝑐 + β L d (13) L=L_𝑠+\alpha L_𝑐+\beta L_d\tag{13} L=Ls+αLc+βLd(13)
实验
实验设置
数据集
选择不同尺度的三个基准数据集对方法进行评估,以验证模型的可扩展性和鲁棒性。三个数据集分别是小规模数据集ZhangDDI、中规模数据集ChCh-Miner和大规模数据集DeepDDI。
- ZhangDDI:包含548种药物和48,548对DDI以及这些药物对的多种相似性信息。
- ChCh-Miner:包含1,514种药物和48,514个DDI,没有基于相似性的指纹和多药副作用信息。
- DeepDDI:包含192,284个成对的DDI及其从DrugBank中提取的多药副作用信息。
对比方法
对比的基线包括基于相似度的方法(Nearest Neighbor;Label Propagation;Multi-Feature Ensemble;SSP-MLP)和基于图的方法(GCN;GIN;Attentive Graph Autoencoder;GAT;SEAL-CI;NFP-GCN)。对于基于图的方法,为合理地比较使用不同信息视图的方法,我们将它们定义在MIRACLE相同的架构下。
实验设置
将整个相互作用样本按4:1划分为训练集和测试集,并随机选择1/4的训练数据集作为验证集。数据集中只有可靠的正药物对,为了简单起见,采样负药物对作为负训练样本。
学习率衰减策略 l r = 1 e − 4 × 0.9 6 t lr = 1e-4×0.96^t lr=1e−4×0.96t, t t t是当前的epoch;
原子和药物的隐藏层维数为256;
键感知消息传递神经网络和GCN编码器的总数为3个;
目标函数中的系数𝛼和𝛽分别设置为100和0.8;
对每个中间层的输出应用𝑝= 0.3的droput。
实验结果及分析
评估指标
ROC曲线下面积(AUROC),PRC曲线下面积(AUPRC)和F1
在ZhangDDI数据集上的对比
表2是在ZhangDDI数据集上,MIRACLE模型与基线方法的性能对比。与基准方法相比,MIRACLE模型取得了更好的性能。利用基于NN、LP和SSP-MLP等相似性指纹的算法的性能相对较差,它们只包含了一种非常重要的特征。相反,Ens利用8种药物特征相似性和另外6种拓扑模型相结合,获得了更好的结果,说明了整合来自基于相似性的指纹和拓扑特征等多个来源的信息的重要性。在SEAL-CI和NFP-GCN等多视图图设置中的比较基线优于其他基线,表明多视图图的集成可以显著提高模型的性能。
在ChCh-Miner数据集上的对比
表3是在ChCh-Miner数据集上,MIRACLE模型与基线方法的性能对比。在这部分实验中,我们的目标是评估提出的方法在只有很少的标记DDI链接数据集上的性能。我们只比较MIRACLE和基于图的基线,因为此数据集缺乏基于相似的药物对指纹。出于同样的原因,AttGA也不适用于此数据集。
MIRACLE取得了最好的性能,并大大超过基线,证明了我们提出的方法在标记数据很少的数据集上的优越性。
在DeepDDI数据集上的对比
为验证我们提出的方法的可扩展性,在一个大规模的数据集DeepDDI上进行实验,该数据集有大量的标记数据和DDI信息。表4比较了我们提出的方法与基线方法的性能。许多利用基于相似性的指纹的基线方法需要大量的非结构相似性特征,而这在这个大规模的数据集中可能是不存在的。因此,只选择可使用该数据集的模型。在所有三个指标方面,MIRACLE方法都明显优于其他基线方法。
消融实验
在ZhangDDI和ChChMiner数据集上进行消融实验,以验证对比学习组件在模型中的有效性。实验结果见表5。为了更好地理解有和没有对比学习组件的MIRACLE之间的差异,使用可视化工具t-SNE来可视化它们的药物嵌入,将每种方法的学习嵌入投射到一个二维空间中。图6显示了ChCh-Miner数据集上的结果。从图中,我们可以观察到具有对比学习组件的MIRACLE能有效地学习药物嵌入。
相关知识链接
下载
源代码资源
MIRACLE
基准实验涉及的论文
Nearest Neighbor
Label Propagation
Multi-Feature Ensemble
SSP-MLP
GCN
GIN
Attentive Graph Autoencoder
GAT
SEAL-CI
NFP-GCN
总结
亮点
- 提出了一种新的预测药物-药物相互作用的方法,基于端到端的多视图对比学习框架,使用键感知的消息传递网络以及GCN编码器学习不同视角的药物表示。在此基础上,作者提出了一种新的基于对比学习的策略,平衡来自不同视角的信息,并使用两个预测器充分利用学习到的信息。经实验证明MIRACLE方法在药物相互作用的预测是有效且高效的。
[不足]
- 此工作只关注于药物-药物相互作用的二元预测:即只预测两种药物是否相互作用。然而,DDI可能导致不同的生物学后果或事件,预测DDI相关事件是一项有意义且具有挑战性的任务。
- 此工作只关注于热启动场景,MIRACLE方法由于自身的限制:使用已知的DDI网络信息,导致其无法应用于冷启动场景。
[启发]
- 在预测药物-药物相互作用任务中,可以考虑聚合多个视图信息
- 平衡多视图信息可以使用对比学习来控制多个视图的信息贡献
BibTex
@inproceedings{wang2021multi,title={Multi-view graph contrastive representation learning for drug-drug interaction prediction},author={Wang, Yingheng and Min, Yaosen and Chen, Xin and Wu, Ji},booktitle={Proceedings of the Web Conference 2021},pages={2921--2933},year={2021}
}
这篇关于Multi-view Graph Contrastive Representation Learning for Drug-Drug Interaction Prediction的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!