药物靶标相互作用（二）

本文主要是介绍药物靶标相互作用（二），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一.Mutual-DTI: A mutual interaction feature-based neural network for drug-target protein interaction prediction

基于相互作用特征的药物-靶蛋白相互作用预测神经网络 2023.5

与同样基于变压器的TransformerCPI相比，Mutual-DTI的复杂性较低。这背后的理由是，虽然Mutual-DTI考虑了两个平行的多头注意力层，但网络的注意力头数量从8个减少到2个，设计了一个更低的隐藏层维度。因此，这大大减少了Mutual-DTI中的参数数量。这些设计有助于 Mutual-DTI 更好地拟合训练数据，同时避免由于过于复杂而导致的过度拟合。

1.模型

基于互反应特征的DTI预测双途径模型，称为Mutual-DTI。解码器经过修改，将药物和蛋白质视为两个不同的序列。

在得到蛋白质和药物的最终输入之后，解码器中添加了一个多头自注意力层来提取交互特征（下图中间的荧光色地方），从而能够学习药物和蛋白质，以及原子和氨基酸之间的复杂相互作用。解码器提取相互作用特征后，我们得到相互作用的蛋白质和药物的特征矩阵D、P，再对特征矩阵的不同维度求均值，得到给定维度中每一行的均值。最后获得的特征向量被链接并且送到分类模块进行预测。

1.药物表示

用GNN将SMILES转化为图，使用提取的化学特征的随机初始化嵌入作为GNN的初始输入。在GNN层之后，得到一个药物序列的特征向量C1,C2,C3...Cl，其中l是药物序列中的原子数。

2.蛋白质表示

蛋白质序列由20个氨基酸组成。如果我们学习一个蛋白质序列作为句子，那么组成句子的单词只有20种。为了增加特征的多样性，基于n-gram语言模型，我们将蛋白质序列中的单词定义为n-gram氨基酸。对于给定的氨基酸序列，将其拆分为重复的n-gram氨基酸序列。例如，将n设置为3，并将蛋白质序列ABCDE拆分为ABC,BCD,CDE，这样组成句子的各种单词将扩展到20的3次方。

将处理之后的序列进行D维嵌入并且初始化，然后输入门控卷积网络（包括1D卷积和GLU单元），其输出结果是蛋白质的最终表示。

2.实验

1.数据集

8：1：1切分数据集

2.参数

3.结果

测试交互模块的有效性：利用HyperAttentionDTI中的Davis数据集和TransformerCPI中的标签反转数据集GPCR

复现：

AUC Precision Recall
human
论文 0.984 0.962 0.943
复现 0.981 0.905 0.943

celegans
论文 0.987 0.948 0.949
复现 0.986 0.930 0.958

GPCR
论文 0.82 0.699 0.796
复现 0.791 0.674 0.775

无
论文 0.810 0.704 0.768
复现 0.797 0.711 0.752

二. DeepFusion: A deep learning based multi-scale feature fusion method for predicting drug-target interactions

问题：

（1）.已知药物-靶点相互作用的稀缺性导致模型的应用场景有限，大多数DTI数据未标记，只有一小部分已知的DTI数据可用。此外，当我们尝试在特定病例（例如糖尿病）上实现一些DTI模型时，可用训练数据的大小甚至更小。

（2）.仅限于编码分子特征，而忽略了如何对相互作用特征进行建模，Moltrans提取药物和蛋白质亚结构特征，以避免上述问题，如冗余特征等。然而，最终药物-蛋白质相互作用特征的维数太大，仅从单一角度考虑，因此不够全面，无法准确预测DTIs数据的小样本。

工作：

（1）在先前的DTI预测中，仅使用其自身信息嵌入药物或蛋白质的结构，而不考虑与其他分子的全局特征。本文提出了一种在有限数据中获取更多信息的方法，以便做出准确的预测。应用谷本系数、列文施泰因距离和卷积神经网络生成药物和蛋白质全局结构相似性特征。（2）我们不仅考虑了分子的全局特征，而且还注意到药物-靶点相互作用发生在分子亚结构上。在我们的工作中，我们使用变压器来提取分子的子结构特征。（3）利用两个特征提取通道获得基于全局特征的交互作用和基于局部子结构特征的交互作用，将两个特征融合进行最终预测。

1.模型

为了得到某个药物的结构相似性特征，药物数据集里所有剩余的药物是当前药物的基准。蛋白质也如此。

DeepFusion由全局结构相似性特征提取通道（Sim通道）、局部结构特征提取通道（子通道）和交互预测模块（IP模块）组成。

1.Sim-Channel利用相似性理论和卷积神经网络，对预先生成的药物/蛋白质结构相似性矩阵进行操作，获得药物/蛋白质结构相似性特征（DSSF/PSSF）。首先使用Rdkit将药物SMILES转换为半径为2的摩根指纹，再分别依据所有的药物、蛋白质结构信息分别生成两者的结构相似性矩阵，再分别在药物和蛋白质结构相似性矩阵上获得输入到Sim通道的单个药物和蛋白质的DSSF和PSSF。对于DSSF，它包含基准数据集中输入药物与所有药物的计算结构相似性评分。DSSF可以极大地捕获单个药物与基准数据集中所有药物的结构关联，从而能够更准确地表示输入的单个药物。获得每个药物和蛋白质的DSSF和PSSF之后就输入CNN进行提取降维特征（因为原始相似性特征的维数较大，部分相似性信息是多余的）。最后使用点积计算基于相似性的交互作用。

（1）生成药物结构相似性矩阵：根据谷本系数分别计算每个药物和数据集剩余每个药物的摩根指纹相似分数，这些值组成二维矩阵，即结构相似性矩阵。此时第i行值就表示第i个药物的结构相似特征向量。就建立起了一个药物与其他药物之间的联系。

（2）生成蛋白质相似性矩阵：利用Levenshtein距离【是一种用于度量两个字符串之间的相似性或差异的方法。它表示将一个字符串转换成另一个字符串所需的最小单字符编辑操作数。这些编辑操作可以是插入（在字符串中插入一个字符）、删除（删除一个字符）或替换（将一个字符替换为另一个字符）】来计算每个蛋白质的结构相似性。这些值组成二维矩阵，即结构相似性矩阵。此时第i行值就表示第i个蛋白质的结构相似特征向量。就建立起了一个蛋白质与其他蛋白质之间的联系。

2.子通道使用频繁连续子序列（FCS）方法，可适应提取蛋白质和药物的高质量fifite大小的子结构。随后通过使用Transformer来学习子结构的信息和输入序列的化学语义信息（包括内容嵌入和位置嵌入），增强了子结构的上下文嵌入。在Transformer网络的最后一层使用CNN进行降维，以避免维数爆炸。最后使用点积计算基于子结构的交互作用。

3.交互预测模块（IP-Module）融合了上述两部分特征，通过展平以及串联特征来生成最终编码的交互特征，以便进行更准确的预测，通过全连接层获得预测DTI的概率得分。