SAEMDA:基于堆叠自编码器的潜在 miRNA-疾病相关性预测(Briefings in Bioinformatics)

本文主要是介绍SAEMDA:基于堆叠自编码器的潜在 miRNA-疾病相关性预测(Briefings in Bioinformatics),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Prediction of potential miRNA–disease associations based on stacked autoencoder

源代码:GitHub - xpnbs/SAEMDA

Prediction of potential miRNA–disease associations based on stacked autoencoder | Briefings in Bioinformatics | Oxford AcademicAbstract. In recent years, increasing biological experiments and scientific studies have demonstrated that microRNA (miRNA) plays an important role in the develhttps://academic.oup.com/bib/article/23/2/bbac021/6529883

Abstract

        近年来,越来越多的生物学实验和科学研究表明,小 RNA (miRNA)在人类复杂疾病的发展中起着重要作用。因此,发现 miRNA 与疾病的关联有助于准确诊断和有效治疗疾病。通过基于生物学数据的计算方法识别 miRNA 与疾病的关联已被证明是低成本和高效率的。在这项研究中,我们提出了一个计算模型称为堆叠自动编码器用于潜在的 miRNA-疾病关联预测(SAEMDA)。在 SAEMDA,所有的 miRNA 疾病样本都被用于无监督地预训练一个堆叠的自编码器(SAE)。然后,在 SAE 中增加一个带有 softmax 分类器的输出层,利用正样本和相同数量的选定负样本对 SAE 进行监督微调(fine-tune)。SAEMDA 可以充分利用所有未标记的 miRNA 疾病对的特征信息。因此,SAEMDA 适用于包含小标记样本和大未标记样本的数据集。结果表明,SAEMDA 在全局和局部留一交叉验证中的 AUC 分别为0.9210和0.8343。此外,SAEMDA 经过100次5折交叉验证,平均得到0.9102 ±/-0.0029的 AUC 和标准差。这些结果比以前的模型要好。此外,我们进行了三个案例研究,以进一步证明 SAEMDA 的预测准确性。因此,前50位预测的 miRNA 中有82% (乳腺肿瘤)、100% (肺肿瘤)和90% (食管肿瘤)得到了数据库的验证。因此,SAEMDA 可能是一个有用和可靠的模型来预测潜在的 miRNA 疾病的关联。

Keywords: microRNA, disease, association prediction, Stacked Autoencoder, pretraining, fine-tuning

目录

1.引言

2.结果

3.讨论

4.材料和方法

4.1.材料

4.2.SAEMDA


1.引言

        虽然上述模型在一定程度上表现出了可靠的性能,但每种模型都有其自身的局限性,需要进一步改进。由于深度学习技术可以更好地学习数据的表示,并且近年来已经成功地用于基因组学和药物发现等许多领域[40] ,我们考虑将其应用于 miRNA 疾病关联的预测。此外,只有具有已知标签的对才能用于训练普通的多层感知机网络,因此我们需要通过使用所有 miRNA-disease 对来预训练多层感知机网络,以在一定程度上减少已知关联过少对预测准确性的影响。受 Bahi 等人[41]的启发,我们提出了一个用于潜在的 MiRNA-疾病关联预测的堆叠自动编码器模型(SAEMDA),该模型利用了深度学习和预训练。我们首先使用所有 miRNA 疾病对以无监督的方式预训练堆叠自动编码器(SAE)。然后,利用正样本和相同数量的随机选择的负样本,以监督的方式对 SAE 进行微调。通过三种交叉验证方法对该方法的预测性能进行了评价。结果,SAEMDA 在全局留一交叉验证(LOOCV)中获得了0.9210的 AUC,在局部 LOOCV 中获得了0.8343的 AUC,以及在100倍5倍交叉验证中的平均 AUC 和标准差为0.9102 ± 0.0029。此外,我们还进行了三个案例研究来验证 SAEMDA 的预测精度。在乳腺肿瘤(BN) ,肺肿瘤(LN)和食管肿瘤(EN)的三种不同类型的病例研究中,前50名预测的潜在相关 miRNA 中的41,50和45通过数据库验证。

2.结果

3.讨论

        预测潜在的 miRNA-疾病关联使研究人员能够更好地了解疾病的机制,促进复杂疾病的诊断、治疗和预后。在这项研究中,我们开发的 SAEMDA,可以有效地补充传统的生物实验方法。在 SAEMDA,所有的 miRNA 疾病样本都被用于预训练一个SAE。然后,用阳性样品和相同数量的阴性样品对 SAE 进行微调。SAEMDA 在三种类型的交叉验证中均优于其他模型。SAEMDA 方法优于以往的方法,主要是因为它在训练过程中充分利用了所有未标记样本的信息。此外,三种实例分析的结果进一步说明了 SAEMDA 的可靠性预测性能。除了 miRNA- 疾病关联预测之外,生物信息学领域还有许多重要的关联预测问题,如 lncRNA- 疾病关联预测[58] ,环状 RNA (circRNA)-疾病关联预测[59]和蛋白质-蛋白质相互作用预测[60]。在 miRNA-疾病关联预测任务中,SAEMDA 表现出良好的性能。因此,可以考虑利用 SAEMDA 框架来解决上述链路预测问题。

        SAEMDA 的可靠性归功于以下几个方面。首先,我们研究中使用的数据包含495个 miRNA 和383个疾病的189585个 miRNA 疾病对,只有5430个已知的关联。由于 SAEMDA 采用了无监督预训练和监督微调相结合的方法,因此特别适合于由大量未标记数据和少量标记数据组成的数据集预训练过程使模型能够了解所有 miRNA-疾病对的特征,并弥补了传统的监督式学习模型只能通过标签样本进行训练的缺陷此外,微调过程使模型能够学习少量标记数据的标签信息,以进一步提高性能。其次,SAEMDA 整合了不同的相似性网络,使特征能够更好地捕获所有 miRNA-疾病对的信息。最后,我们在 SAEMDA 的训练过程中选择了 Adam 优化器,因为它比传统的随机梯度下降(SGD)优化器更有效率。

        然而,SAEMDA 仍有一些局限性。首先,神经网络的超参数(如隐层数和每层神经元数)没有很好地确定。其次,SAEMDA 在100次5折交叉验证中获得了比对照模型大的标准差。因此,SAEMDA 模型在稳定性方面略逊于其他模型,这是深度学习中的一个常见问题。第三,微调过程中需要正、负样本,但随机选择未标记样本作为负样本会带来不准确的信息。最后,在作为疾病-miRNA 对特征的疾病和 miRNA 的剪接相似性方面还有改进的余地。因此,如何构建和提取 miRNA-疾病对的可靠特征将是未来预测方法设计的研究方向。此外,有必要设计适当的方法来改变阴性样本的选择方式。聚类算法可以考虑用于负样本选择过程[61-63]。此外,设计有效的方法引入其他生物学信息来帮助预测潜在的 miRNA-疾病关联也是一个重要的方向。

4.材料和方法

4.1.材料

        首先,从 HMDD v2.0数据库获得人类 miRNA-疾病关联[42]。具体来说,有495种 miRNA,383种疾病和5430种实验证实的 miRNA 与疾病的关联。我们使用 nd 和 nm 分别表示疾病和 miRNA 的数量。大小为 nm × nd 的邻接矩阵 A 被用来代表所有的 miRNA-疾病对。如果 miRNAm (i)与疾病 d (j)相关,则 A (i,j)等于1; 否则为0。此外,miRNA 的功能相似性评分是在之前的研究中计算出来的[64] ,可以从 http://www.cuilab.cn/files/images/cuilab/misim.zip 下载。用 FS 矩阵表示 miRNA 功能相似矩阵。此外,我们通过有向无环图描述了两种疾病之间的关系,并根据以前的研究使用了两种不同的方法来计算疾病的语义相似度[32]。基于两种疾病的 DAGs 的共同部分越大,语义相似度值越大的假设,我们通过以前的研究[32]中的方法计算了第一类疾病语义相似度矩阵 SS1。由于同一层 DAG 中的不同疾病术语对所研究疾病的语义价值应该有不同的贡献,我们重新定义了每个疾病术语的语义贡献,并进一步计算了第二类疾病语义相似性矩阵 SS2[32]。此外,基于相似疾病(miRNA)与 miRNA (疾病)具有相似的相互作用和非相互作用模式的假设,我们根据以前的方法计算了疾病(miRNA)的高斯相互作用谱核相似矩阵 KD (KM)[65]。值得注意的是,在每轮 LOOCV 和5折交叉验证中,KD 和 KM 将根据除测试样本以外的所有已知关联信息重新计算。最后,我们将 miRNA 的高斯互作谱核相似性与 miRNA 功能相似性结合起来,根据以前的研究[22]的方法得到完整的 miRNA 相似性矩阵 SM 如下:

        同样,我们也通过整合高斯相互作用轮廓核相似度和两种疾病语义相似度计算了综合疾病相似度矩阵 SD。

4.2.SAEMDA

        在这项研究中,我们提出了一个新的模型命名为 SAEMDA 来预测潜在的 miRNA 疾病的关联。SAEMDA 的流程图如图2所示。SAEMDA 的第一步是数据准备,即将 miRNA-disease 对表示为特征向量。如前文所述,我们构建了 miRNA-疾病对(nm × nd)的邻接矩阵 A,整合的 miRNA 相似性矩阵 SM (nm × nm)和整合的疾病相似性矩阵 SD (nd × nd)。从中分别提取各种 miRNA 和疾病的 nm 和 nd features。连接所研究的疾病和miRNA的特征向量产生了每个 miRNA-疾病对的 nm + nd features。在所有的 miRNA 疾病对中,共有5430对是已知的关联,其余的 miRNA 疾病对是未标记的。

        SAEMDA 的第二步是基于所有 miRNA 疾病对的 SAE 的无监督预训练。SAE 的深度学习模型可以通过叠加多个自动编码器(AE)[66]来构建。AE由编码器和解码器组成。编码器通过将输入特征从输入层映射到隐藏层来学习新的表示,而解码器则从隐藏层到输出层重构原始输入。此外,输入层和输出层具有相同数量的神经元。AE可以降低原始数据的维数。将训练样本的特征向量 X 输入 AE 后,定义隐层的表示形式如下:

其中 σ、 W 和 b 分别代表编码器的激活函数(我们研究中的 tanh)、权重矩阵和偏置向量。然后,根据对隐藏层的表示,重新构造了与 X型状相同的输出

其中 表示解码器的权重矩阵和偏置向量。接下来,基于 Adam 优化器对 AE 进行了最小化重建损失的训练:
 

        在这项研究中,根据以前的研究[41] ,SAE 是通过叠加三个 AE 构建的。对 SAE 进行了以下无监督的预训练:

1)利用所有 miRNA 疾病对的特征向量对一个 AE 进行训练。

2)去除AE中的解码层。然后,以第一个 AE 生成的特征向量作为输入,构造一个新的AE。

3)新的AE被训练,而以前训练的 AE 的权重和偏差保持不变。

4)重复步骤2和步骤3,直到三个 AEs 堆积起来。

        经过无监督预训练,我们得到了 SAE 的权重矩阵 W1、 W2和 W3,以及 b1、 b2和 b3的偏置向量。然后,SAEMDA 的第三步是基于正负样本的 SAE 监督微调。在这里,5430个已知的 miRNA 疾病关联被作为阳性样本。另外,从未标记的 miRNA 疾病对中随机选择了5430个阴性样本。微调过程包括以下步骤:

1)在预训练过程中得到的 SAE 中增加了输出层。这里,输出层和前一层之间的权重矩阵 W4和偏置向量 b4被随机初始化。

2)采用阳性样本和相同数量的阴性样本进行训练。

        最后,训练后的 SAE 可用于预测潜在的 miRNA-疾病关联。值得注意的是,SAEMDA 在每个隐藏层都使用了 tanh 激活函数,在输出层使用了 softmax 分类器。此外,在微调过程中采用交叉熵作为损失函数,并利用Adam优化器对 SAE 进行优化。此外,我们将三个 AE 的隐藏层数分别设置为512、256和128。在设置模型的超参数后,我们用0.0001的学习率训练 SAEMDA 以获得最终的 miRNA-疾病关联评分。

这篇关于SAEMDA:基于堆叠自编码器的潜在 miRNA-疾病相关性预测(Briefings in Bioinformatics)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/241143

相关文章

稀疏自编码器tensorflow

自编码器是一种无监督机器学习算法,通过计算自编码的输出与原输入的误差,不断调节自编码器的参数,最终训练出模型。自编码器可以用于压缩输入信息,提取有用的输入特征。如,[1,0,0,0],[0,1,0,0],[0,0,1,0],[0,0,0,1]四比特信息可以压缩成两位,[0,0],[1,0],[1,1],[0,1]。此时,自编码器的中间层的神经元个数为2。但是,有时中间隐藏层的神经元

Tensorflow lstm实现的小说撰写预测

最近,在研究深度学习方面的知识,结合Tensorflow,完成了基于lstm的小说预测程序demo。 lstm是改进的RNN,具有长期记忆功能,相对于RNN,增加了多个门来控制输入与输出。原理方面的知识网上很多,在此,我只是将我短暂学习的tensorflow写一个预测小说的demo,如果有错误,还望大家指出。 1、将小说进行分词,去除空格,建立词汇表与id的字典,生成初始输入模型的x与y d

临床基础两手抓!这个12+神经网络模型太贪了,免疫治疗预测、通路重要性、基因重要性、通路交互作用性全部拿下!

生信碱移 IRnet介绍 用于预测病人免疫治疗反应类型的生物过程嵌入神经网络,提供通路、通路交互、基因重要性的多重可解释性评估。 临床实践中常常遇到许多复杂的问题,常见的两种是: 二分类或多分类:预测患者对治疗有无耐受(二分类)、判断患者的疾病分级(多分类); 连续数值的预测:预测癌症病人的风险、预测患者的白细胞数值水平; 尽管传统的机器学习提供了高效的建模预测与初步的特征重

结合Python与GUI实现比赛预测与游戏数据分析

在现代软件开发中,用户界面设计和数据处理紧密结合,以提升用户体验和功能性。本篇博客将基于Python代码和相关数据分析进行讨论,尤其是如何通过PyQt5等图形界面库实现交互式功能。同时,我们将探讨如何通过嵌入式预测模型为用户提供赛果预测服务。 本文的主要内容包括: 基于PyQt5的图形用户界面设计。结合数据进行比赛预测。文件处理和数据分析流程。 1. PyQt5 图形用户界面设计

CNN-LSTM模型中应用贝叶斯推断进行时间序列预测

这篇论文的标题是《在混合CNN-LSTM模型中应用贝叶斯推断进行时间序列预测》,作者是Thi-Lich Nghiem, Viet-Duc Le, Thi-Lan Le, Pierre Maréchal, Daniel Delahaye, Andrija Vidosavljevic。论文发表在2022年10月于越南富国岛举行的国际多媒体分析与模式识别会议(MAPR)上。 摘要部分提到,卷积

多维时序 | Matlab基于SSA-SVR麻雀算法优化支持向量机的数据多变量时间序列预测

多维时序 | Matlab基于SSA-SVR麻雀算法优化支持向量机的数据多变量时间序列预测 目录 多维时序 | Matlab基于SSA-SVR麻雀算法优化支持向量机的数据多变量时间序列预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab基于SSA-SVR麻雀算法优化支持向量机的数据多变量时间序列预测(完整源码和数据) 2.SS

力扣 | 递归 | 区间上的动态规划 | 486. 预测赢家

文章目录 一、递归二、区间动态规划 LeetCode:486. 预测赢家 一、递归 注意到本题数据范围为 1 < = n < = 20 1<=n<=20 1<=n<=20,因此可以使用递归枚举选择方式,时间复杂度为 2 20 = 1024 ∗ 1024 = 1048576 = 1.05 × 1 0 6 2^{20} = 1024*1024=1048576=1.05 × 10^

回归预测 | MATLAB实现PSO-LSTM(粒子群优化长短期记忆神经网络)多输入单输出

回归预测 | MATLAB实现PSO-LSTM(粒子群优化长短期记忆神经网络)多输入单输出 目录 回归预测 | MATLAB实现PSO-LSTM(粒子群优化长短期记忆神经网络)多输入单输出预测效果基本介绍模型介绍PSO模型LSTM模型PSO-LSTM模型 程序设计参考资料致谢 预测效果 Matlab实现PSO-LSTM多变量回归预测 1.input和outpu

解决解压缩时的错误提示 “无法成功完成操作, 因为文件包含病毒或者潜在垃圾文件“

近期, 有一些朋友反馈在解压zip压缩包, 或者在安装软件的过程中出现了下面的错误提示: "无法成功完成操作, 因为文件包含病毒或者潜在垃圾文件" "Operation did not complete successfully because the file contains a virus or potentially unwanted software" 上述错误一般

时序预测|变分模态分解-双向时域卷积-双向门控单元-注意力机制多变量时间序列预测VMD-BiTCN-BiGRU-Attention

时序预测|变分模态分解-双向时域卷积-双向门控单元-注意力机制多变量时间序列预测VMD-BiTCN-BiGRU-Attention 文章目录 一、基本原理1. 变分模态分解(VMD)2. 双向时域卷积(BiTCN)3. 双向门控单元(BiGRU)4. 注意力机制(Attention)总结流程 二、实验结果三、核心代码四、代码获取五、总结 时序预测|变分模态分解-双向时域卷积