本文主要是介绍《利用RWR算法和正点互信息集成多种异构信息源预测lncRNA与疾病的相关性》论文梳理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
引用: Fan, X. N., et al. (2019). “Prediction of lncRNA-disease
associations by integrating diverse heterogeneous information sources
with RWR algorithm and positive pointwise mutual information.” BMC
Bioinformatics 20(1): 87.
1.RWR算法(重启随机游走算法)
2.PMI(Pointwise Mutual Information)点互信息
提出了一种新的基于网络的方法,即IDHI-MIRW,该方法通过使用RWR(Random Walk With Restart)算法和正点互信息(PPMI) 构建大规模的lncRNA疾病异构网络来预测潜在的lncRNA疾病关联。IDHI-MIRW计算参与lncRNA表达谱、lncRNA-miRNA相互作用和lncRNA-蛋白质相互作用的所有lncRNA的lncRNA相似性,还计算疾病本体、疾病-miRNA关联和疾病-基因关联所涉及的所有疾病的疾病相似性。然后,IDHI-MIRW在每个相似网络上使用RWR算法捕捉网络拓扑结构特征,通过PPMI度量lncRNA/疾病拓扑相似性。通过整合lncRNA/疾病拓扑相似性,引入已知的lncRNA-疾病关联信息,构建了大规模的lncRNA-疾病异构网络。最后,异质网络上重启随机游走(RWRH)算法[42]被应用于lncRNA-疾病异质网络,以预测潜在的lncRNA-疾病关联。结果表明,IDHI-MIRW不仅能较好地预测已知的lncRNA-疾病关联,而且能有效地预测潜在的lncRNA-疾病关联,为实验验证提供了更多的候选者。
关键词
LncRNA,疾病,lncRNA -疾病关联,异构网络,RWR算法
背景
计算方法主要分为基于机器学习的方法和基于网络的方法。
基于机器学习的方法,如LRLSLDA、LDAP和MFLDA;
基于网络的方法,如RWRlncD、RWRHLD、KATZLDA和GrwLDA。
评价方法和评价指标
采用留一法交叉验证法(LOOCV) 评价IDHI-MIRW方法的性能。
在LOOCV测试方法中,数据集中每个已知的LncRNA-疾病关联被依次挑选出来作为测试样本,其余的LncRNA-疾病关联被用作训练样本。即,对于给定的疾病di,依次省略与di关联的每个已知LncRNA作为测试样本,并且去除测试lncRNA和di之间的对应关联边缘,并且将剩余的与di关联的lncRNA视为训练样本。
本实验以(ROC)曲线下面积(AUC)和精确召回(PR)曲线下面积(AuPR)作为评价指标。ROC曲线是真阳性率(TPR,或召回)与假阳性率(FPR)在不同等级界限下的曲线图。PR曲线是在每个给定的召回率下,所有正面预测中真阳性词所占比例的曲线图。
在AUC和AUPR方面,IDHI-MIRW比其他六种方法取得了更好的性能。IDHI-MIRW的AUC=0.866,AUCPR=0.318。
图1 LOOCV测试中IDHI-MIRW、LRLSLDA、LNCSIM、RWRlncD、IRWRLDA、KATZLDA和GrwLDA在小规模lncRNA病异质网络上的结果。a.AUC值 b.AUPR值
表1列出了7种方法在不同等级截止点下的召回值,可以看出IDHI-MIRW在10、20、50和100个截止点时的召回值高于其他6种方法。这些结果表明,我们的IDHI-MIRW可以有效地预测lncRNA与疾病的关联。
表1 LOOCV测试中小规模lncRNA病异质网络在不同截止点下的7种方法调用
为了进一步评估IDHI-MIRW在没有任何已知LncRNA关联信息的情况下预测新疾病的相关LncRNA的性能,我们在小规模的LncRNA-疾病异构网络中删除了所有已知的与查询疾病的LncRNA关联。由于RWRlncD在lncRNA相似性网络上实现了RWR算法,所以我们只将IDHI-MIRW方法与LRLSLDA、LNCSIM、IRWRLDA、KATZLDA和GrwLDA这五种方法进行了比较,以预测查询疾病的相关lncRNA。比较结果如图2所示,这表明我们的IDHI-MIRW方法比其他现有的预测方法能更好地预测新疾病的相关lncRNA。
图2 没有任何已知疾病关联信息的疾病预测结果a.AUC值 b.AUPR值
引入多元信息源的有效性
从EMBL-EBI、Starbase v2.0、NPInterv3.0、RAID v2.0、疾病本体、HMDD v2.0和DisGeNet收集了7637个lncRNA和6453种疾病,通过引入2169个已知的lncRNA-疾病关联来构建大规模的lncRNA-疾病异构网络(HNetL)。附加文件1和2提供了lncRNA和疾病的数据处理程序。表2列出了IDHI-MIRW在HNetS和HNetL异质网络LOOCV测试中的结果,从中可以看出,引入更多的lncRNA和疾病可以有效地提高IDHI-MIRW的预测性能,并且可以在没有任何已知疾病/lncRNA关联信息的情况下预测潜在的新疾病/lncRNA。所有这些结果表明,IDHI-MIRW可以获得更可靠的预测lncRNA疾病关联的性能。
表2 LOOCV测试中IDHI-MIRW在小规模lncRNA病异质网络和大规模lncRNA病异质网络上的结果
利用拓扑相似网络构建lncRNA病异质网络的有效性
设计了另一种IDHI-AVG方法,采用取LncNet1、LncNet2和LncNet3三个LncRNA相似矩阵平均形成LncRNA整合络(即LncINet)、平均Disnet1、Disnet2和Disnet3三个疾病相似矩阵形成疾病整合网络(即DisINet)的策略。
IDHI-AVG将LncINet和DisINet这两个集成相似网络与已知的LncRNA-疾病二部网络相结合,构建了LncRNA-疾病异构网络,并在该网络上实施RWRH算法来预测潜在的LncRNA-疾病关联。
表3显示了IDHI-AVG和IDHI-MIRW在LOOCV测试中对小规模ncRNA病异质网络(HNetS)和大规模ncRNA病异质网络(HNetL)的比较结果。可以看出,IDHI-MIRW的AUC和AUPR值均高于IHDI-AVG。这些结果表明,利用RWR和PPMI形成lncRNA/疾病拓扑相似网络,进而构建lncRNA-疾病异质网络的策略是有效的。它可以提高预测lncRNA与疾病关联的性能。
表3 LOOCV测试中IDHI-MIRW和IDHI-AVG在小规模lncRNA病异质网络和大规模lncRNA病异质网络上的比较
参数的影响
该方法有四个主要参数,分别是RWR的重新启动概率α和RWRH的重新启动概率β、跳跃概率γ和参数η,η用来衡量lncRNA拓扑相似子网和疾病拓扑相似子网的重要性。
在HNetL异构网络上实现了IDHI-MIRW,在不同的α,β,γ和η值(从0.1到0.9,尺度为0.1)的LOOCV测试中进行了测试。
附加文件3显示了具有不同参数的IDHI-MIRW的AUC和AUPR值。可以看出,IDHI-MIRW算法的性能对这四个参数的取值具有很强的鲁棒性。
附加文件4显示了LOOCV测试中HNetS异构网络上IDHI-MIRW的AUC和AUPR值。在本工作中,我们选择α=0.9、γ=0.9、η=0.2和β=0.6。
病例研究和潜在的lncRNA与疾病的相关性分析
以乳腺癌、胃癌和结直肠癌为例,预测其潜在的与IDHI-MIRW相关的lncRNA。
对于一个给定的疾病,所有与该给定疾病相关的已知lncRNA被认为是种子节点,其他剩余的lncRNA(即与该给定疾病没有已知关联的)被认为是与该给定疾病相关的候选基因。通过在大规模的lncRNA-疾病异构网络上实现DHI-MIRW算法,并根据lncRNA-疾病关联得分从大到小进行排序,提取出每个癌症的前15个潜在关联lncRNA。
这些最有可能关联的LncRNA列在附加文件5、6和7中。
- 为了进一步发现预测的LncRNAs与癌症相关的证据,分析了乳腺癌、胃癌和结直肠癌的RNAseq和TCGA的临床数据。对于结直肠癌,从TCGA下载了RNAseq数据,包括19676个蛋白质编码基因,41个正常样本和474个肿瘤样本中的15513个lncRNA基因。使用DESeq2[61]算法,通过设置log2FC>1(或<−1),Fdr<0.001,发现1230个显著上调的lncRNA和568个下调的lncRNA。在三个未经验证的lncRNA中,lncRNA
SNHG7(第14个)在肿瘤样本中显著上调(图3a)。同时,下载了448例肿瘤标本的临床资料,Kaplan-Meier生存分析表明,lncRNA
LINC01816(第10位)可以将448例大肠癌患者分为不同生存期的高危组和低危组(图3b)。
关于乳腺癌和胃癌的RNAseq和临床数据分析的结果显示。
图3大肠癌RNAseq和临床资料分析结果
a. 正常和肿瘤标本中lncRNA SNHG7表达的框图。
b. lncRNA LINC01816的生存曲线
附加文件8和9中5/6未确认的lncRNA在相应的癌症中有明显的差异表达。
- 综上所述,在45个潜在的关联LncRNA中,有36个(13个乳腺癌,11个胃癌,12个结直肠癌)已经被最近的文献支持。通过对9个未验证的潜在关联LncRNAs的分析,发现有6个LncRNAs在相应的肿瘤中存在差异表达,并且LINC01816与结直肠癌患者的生存相关。这三个案例研究的结果表明,IDHI-MIRW可以有效地预测疾病的新关联lncRNAs。
讨论
大多数计算方法只关注小规模的lncRNA-疾病异质网络(即涉及少量的lncRNA和疾病)来预测lncRNA-疾病的关联。为解决这一问题,基于大规模的lncRNA疾病异质网络(包含7637个lncRNA和6453种疾病),开发了IDHI-MIRW来预测潜在的lncRNA疾病关联。IDHI-MIRW没有计算lncRNA与疾病之间的相似性,而是使用了三个与lncRNA相关的信息(即lncRNA表达谱、lncRNA-miRNA相互作用和lncRNA-蛋白质相互作用)来形成三个lncRNA相似网络,以及三个与疾病相关的信息(即疾病语义相似、疾病-miRNA关联和疾病-基因关联)来形成三个疾病相似网络。此外,IDHI-MIRW不是直接融合这些相似网络,而是在每个lncRNA/疾病相似网络上应用RWR算法来获取拓扑相似性,并使用PPMI来生成lncRNA/疾病拓扑相似网络。将lncRNA拓扑相似网络、疾病拓扑相似网络和已知的lncRNA-疾病二部图相结合,构建了大规模的lncRNA-疾病异质网络。然后,使用RWRH算法对每个查询疾病的候选LncRNA进行优先排序。
实验结果表明,IDHI-MIRW取得了比现有方法更好的性能。我们评估了引入多个信息源和捕捉拓扑相似性的有效性,表2和表3表明这些策略对于提高预测lncRNA-疾病关联的性能是有效的。
虽然IDHI-MIRW可以有效地预测潜在的lncRNA与疾病的关联,但在未来仍有几个问题需要进一步解决。首先,IDHI-MIRW使用三个lncRNA相关信息和三个疾病相关信息来生成相似度矩阵,我们仍然希望整合更多的信息(例如,lncRNA GO注释和疾病网格注释)来更好地预测lncRNA与疾病的关联。其次,采用平均策略对lncRNA/疾病拓扑相似矩阵进行了整合,期望在未来的工作中设计更好的整合方法来衡量多个lncRNA/疾病相似性的不同贡献。
结论
- 提出了一种新的基于网络的方法(即IDHI-MIRW)来识别潜在的lncRNA与疾病的关联。利用RWR和PPMI集成了多个lncRNA相关信息(即lncRNA表达谱、lncRNA-miRNA相互作用和lncRNA-蛋白质相互作用)、多个疾病相关信息(即疾病语义相似度、疾病半RNA关联性和疾病-基因关联性),以及已知的lncRNA-疾病关联信息,构建了一个大规模的lncRNA-疾病异构网络。实验结果表明,IDHI-MIRW比其他最先进的方法具有更高的性能,并发现lncRNA
LINC01816与结直肠癌患者的生存相关。这些结果表明,IDHI-MIRW有助于鉴定潜在的cRNA与疾病的相关性。
**
方法
数据集
**
- 收集了lncRNA表达谱数据、lncRNA-miRNA相互作用数据和lncRNA-蛋白质相互作用数据,构建了lncRNA相似网络;收集了疾病本体(DO)信息、疾病-miRNA关联和疾病-蛋白质关联数据,构建了疾病相似网络。所有的lncRNA都用ensemb1基因ID标注,所有的疾病都用疾病本体ID标注。
从EMBL-EBI下载LncRNA表达谱,其中包括53个人体组织样本的表达谱。LncRNA-miRNA相互作用和lncRNA-蛋白质相互作用收集自StarBase
v2.0、NPInterv3.0和RAID v2.0数据库。疾病本体术语收集自疾病本体。疾病-miRNAs关联收集自HMDD
v2.0。疾病-基因关联收集自DisGeNet。已知的LncRNA疾病关联收集自LncRNA疾病、Lnc2Cancer和GeneRIF。这些数据的详细信息和统计数据显示在附加文件11中。
**
IDHI-MIRW算法综述
**
DHI-MIRW算法由以下四个步骤组成。
步骤1:
基于LncRNA表达谱、LncRNA-miRNA相互作用和LncRNA-蛋白质相互作用构建三个LncRNA相似网络(即LncNet1、LncNet2、LncNet3),并基于疾病本体、疾病-miRNA关联和疾病-基因关联构建三个疾病相似网络(即DisNet1、DisNet2、DisNet3)。
步骤2:
分别对lncRNA相似网络(LncNet1,LncNet2,LncNet3)和疾病相似网络(DisNet1,DisNet2,DisNet3)进行RWR,将LncRNA拓扑相似网络(LncTSNet)和疾病拓扑相似网络(DisTSNet)进行融合,形成LncRNA拓扑相似网络(LncTSNet)和疾病拓扑相似网络(DisTSNet)。
步骤3:
整合LncRNA拓扑相似网络(LncTSNet)、疾病拓扑相似网络(DisTSNet)和已知的LncRNA-疾病关联,构建大规模的LncRNA-疾病异构网络。
步骤4: 在lncRNA-疾病异质网络上实施RWRH,以预测潜在的lncRNA-疾病关联。 IDHI-MIRW的流程图如图4所示。
图4 IDHI-MIRW流程图:
a. 通过计算Pearson相关系数和高斯相互作用谱核相似度构建3个lncRNA相似网络和3个疾病相似网络;
b. 利用RWR和正点互信息构建lncRNA/疾病拓扑相似网络;
c. 通过整合lncRNA/疾病拓扑相似性和已知的lncRNA-疾病关联构建大规模的lncRNA-疾病异质网络;
d. 通过实施RWRR预测潜在的lncRNA-疾病关联
**
构建lncRNA/疾病相似性网络
**
- 通过计算任意一对LncRNA与表达谱的Pearson相关系数,并确定阈值P(<0.01),构建了LncNet1 LncRNA相似性加权网络。基于LncRNA-miRNA和LncRNA-蛋白质相互作用的高斯相互作用谱核相似度,计算任意一对LncRNA li和LncRNA lj之间的高斯相互作用谱核相似度,然后分别构建LncNet2和LncNet3的LncRNA相似加权网络。计算了lncRNA li和lncRNA lj之间的高斯相互作用谱核相似性。
- 其中,相互作用谱IP(li)是LncRNA-miRNA(或LncRNA-蛋白质)相互作用的二进制载体,编码了在LncRNA-miRNA(或LncRNA-蛋白质)相互作用数据集中是否存在LncRNA li和miRNA(或蛋白质)之间的相互作用,κl控制核带宽,Nl是LncRNA的总数。 基于疾病本体中有向无环图(DAG)的结构,利用R包“DOSE” 中的函数doSim来获取任意疾病对之间的相似度,然后构建DisNet1疾病相似度加权网络。基于疾病-miRNA和疾病-基因关联的高斯互作谱核相似度,计算任意一对疾病di和dj之间的高斯互作谱核相似度,然后分别构建Disnet2和Disnet3疾病相似度加权网络。
- 其中,相互作用谱IP(di)是疾病-miRNA(或疾病-基因)关联的二进制载体,编码在疾病-miRNA(或疾病基因)关联数据集中存在或不存在di和miRNA(或基因)之间的关联。κd控制内核带宽,Nd是疾病总数。 生成lncRNA/疾病拓扑相似网络
- 该算法不是直接融合6个相似网络(即LncNet1、LncNet2、LncNet3、DisNet1、DisNet2和DisNet3),而是通过在每个相似网络上实施RWR算法来捕捉网络拓扑结构特征。RWR算法是一种网络扩散算法,被广泛应用于复杂生物网络的分析[65-69]。通过同时考虑网络中的局部和全局拓扑连通性模式,RWR算法可以充分利用节点之间的直接或间接关系[65]。RWR算法可以表示为:
- 其中,St是分布矩阵,其中第(i,j)个元素表示在随机游走过程中经过t次迭代后从节点i访问的节点j的分布概率,S0是初始分布矩阵,其中S0(i,i)=1,S0(i,j)=0,∀j≠i,α是控制局部和全局拓扑信息的相对影响的重启概率,B是IncRNA(或疾病)的加权邻接矩阵。
- 当ΔS=St+1−St的L1范数小于一个小的正ε时(我们设置ε=10−10),我们可以得到一个平稳分布矩阵S,称为每个节点的扩散状态[70]。扩散状态矩阵S中的元素S(i,j)表示RWR开始于节点i并结束于节点j达到平衡的概率。当两个节点的扩散状态接近时,这表明它们相对于网络中的其他节点可能具有相似的位置,并且它们可能共享相似的功能。
在Gligorijevic等[69]的启发下,我们使用PPMI来计算每个节点对的拓扑相似度,定义为:
矩阵MI是一个非对称矩阵,因此我们使用MI(i,j)和MI(j,i)的平均值来表示节点i和节点j的拓扑相似性。在获得LncNet1,LncNet2,LncNet3的三个lncRNA拓扑相似度矩阵X1L,X2L,X3L和DisNet1,DisNet2,DisNet3的三个疾病拓扑相似度矩阵X1D,X2D,X3D之后,我们可以通过对三个lncRNA拓扑相似度矩阵求平均值来形成积分lncRNA拓扑相似度矩阵X’L,通过对三个疾病拓扑相似度矩阵求平均值来形成积分疾病拓扑相似度矩阵X’D,即,X’L=(X1L+X2L+X3L)/3,X’D=(X1D+X2D+X3D)/3。因此,我们生成了lncRNA拓扑相似性网络LncTSNet和疾病拓扑相似性网络DisTSNet。 构建lncRNA-疾病异质网络通过将LncTSNet和DisTSNet网络与已知的lncRNA-疾病二分网络集成,我们可以构建lncRNA-疾病异质网络,其邻接矩阵可以定义为:
- 其中,AL和AD分别表示LncTSNet和DisTSNet的加权邻接矩阵;ALD表示LncRNA-疾病二部图的邻接矩阵;ADL表示ALD的转置。如果在已知的lncRNA-疾病关联中存在lncRNA
i与疾病j的关联,则ALD(i,j)=1,否则,ALD(i,j)=0。
**
实现预测LncRNA与疾病关联的RWRH算法
**
为了预测lncRNA与疾病之间的联系,采用了RWRH(异构网络上的重启随机游走)算法[42]来对与给定疾病相关的候选lncRNA进行优先排序。RWRH算法是著名的基于异构网络的推断基因-表型关系的算法。它能有效地捕捉异构网络中两类节点的互补性,被广泛应用于关联问题的预测。
LncRNA病异构网络上的RWRH算法可以表示为:
- 其中,pt是一个概率向量,其中第i个元素保留在步骤t处找到节点i处随机游走者的概率;β∈(0,1)是重启概率; p0是lncRNA-疾病异质网络的初始概率向量,被定义为。u0和v0的网络分别代表LncTSNet和DisTSNet的初始概率。设置LncTSNet网络的初始概率u0,以便将所有种子节点分配给概率总和等于1的相等概率。相似地,给出DisTSNet网络的初始概率v0。参数η∈(0,1)用于加权每个子网的重要性。
- 是lncRNA-疾病异质网络的转移矩阵,其中ML和MD是子网内转移矩阵,MLD和MDL是子网间转移矩阵。设γ为跳跃概率,即随机游走者从lncRNA网络跳到疾病网络的概率,或从疾病网络跳到lncRNA网络的概率。因此,从lncRNA li到lncRNAlj的转移概率ML(i,j)和从疾病di到疾病dj的转移概率MD(i,j)被定义为
- 从lncRNA 1i转移到疾病dj的转移概率和从疾病di转移到lncRNA lj的转移概率被描述为:
- 在一些步骤之后,通过执行迭代直到pt和pt+1(由L1范数测量)之间的差值降到10−10以下,可以获得稳态概率向量p*=p∞。p∗给出了查询疾病的每个lncRNA的排名分数。P∗中最大的LncRNA被认为是最可能与查询疾病相关的LncRNA。
**
附加文件
附加文件1:lncRNA数据处理程序。(TIF 1447KB) 附加文件2:疾病数据处理程序。(TIF 1340KB)
附加文件3:LOOCV检验中不同参数的大规模lncRNA病异质性的IDHI-MIRW的AUPR值。
(A)不同α的AUC值。(B)不同γ的AUC值。©不同η的AUC值。(D)不同β的AUC值。(E)具有不同α的AUPR值。(F)具有不同γ的AUPR值。(G)具有不同η的AUPR值。(H)具有不同β的AUPR值。(TIF3520KB)
附加文件4:LOOCV检验中不同参数的小规模lncRNA病异质性IDHI-MIRW的AUC和AUPR值。(A)不同α的AUC值。(B)不同γ的AUC值。©不同η的AUC值。(D)不同β的AUC值。(E)具有不同α的AUPR值。(F)具有不同γ的AUPR值。(G)具有不同η的AUPR值。(H)具有不同β的AUPR值。(TIF
3705KB)
附加文件5:前15名预测与乳腺癌相关的lncRNA。(Xlsx 9kb)
附加文件6:预测胃癌相关LncRNA的前15个。(Xlsx 9kb) 附加文件7:预测大肠癌相关LncRNA的前15个。(Xlsx 9KB)
附加文件8:乳腺癌的RNAseq数据分析结果。 (A)最显著失调的200个lncRNA表达值的热图。
(B)LncRNA AL157395.1表达值的热图。 ©正常组织和肿瘤组织中LncRNA AL157395.1表达的盒图。
(D)LncRNA AP001528.1表达值热图。 (E)正常组织和肿瘤组织中LncRNA AP001528.1表达的盒图。(TIF9850KB)
附加文件9:胃癌的RNAseq数据分析结果。 (A)最显著失调的200个lncRNA表达值的热图。
(B)LncRNA KCNQ1OT1表达值热图。 ©正常组织和肿瘤组织中LncRNA KCNQ1OT1表达的盒图。 (D)lncRNA DLEU2表达值热图。 (E)正常组织和肿瘤组织中LncRNA DLEU2表达的盒图。 (F)lncRNA LINC00299表达值的热图。 (G)lncRNA LINC00299在正常和肿瘤组织中表达的盒图。(TIF 9211KB)
附加文件10:预测的lncRNA-疾病关联。(TXT 180KB)
附加文件11:收集数据的详细信息和统计数据。(DOCX 34KB)
这篇关于《利用RWR算法和正点互信息集成多种异构信息源预测lncRNA与疾病的相关性》论文梳理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!