多组学+机器学习+膀胱癌+分型+建模

本文主要是介绍多组学+机器学习+膀胱癌+分型+建模，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

这是一个基于多组学+机器学习的分型建模文章，这里我们大概介绍一下，这篇文章做了啥

一、研究背景

1、尿路上皮癌是高度恶性的肿瘤，预后差，死亡率高

2、没有明显有效的治疗方法，多数患者在免疫治疗中无法受益，其原因可能是患者之间异质性

3、基于此，作者使用多组学数据与机器学习方法进行分析，以识别生物标志物，能够有效的改善患者预后，和免疫治疗的效果

过程：TCGA（mRNA+lncRNA+miRNA+甲基化）多组织整合构建分子亚型，并通过差异分析筛选预后相关的32个基因，通过10种机器学习的算法构建预后模型

二、数据准备

TCGA+IMvigor210+GEO(GSE13507,GSE31684,GSE32548,GSE32894,GSE48075,GSE48276)+ E-MTAB-1803的数据集（本文做的是膀胱癌，所以可以以IMvigor210作为训练集，大家在做的时候，需要注意，训练集样本量多）

三、方法和结果展示

分析流程

1、多组学共识MUC预后相关分子亚型的构建

通过合并几套数据集，去批次，通过PCA查看去批次前后的各个数据集之间的分布

通过MOVICS包对mRNA+lncRNA+miRNA+甲基化进行聚类，使用包中的getElites函数筛选出各组学中变化最大的前1500个基因（或突变频率最高的1500个基因），依次为特征，使用包中getMOIC函数中流程化的10种聚类算法: iClusterBayes, moCluster, CIMLR, IntNMF, ConsensusClustering, COCA, NEMO, PINSPlus, SNF和LRA，根据先前的研究指定将患者分为三型，获得每种算法的分型结果后，使用getConsensusMOIC函数整合10种分型的结果并最终生成一种稳健的分型（以下称为CSs）。图A是整合分型在多组学中的分型效果，图B展示了CSs以及10种分型的结果，图C的相关性热图也展示了各亚型内的相似性以及亚型间的不相关性，图D的KM曲线说明基于多组学和多模型构建的分型能够准确对患者预后进行分层。

2、分子亚型之间功能的注释+免疫特征（分子景观）

通过收集一些关键的特征基因集（比如作者收集的与治疗反应相关以及膀胱癌相关的signature），通过ssGSEA的算法对三个亚型进行注释，结果发现CS2可能更倾向于目前公认的管腔样亚型，而CS3可能更倾向于基底样亚型（这个需要一定的背景去判断）。

接着分析了3个亚型在癌症染色质重塑相关的潜在调节因子和23个转录因子之间差异。进一步说明构建的CSs分型与染色质重塑相关

不同分子亚型关于免游已检查点，免疫浸润等等差异

三个亚型之间进行了差异分析，选择了每一个亚型的 top20 个上调的基因作为特征绘制基因表达热图（图D），通过这20个基因作为一个分类器，对验证集分型，并绘制KM曲线（E），通过这20个基因的分类器使用NTP的算法构建计算分类的准确性。

3、机器学习构建预后模型CMLS

基于10种机器学习组合算法对三个队列筛选特征基因构建风险模型（这里选择前面前面使用的各个亚型的top20的基因进行分析，可以在分析之前加入单因素cox分析），筛选出关键基因后，可以选择多因素计算系数建模，当然也可以通过Logistic回归方建模，单因素cox，多因素cox展示关键的预后情况，KM曲线