综述 2022-Genome Biology:“AI+癌症multi-omics”融合方法benchmark

2023-12-10 20:52

本文主要是介绍综述 2022-Genome Biology:“AI+癌症multi-omics”融合方法benchmark,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Leng, Dongjin, et al. "A benchmark study of deep learning-based multi-omics data fusion methods for cancer." Genome biology 23.1 (2022): 1-32.

  • 被引次数:34
  • 作者单位

        

  • 红色高亮表示写论文中可以借鉴的地方

一、方法和数据集

1. 3个数据集:

        模拟多组学数据集、单细胞多组学数据集、癌症多组学数据集

备注:

  • The benchmark cancer multi-omics datasets were downloaded from Multi-Omic Cancer Benchmark.
  • All dataset and codes are available at the https://github.com/zhenglinyi/DL-mo [70] (DOI: A benchmark study of deep learning-based multi-omics data fusion methods for cancer(code) [71]).
  • 模拟数据集生成软件:InterSIM CRAN package [45] 。
    • [45] Chalise P, Raghavan R, Fridley BL. InterSIM: Simulation tool for multiple integrative ‘omic datasets’. Comput Methods Prog Biomed. 2016;128:69–74.
    • 该软件包可以生成复杂且相互关联的多组学数据,包括 DNA 甲基化、mRNA 基因表达和蛋白质表达数据。生成了一百个具有 1000 维特征的模拟样本。在生成过程中,100个模拟样本的簇数参数设置为5、10和15。此外,我们在两种情况下生成每个样本簇:所有簇具有相同的大小,或者簇具有可变的随机大小。这模拟了一个真实的应用场景,其中属于每个簇(子类型)的样本比例可以相同或不同。

2. 16种方法:

        有监督模型(6 个)和无监督模型(10 个)

3. 2个任务:分类和聚类

  •         分类性能评估:accuracy, F1 macro, and F1 weighted
  •         聚类性能评估:Jaccard index (JI), C-index, silhouette score, and Davies Bouldin score

4. 实验细节

  • 对于模拟数据集和单细胞数据集,分别使用六个监督模型和十个无监督模型通过分类和聚类检索真实样本。
  • 对于癌症数据集,在具有真实癌症亚型的五种癌症数据集的分类任务中评估了监督式深度学习方法。同时,在聚类任务中评估了无监督深度学习方法。此外,还评估了嵌入与生存和临床注释的关联。

Fig. 1

二、实验结果

1. 模拟数据集上结果

Fig. 2

  • 图:模拟多组学数据集的评估工作流程。 
    • a InterSIM CRAN 软件包生成了三种用作输入的组学数据。 
    • b 有监督的深度学习方法在分类任务中进行评估。这些方法的性能基于 4 倍交叉验证,并通过三个指标进行评估:accuracy, F1 macro, and F1 weighted。 
    • c 采用无监督深度学习方法融合模拟的多组学数据,首先获得 5 维、10 维和 15 维嵌入。然后使用k-means算法对多组学降维结果进行聚类。采用Jaccard index (JI), C-index, silhouette score, and Davies Bouldin score作为聚类的评价指标

(1)分类(6种监督ML方法)

(2)聚类(10种无监督ML方法)

  • 指标 JI, C-index, silhouette score, and Davies Bouldin score of the ten unsupervised methods 评估
  • ML embedding + k-means聚类 --> 聚类评估

Fig. 3

2. 单细胞数据集上结果

将多组学数据融合方法应用于单细胞多组学数据有助于系统地探索细胞的异质性

单细胞数据集由两种组学数据类型组成,即单细胞染色质可及性数据和单细胞基因表达数据。这两类组学数据的特征数量分别为 49,073 和 207,203。这两个组学数据是从三种不同的癌细胞系(HTC、Hela 和 K562)中获得的,总共 206 个细胞 [48]。

Fig. 4

  • 单细胞多组学数据集评估的工作流程。 
    • 使用两种组学数据作为输入。 
    • b 有监督的深度学习方法在分类任务中进行评估。这些方法的性能基于 4 倍交叉验证,并通过三个指标进行评估:accuracy, F1 macro, and F1 weighted
    • 首先应用无监督深度学习方法融合单细胞多组学数据,获得融合的二维嵌入。然后使用k-means算法将多组学降维结果聚类为三类。采用Jaccard index (JI), C-index, silhouette score, and Davies Bouldin score作为聚类的评价指标

(1)分类(6种监督ML方法)

(2)聚类(10种无监督ML方法)

Fig. 5

3. 癌症数据集上结果

了解癌症的分子和临床特征

癌症基因组图谱 (TCGA) 癌症多组学数据集,该数据集由三种组学数据类型组成:基因表达、DNA 甲基化和 miRNA 表达。

对于分类任务,我们从 TCGA 中收集了具有真实癌症亚型的五种不同的癌症数据集,包括乳腺癌 (BRCA)、胶质母细胞瘤 (GBM)、肉瘤 (SARC)、肺腺癌 (LUAD) 和胃癌 (STAD)。对于聚类任​​务,为了保证评估的真实性,本研究使用的数据来自基准癌症数据集(http://acgt.cs.tau.ac.il/multi_omic_benchmark /download.html) [10]。

Fig. 6

  •  癌症多组学数据集评估的工作流程。 
    • a 使用三种组学数据作为输入。 
    • b 有监督的深度学习方法在分类任务中进行评估。这些方法的性能基于 4 倍交叉验证,并通过三个指标进行评估:accuracy, F1 macro, and F1 weighted
    • c首先应用无监督深度学习方法融合癌症多组学数据,获得融合的10维嵌入。然后使用k-means算法将多组学降维结果聚类为几类。我们采用accard index (JI), C-index, silhouette score, and Davies Bouldin score作为聚类的评价指标。此外,还评估了嵌入与生存和临床注释的关联

(1)分类(6种监督ML方法)

(2)聚类(10种无监督ML方法)

Fig. 7

  • 癌症多组学数据集上十种无监督方法的 Jaccard index (JI), C-index, silhouette score, and Davies Bouldin score以及嵌入与生存和临床注释的关联。 
  •         (a) C-index
  •         (b) silhouette score
  •         (c) Davies Bouldin score
  •         根据癌症数据的聚类计算得出簇的数量设置为二到六。 k-means 聚类运行了 1000 多次。
  •         (d) 与生存有很强关联的嵌入(Bonferroni 校正的 p 值小于 0.05)。 X 轴表示与生存相关的嵌入的数量。 Y 轴代表癌症,每种癌症都分配有一种颜色。
  •         (e) 十种无监督方法针对十种不同癌症类型的选择性得分。高于平均分(0.49)则显示分数,选择性分数越高,橙色块越亮

(3)embedding 与生存和临床注释的关联

Fig. 8

癌症子基准的图形摘要。 a 测试嵌入与生存之间的关联的详细信息。 b测试嵌入与临床注释关联的详细信息

三、讨论

Fig. 9

本研究中以平均统一分数为基准的基于深度学习的多组学数据融合方法。 a 监督模型在三个不同数据集中的统一性能。 b 无监督模型在三个不同数据集中的统一性能。我们以各个场景的统一最高分作为参考(标记为100%)来计算百分比

这篇关于综述 2022-Genome Biology:“AI+癌症multi-omics”融合方法benchmark的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/478339

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

webm怎么转换成mp4?这几种方法超多人在用!

webm怎么转换成mp4?WebM作为一种新兴的视频编码格式,近年来逐渐进入大众视野,其背后承载着诸多优势,但同时也伴随着不容忽视的局限性,首要挑战在于其兼容性边界,尽管WebM已广泛适应于众多网站与软件平台,但在特定应用环境或老旧设备上,其兼容难题依旧凸显,为用户体验带来不便,再者,WebM格式的非普适性也体现在编辑流程上,由于它并非行业内的通用标准,编辑过程中可能会遭遇格式不兼容的障碍,导致操

uva 10916 Factstone Benchmark(打表)

题意是求 k ! <= 2 ^ n ,的最小k。 由于n比较大,大到 2 ^ 20 次方,所以 2 ^ 2 ^ 20比较难算,所以做一些基础的数学变换。 对不等式两边同时取log2,得: log2(k ! ) <=  log2(2 ^ n)= n,即:log2(1) + log2(2) + log2 (3) + log2(4) + ... + log2(k) <= n ,其中 n 为 2 ^

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验