综述 2020-Bioinformatics and biology insights:多组学数据整合和研究方法

本文主要是介绍综述 2020-Bioinformatics and biology insights:多组学数据整合和研究方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Subramanian, Indhupriya, et al. "Multi-omics data integration, interpretation, and its application." Bioinformatics and biology insights 14 (2020): 1177932219899051.

  • 被引次数:746
  • 期刊影响因子:5.97
  • 多组学数据联合分析

一、组学数据类型

  • 本文:基因组、蛋白质组、转录组、代谢组和表观基因组;脂质组、磷酸蛋白质组和乙二醇蛋白质组
  • 之前看的综述里的组学类型:综述 2017-Genome Biology:疾病的多组学方法-CSDN博客

        ​​​​

二、组学数据存储库

1. 癌症基因组图谱

癌症基因组图谱(TCGA;https://cancergenome.nih.gov/)是一个拥有超过33种不同类型癌症的20,000个个体肿瘤样本的多组学数据集之一。该倡议旨在生成、整合、分析和解释肿瘤样本的DNA、RNA、蛋白质和表观遗传学变化以及临床和组织学数据的概要。它包含来自各种癌症及其亚型的原发肿瘤样本的丰富分子和遗传概要。它生成高通量RNA-Seq、DNA-Seq、miRNA-Seq、单核苷酸变异(SNV)、拷贝数变异(CNV)、DNA甲基化和逆相蛋白质阵列(RPPA)数据。全癌图谱被研究社区广泛使用,有助于对癌症的进展、表现和治疗进行新的发现。TCGA的生物样本通过质谱技术进行分析,癌症队列的蛋白质组数据可在临床蛋白质瘤分析协会(CPTAC)(https://cptac-data-portal.georgetown.edu/cptacPublic/)上获得。

2. 国际癌症基因组协会

国际癌症基因组协会(ICGC;https://icgc.org/)协调了来自21个原发癌症部位的76个癌症项目的大规模基因组研究生成,包括来自20,383个捐赠者(截至2017年12月)。该项目主要包含来自各种族群的各种癌症类型的突变相关基因组改变数据(包括生殖系和体细胞突变)。该联盟为每种肿瘤类型定义目录,并确保生成的数据质量,并在研究社区之间管理数据共享。ICGC数据协调中心(DCC)运营ICGC数据门户,其中包含数据的公开和限制访问部分。16 ICGC门户已用于推导癌症生物学的里程碑观察。17,18全基因组的全癌症分析(PCAWG;https://dcc.icgc.org/pcawg)允许探索和分析来自ICGC的2800多个全基因组。

3. 癌细胞系百科全书

癌细胞系百科全书(CCLE;(https://portals.broadinstitute.org/ccle)由Broad研究所托管,汇编了来自947个人类细胞系和36种肿瘤类型的基因表达、拷贝数和测序数据。它还包含479个癌细胞系对24种抗癌药物的药理学资料。该项目使我们能够在不同癌细胞系中识别新的生物标志和药物反应的机制效应。19

4. 乳腺癌国际分子分类联盟

乳腺癌国际分子分类联盟(METABRIC;http://molonc.bccrc.ca/aparicio-lab/research/metabric/)是一个加拿大-英国的项目,包含从乳腺肿瘤中得到的临床特征、表达、单核苷酸多态性(SNP)和CNV数据。该项目旨在使用潜在的多组学分子标志将乳腺肿瘤进一步分类。这个数据库确定了乳腺癌的10个亚组和以前未描述的新药物靶点,因此将有助于设计乳腺癌的最佳治疗方案。20

5. TARGET

TARGET(https://ocg.cancer.gov/programs/target)类似于TCGA,由国家癌症研究所(https://www.cancer.gov/)推动,旨在确定推动儿童癌症的分子事件。21这些数据包含24种分子类型的癌症的临床信息、基因表达、miRNA表达、拷贝数和测序数据。该数据库旨在为评估小儿癌症中的基因组改变提供强有力的基础。21,22

6. OmicsDI

组学发现指数(OmicsDI;https://www.omicsdi.org/)包含来自11个存储库的数据集,具有共同的数据结构。这是一个开源平台,用于访问、发现和整合基因组学、转录组学、蛋白质组学和代谢组学数据集。它包含来自人类、模式生物和非模式生物的数据集。除了索引数据集外,OmicsDI还包括每个数据集的标准化和注释步骤,可进行集成。23

7. NCBI

8. GEO

除了这些专用于多组学的数据库外,国家生物技术信息中心(NCBI)基因表达数据库(GEO)存档了来自多个平台和阵列的多种测序数据,如基因组学和转录组学。

二、组学数据的工具和方法

1. 工具和方法

  • 图 1。多组学数据集成工具概述。这些工具/方法根据其方法进行分组,并根据其应用程序进行颜色编码。
    • FSMKL表示特征选择多核学习;
    • JIVE,联合和个体变异解释;
    • MCIA,多重协同惯量分析;
    • MDI,多数据集集成;
    • MFA,多因素分析;
    • MOFA,多组学因子分析;
    • NEMO,基于邻域的多组学聚类;
    • PFA,模式融合分析;
    • PMA,惩罚多元分析;
    • sMBPLS,稀疏多块偏最小二乘法;
    • SNF,相似网络融合;
    • NMF,非负矩阵分解;
    • BCC,贝叶斯共识聚类;
    • PSDF,患者特定数据融合。

2. 对应生物问题

这些工具和方法对应的生物学问题,大致分为 3 个方面:
  1. 基于多组学概况的疾病亚型和分类;
  2. 预测各种应用的生物标志物,包括疾病的诊断和驱动基因;
  3. 获得对疾病生物学的见解。

3. 问题、方法、输入数据等

4. 分析和可视化门户

二、应用

1. 识别疾病亚型和样本分类

2. 通路识别

3. 生物标志物预测

4. 驱动基因检测

三、局限性和解决方法

  1. 一些组学异质性
  2. 数据规模大
  3. 缺乏计算密集型工具
  4. 多平台生成、数据存储格式差异大
  5. 预处理步骤复杂,缺乏通用标准:过滤、标准化、消除批次效应、质控等

解决方法:

  1. 预处理步骤可以进行特征选择
  2. 正确选择感兴趣的生物学问题,对集成工具进行基准测试
  3. 多组学数据解释可以增加临床信息

这篇关于综述 2020-Bioinformatics and biology insights:多组学数据整合和研究方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/483196

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施: