医学图像处理之GDC数据库

2023-11-07 14:50

本文主要是介绍医学图像处理之GDC数据库,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 打开GDC数据库:

  • 登陆TCGA数据库GDC界面:https://portal.gdc.cancer.gov/

    TCGA GDC界面

  • 首先确保Cart中没有之前的文件记录,如果有其他文件(即文件数不为0),清空Cart。

    核对Cart已清空

  • 如果Cart文件数不为0,则点击进入Cart界面进行清空。

  • 清空Cart

2. 选择样本类型及性质:

  • 点击Repository进入数据仓库,随后点击Cases样本类型及性质的选择:

    点击Cases
  • 首先确定样本部位,以前列腺癌样本举例:

    选择样本部位

  • 选择样本来源项目,如果只分析TCGA的样本,则只选择TCGA:

    选择项目来源

  • 我们之前的一些选择,会不断缩小样本范围,所以我们发现Project选项下只有一个TCGA-PRAD,我们可不用点击,不选择表示该选项下的内容都要。
    Disease Type这里根据分析需要进行选择,这里我为了统一病理类型,进行了选择。
    Gender无特殊需要可不进行选择。
    Vital Status一般我们需要进行生存分析的话,就选择alive和dead的患者,not reported的患者表示生存资料不全,可以进行剔除。
    Age at Diagnosis以及Days to Death根据自己课题需要进行设定,一般情况下默认不设定筛选条件。

  • 更加精细的筛选

     

  • Race和Ethnicity一般情况下不设定筛选条件,并且这里的nor reported的样本过于多,我们不进行筛选了,以免丢失过多样本数。

  • 人种和族裔选择

3. 选择组学数据类型及格式:

  • 点击Files选择数据类型及格式。
  • Data Category这里用最常见的转录组数据举例,选择transcriptome profiling.
  • Data Type选择Gene Expression Quantification,代表蛋白编码基因和长链非编码基因的测序数据。miRNA基因的测序数据不包含在其中,需要选择miRNA Expression Quantification而不是Gene Expression Quantification。
  • Experimental Strategy只有一个选择,默认不选,Workflow Type根据自己需求,一般常用的是Counts数据或FPKM数据。
    *一般选到这里就不再点击其他筛选条件了,而且一般其他选项也只剩一个选项了。
  • Access表明数据权限,我们普通用户只能使用open的数据,如果出现了非开放的数据,记得这里只点击open。

    选择数据类型及格式

     

4. 下载选择好的数据:

  • 将选择好的数据加入购物车,随后点击Cart进入购物车界面。

    将选择好的数据加入购物车
  • 在Cart界面分别点击Metadata(下载注释文件)以及Download(下载数据)。Download选项提供两种数据下载途径:Manifest表示下载Manifest文件后使用gdc-client软件下载数据(gdc-client下载数据方法),这种方法适合下载大文件;Cart表示通过浏览器直接下载,该方法更方便,但是不适合下载很大的文件。
  • 数据的两种下载方式
  • 至此TCGA数据下载已完成。 

5、TCGA文件的命名规则

TCGAProject名 所有TCGA样本名均以这个开头。

02:     issue source site,组织来源编码。更多标注:https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes

0001Participant, 参与者编号。一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据:TCGA-A6-6650-01A-11R-1774-07,TCGA-A6-6650-01A-11R-A278-07TCGA-A6-6650-01B-02R-A277-07

01:     Sample关键数字,其中编号01~09表示肿瘤,10~19表示正常对照

A:       Vial, 在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; 很少数的是B

01:      Portion, 同属于一个患者组织的不同部分的顺序编号

D:         Analyte, 分析的分子类型

0182:   Plate, 在一系列96孔板中的顺序,值大表示制板越晚

07:       Center, 测序或鉴定中心编码

GDC数据库样本的命名规则

 6、通过 GDC Data Transfer Tool读取数据

①原始方法:

  • 将下载下来的压缩包进行解压缩,得到gdc-client.exe。将MANIFEST.txt文件和gdc-client.exe放在一个文件夹下
  • 在该文件目录下打开cmd命令窗口。

  • 输入gdc-client download -m MANIFEST.txt (注:-m 后加的是下载好的manifest文件,需要改成自己的文件名。还可以在后方加--latest,表示最新文件数据,下载临床数据的时候比较方便),按Enter键,开始下载。

  • gdc-client download -m MANIFEST.txt 
    #or
    gdc-client download -m MANIFEST.txt --latest
    下载页面

 ②下载数据+预处理数据:

MarvinLer/tcga_segmentation: Whole Slide Image segmentation with weakly supervised multiple instance learning on TCGA | MICCAI2020 https://arxiv.org/abs/2004.05024 (github.com)给出方法,可以对下载的数据进行预处理。

Downloading TCGA cohorts + WSI pre-processing

  1. Download the GDC Data Transfer Tool executable (not included here for license issues)
  2. Constitute any cohort on the TCGA GDC Data Portal, then download the associated manifest file, and place it in a source_folder
  3. Launch the download and pre-processing pipeline with
python -m code.data_processing.main --gdc gdc_executable_path source_folder

This script first downloads all files in the manifest file, then tiles WSI, extracts tiles of a given magnification, removes background tiles, and finally seeks to extract per-slide binary labels from their name.

这篇关于医学图像处理之GDC数据库的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/364367

相关文章

使用Dify访问mysql数据库详细代码示例

《使用Dify访问mysql数据库详细代码示例》:本文主要介绍使用Dify访问mysql数据库的相关资料,并详细讲解了如何在本地搭建数据库访问服务,使用ngrok暴露到公网,并创建知识库、数据库访... 1、在本地搭建数据库访问的服务,并使用ngrok暴露到公网。#sql_tools.pyfrom

Java实现数据库图片上传功能详解

《Java实现数据库图片上传功能详解》这篇文章主要为大家详细介绍了如何使用Java实现数据库图片上传功能,包含从数据库拿图片传递前端渲染,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1、前言2、数据库搭建&nbsChina编程p; 3、后端实现将图片存储进数据库4、后端实现从数据库取出图片给前端5、前端拿到

IDEA连接达梦数据库的详细配置指南

《IDEA连接达梦数据库的详细配置指南》达梦数据库(DMDatabase)作为国产关系型数据库的代表,广泛应用于企业级系统开发,本文将详细介绍如何在IntelliJIDEA中配置并连接达梦数据库,助力... 目录准备工作1. 下载达梦JDBC驱动配置步骤1. 将驱动添加到IDEA2. 创建数据库连接连接参数

Jmeter如何向数据库批量插入数据

《Jmeter如何向数据库批量插入数据》:本文主要介绍Jmeter如何向数据库批量插入数据方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Jmeter向数据库批量插入数据Jmeter向mysql数据库中插入数据的入门操作接下来做一下各个元件的配置总结Jmete

MySql中的数据库连接池详解

《MySql中的数据库连接池详解》:本文主要介绍MySql中的数据库连接池方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql数据库连接池1、概念2、为什么会出现数据库连接池3、原理4、数据库连接池的提供商5、DataSource数据源6、DBCP7、C

StarRocks数据库详解(什么是StarRocks)

《StarRocks数据库详解(什么是StarRocks)》StarRocks是一个高性能的全场景MPP数据库,支持多种数据导入导出方式,包括Spark、Flink、Hadoop等,它采用分布式架构,... 目录StarRocks介绍什么是StarRocks?StarRocks适合什么场景?StarRock

Windows环境下安装达梦数据库的完整步骤

《Windows环境下安装达梦数据库的完整步骤》达梦数据库的安装大致分为Windows和Linux版本,本文将以dm8企业版Windows_64位环境为例,为大家介绍一下达梦数据库的具体安装步骤吧... 目录环境介绍1 下载解压安装包2 根据安装手册安装2.1 选择语言 时区2.2 安装向导2.3 接受协议

SpringBoot使用Jasypt对YML文件配置内容加密的方法(数据库密码加密)

《SpringBoot使用Jasypt对YML文件配置内容加密的方法(数据库密码加密)》本文介绍了如何在SpringBoot项目中使用Jasypt对application.yml文件中的敏感信息(如数... 目录SpringBoot使用Jasypt对YML文件配置内容进行加密(例:数据库密码加密)前言一、J

Python调用Orator ORM进行数据库操作

《Python调用OratorORM进行数据库操作》OratorORM是一个功能丰富且灵活的PythonORM库,旨在简化数据库操作,它支持多种数据库并提供了简洁且直观的API,下面我们就... 目录Orator ORM 主要特点安装使用示例总结Orator ORM 是一个功能丰富且灵活的 python O

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景