医学图像处理之GDC数据库

2023-11-07 14:50

本文主要是介绍医学图像处理之GDC数据库,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 打开GDC数据库:

  • 登陆TCGA数据库GDC界面:https://portal.gdc.cancer.gov/

    TCGA GDC界面

  • 首先确保Cart中没有之前的文件记录,如果有其他文件(即文件数不为0),清空Cart。

    核对Cart已清空

  • 如果Cart文件数不为0,则点击进入Cart界面进行清空。

  • 清空Cart

2. 选择样本类型及性质:

  • 点击Repository进入数据仓库,随后点击Cases样本类型及性质的选择:

    点击Cases
  • 首先确定样本部位,以前列腺癌样本举例:

    选择样本部位

  • 选择样本来源项目,如果只分析TCGA的样本,则只选择TCGA:

    选择项目来源

  • 我们之前的一些选择,会不断缩小样本范围,所以我们发现Project选项下只有一个TCGA-PRAD,我们可不用点击,不选择表示该选项下的内容都要。
    Disease Type这里根据分析需要进行选择,这里我为了统一病理类型,进行了选择。
    Gender无特殊需要可不进行选择。
    Vital Status一般我们需要进行生存分析的话,就选择alive和dead的患者,not reported的患者表示生存资料不全,可以进行剔除。
    Age at Diagnosis以及Days to Death根据自己课题需要进行设定,一般情况下默认不设定筛选条件。

  • 更加精细的筛选

     

  • Race和Ethnicity一般情况下不设定筛选条件,并且这里的nor reported的样本过于多,我们不进行筛选了,以免丢失过多样本数。

  • 人种和族裔选择

3. 选择组学数据类型及格式:

  • 点击Files选择数据类型及格式。
  • Data Category这里用最常见的转录组数据举例,选择transcriptome profiling.
  • Data Type选择Gene Expression Quantification,代表蛋白编码基因和长链非编码基因的测序数据。miRNA基因的测序数据不包含在其中,需要选择miRNA Expression Quantification而不是Gene Expression Quantification。
  • Experimental Strategy只有一个选择,默认不选,Workflow Type根据自己需求,一般常用的是Counts数据或FPKM数据。
    *一般选到这里就不再点击其他筛选条件了,而且一般其他选项也只剩一个选项了。
  • Access表明数据权限,我们普通用户只能使用open的数据,如果出现了非开放的数据,记得这里只点击open。

    选择数据类型及格式

     

4. 下载选择好的数据:

  • 将选择好的数据加入购物车,随后点击Cart进入购物车界面。

    将选择好的数据加入购物车
  • 在Cart界面分别点击Metadata(下载注释文件)以及Download(下载数据)。Download选项提供两种数据下载途径:Manifest表示下载Manifest文件后使用gdc-client软件下载数据(gdc-client下载数据方法),这种方法适合下载大文件;Cart表示通过浏览器直接下载,该方法更方便,但是不适合下载很大的文件。
  • 数据的两种下载方式
  • 至此TCGA数据下载已完成。 

5、TCGA文件的命名规则

TCGAProject名 所有TCGA样本名均以这个开头。

02:     issue source site,组织来源编码。更多标注:https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes

0001Participant, 参与者编号。一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据:TCGA-A6-6650-01A-11R-1774-07,TCGA-A6-6650-01A-11R-A278-07TCGA-A6-6650-01B-02R-A277-07

01:     Sample关键数字,其中编号01~09表示肿瘤,10~19表示正常对照

A:       Vial, 在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; 很少数的是B

01:      Portion, 同属于一个患者组织的不同部分的顺序编号

D:         Analyte, 分析的分子类型

0182:   Plate, 在一系列96孔板中的顺序,值大表示制板越晚

07:       Center, 测序或鉴定中心编码

GDC数据库样本的命名规则

 6、通过 GDC Data Transfer Tool读取数据

①原始方法:

  • 将下载下来的压缩包进行解压缩,得到gdc-client.exe。将MANIFEST.txt文件和gdc-client.exe放在一个文件夹下
  • 在该文件目录下打开cmd命令窗口。

  • 输入gdc-client download -m MANIFEST.txt (注:-m 后加的是下载好的manifest文件,需要改成自己的文件名。还可以在后方加--latest,表示最新文件数据,下载临床数据的时候比较方便),按Enter键,开始下载。

  • gdc-client download -m MANIFEST.txt 
    #or
    gdc-client download -m MANIFEST.txt --latest
    下载页面

 ②下载数据+预处理数据:

MarvinLer/tcga_segmentation: Whole Slide Image segmentation with weakly supervised multiple instance learning on TCGA | MICCAI2020 https://arxiv.org/abs/2004.05024 (github.com)给出方法,可以对下载的数据进行预处理。

Downloading TCGA cohorts + WSI pre-processing

  1. Download the GDC Data Transfer Tool executable (not included here for license issues)
  2. Constitute any cohort on the TCGA GDC Data Portal, then download the associated manifest file, and place it in a source_folder
  3. Launch the download and pre-processing pipeline with
python -m code.data_processing.main --gdc gdc_executable_path source_folder

This script first downloads all files in the manifest file, then tiles WSI, extracts tiles of a given magnification, removes background tiles, and finally seeks to extract per-slide binary labels from their name.

这篇关于医学图像处理之GDC数据库的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/364367

相关文章

数据库面试必备之MySQL中的乐观锁与悲观锁

《数据库面试必备之MySQL中的乐观锁与悲观锁》:本文主要介绍数据库面试必备之MySQL中乐观锁与悲观锁的相关资料,乐观锁适用于读多写少的场景,通过版本号检查避免冲突,而悲观锁适用于写多读少且对数... 目录一、引言二、乐观锁(一)原理(二)应用场景(三)示例代码三、悲观锁(一)原理(二)应用场景(三)示例

Node.js 数据库 CRUD 项目示例详解(完美解决方案)

《Node.js数据库CRUD项目示例详解(完美解决方案)》:本文主要介绍Node.js数据库CRUD项目示例详解(完美解决方案),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考... 目录项目结构1. 初始化项目2. 配置数据库连接 (config/db.js)3. 创建模型 (models/

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

Ubuntu中远程连接Mysql数据库的详细图文教程

《Ubuntu中远程连接Mysql数据库的详细图文教程》Ubuntu是一个以桌面应用为主的Linux发行版操作系统,这篇文章主要为大家详细介绍了Ubuntu中远程连接Mysql数据库的详细图文教程,有... 目录1、版本2、检查有没有mysql2.1 查询是否安装了Mysql包2.2 查看Mysql版本2.

Oracle数据库常见字段类型大全以及超详细解析

《Oracle数据库常见字段类型大全以及超详细解析》在Oracle数据库中查询特定表的字段个数通常需要使用SQL语句来完成,:本文主要介绍Oracle数据库常见字段类型大全以及超详细解析,文中通过... 目录前言一、字符类型(Character)1、CHAR:定长字符数据类型2、VARCHAR2:变长字符数

Win11安装PostgreSQL数据库的两种方式详细步骤

《Win11安装PostgreSQL数据库的两种方式详细步骤》PostgreSQL是备受业界青睐的关系型数据库,尤其是在地理空间和移动领域,:本文主要介绍Win11安装PostgreSQL数据库的... 目录一、exe文件安装 (推荐)下载安装包1. 选择操作系统2. 跳转到EDB(PostgreSQL 的

SpringBoot实现数据库读写分离的3种方法小结

《SpringBoot实现数据库读写分离的3种方法小结》为了提高系统的读写性能和可用性,读写分离是一种经典的数据库架构模式,在SpringBoot应用中,有多种方式可以实现数据库读写分离,本文将介绍三... 目录一、数据库读写分离概述二、方案一:基于AbstractRoutingDataSource实现动态

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

opencv图像处理之指纹验证的实现

《opencv图像处理之指纹验证的实现》本文主要介绍了opencv图像处理之指纹验证的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录一、简介二、具体案例实现1. 图像显示函数2. 指纹验证函数3. 主函数4、运行结果三、总结一、

mysql数据库重置表主键id的实现

《mysql数据库重置表主键id的实现》在我们的开发过程中,难免在做测试的时候会生成一些杂乱无章的SQL主键数据,本文主要介绍了mysql数据库重置表主键id的实现,具有一定的参考价值,感兴趣的可以了... 目录关键语法演示案例在我们的开发过程中,难免在做测试的时候会生成一些杂乱无章的SQL主键数据,当我们