零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(二)

2023-11-05 05:04

本文主要是介绍零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(二)-关键基因集的获取和生存数据准备

前面的分析中,下载TCGA和GEO的数据,并进行简单的处理,接下来就是相关基因集的获取和整理,为后期聚类和降维做准备工作

三、获取免疫基因和代谢相关的基因集

这里可以选择从GSEA官网下载免疫和代谢相关基因,或者换成其他的基因也是可以的

1、取对数,TCGA的数据一般跨度比较大,所以在使用limma做差异之前,需要取一个log进行后续的分析(http://www.sxdyc.com/logarithmicdata)
在这里插入图片描述
运行完成后,点击下载即可
在这里插入图片描述
2、直接提取相关基因的表达谱矩阵

准备好基因集后,可以收到一个一个捕获基因的表达谱,也可以使用我们的工具

首先获取这两个基因集合并为all.gene.txt
在这里插入图片描述
使用工具,提取特定的基因集(提取部分基因表达,http://www.sxdyc.com/geneExpression)

需要上传两个文件,一个是全基因的表达谱数据,一个是基因的列表信息
在这里插入图片描述
运行完成后,直接下载数据
在这里插入图片描述
在这里插入图片描述
四、TCGA数据差异分析

1、准备分组文件

接下来进行差异分析,需要准备一个分组文件,这里选择 4.特征基因表达谱的准备 文件夹中生成的dat.select.txt 的文件
在这里插入图片描述
在这里插入图片描述
从14号位置往后数两个字符,其中01为肿瘤组织,11为正常组织
在这里插入图片描述
02其实也是肿瘤组织,只是很多分析中会去掉,因为01是原发性肿瘤,保存一下(所以只保留了01和11的样本)
在这里插入图片描述
2、差异分析

这里其实有两种做法的,一种是拿免疫+代谢相关基因表达谱进行差异分析,一种是拿全部的基因做差异分析,筛选出差异基因后,在和免疫+代谢相关基因集取交集。(这里选择的是免疫+代谢相关基因表达谱进行差异分析)

http://www.sxdyc.com/diffLimmaAnalyse
在这里插入图片描述
3、差异分析的火山图的绘制

从limma差异分析中下载差异分析的结果
在这里插入图片描述
获取绘制火山图的数据,包含三列,顺序分别为基因,差异倍数,p值

在这里插入图片描述
http://www.sxdyc.com/visualsVolcano
在这里插入图片描述
在这里插入图片描述
补充一点,如果这里用全部的基因做差异,需单独使用venn图的工具取一个交集

4、差异基因表达的热图

差异基因的获取,用excel的筛选工具,对volcan0.txt进行筛选(标准:logFC选择大于1或者小于-1,FDR<0.05,当然这里的标准可以进行修改),把相关基因提取放在heatmap.gene.txt文件中
在这里插入图片描述
在这里插入图片描述
先通过工具获取差异基因的表达谱(http://www.sxdyc.com/geneExpression)
运行成功后,下载数据,并改名为heatmap.exp.txt
在这里插入图片描述
在这里插入图片描述
在使用工具绘制热图(http://www.sxdyc.com/visualsClusterHeat)
在这里插入图片描述
这里需要注意的是

行注释为:基因的分组信息,如上调,下调的分组,代谢还是免疫基因的分组等等;

列注释为:样本的分组信息,例如这个癌组织和癌旁组织

热图的颜色:从低到高的颜色

是否显示行名:这里需要显示基因名,就选yes

是否显示列名:这里需要显示样本命,就选yes

是否进行行聚类:如果需要对基因进行聚类,就选yes

是否进行列聚类:如果需要对样本进行聚类,就选yes

图片的高度和宽度设置好

提交后等待运行成功即可下载
在这里插入图片描述
在这里插入图片描述
五、TCGA和GEO差异基因获取和预后数据的整理

1、差异基因集的获取,获取TCGA和GEO数据集的共有基因

首先,需要将GEO的数据中的基因名单独复制到gse31210.gene.list.txt文件中
在这里插入图片描述
使用venn/upset图绘制工具,获取交集基因(http://www.sxdyc.com/visualsVennUpset)

准备绘制venn图的文件,如这里只要两个组
在这里插入图片描述
在这里插入图片描述
上传后,绘制venn图,这里的颜色指的是分组的颜色(工具写错了,后面会改掉),设置图片的宽度和高度,运行完成后,直接下载即可
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这时候就需要提取共有基因表达谱,包括TCGA和GEO的表达谱数据,为后面的分型和建模做准备。

2、TCGA数据集肿瘤组织生存数据的准备和表达谱矩阵的准备

提取TCGA的肿瘤组织的表达谱,在5.差异基因热图获取的group.txt和heatmap.exp.txt,打开group.txt,数据筛选,删掉N的样本,只有肿瘤组织的样本,另存为group1.txt(只保留第一列的样本名,去掉列名)。
在这里插入图片描述
在这里插入图片描述
打开生存数据TCGA.merge.cli.txt,去掉生存时间为0的样本
在这里插入图片描述
准备两列数据,第一列数据为生存时间大于0的样本,第二列为肿瘤组织的样本,用excel选择1-12位字符串,接下來复制C列的数据,选择性粘贴在C列,选择数值(这一步很重要)
在这里插入图片描述
然后把A列的数据复制在C列之下,用excel筛选共有的样本
在这里插入图片描述
开始-条件格式-突出显示单元格规则-重复值(选择C列之后)

在这里插入图片描述
将没有颜色的行删掉
在这里插入图片描述
这时候将B列的样本名复制为group1.txt的文件中。

同时将C列中重复的样本复制在生存数据中,将不存在的样本删掉TCGA.merge.cli.txt,一样的方法去掉多余的样本

在这里插入图片描述
打开heatmap.exp.txt文件,转置,如下所示,改为heatmap.exp1.txt
在这里插入图片描述
使用提取部分基因表达工具提取肿瘤组织的表达谱(http://www.sxdyc.com/geneExpression),当然也可以手动一个一个删,这样比较麻烦
在这里插入图片描述
运行完成后,直接下载,并改名为tcga.T.dat.txt

用excel打开tcga.T.dat.txt文件,然后,提取样本的1-12位字符串
在这里插入图片描述
接下來复制B列的数据,选择性粘贴在A列,选择数值(这一步很重要)

在这里插入图片描述
然后删除B列的信息,只留A列的信息即可
在这里插入图片描述
该文件保存一下即可

3、GEO数据生存时间的筛选和表达谱矩阵的获取

首先获取共有基因表达谱,准备文件(2.geo.pre\GSE31210\gse31210.dat.process.txt),6.TCGA和GEO差异基因获取和预后数据的整理中获取的(com.set.txt),使用工具(http://www.sxdyc.com/geneExpression)提取gse31210数据集表达谱
在这里插入图片描述
运行完成后,下载即可
在这里插入图片描述
下载后改名为gse31210.select.gene.txt

打开gse31210的生存数据,删掉正常组织,保留我们想要的临床信息
在这里插入图片描述
修改生存时间名字(习惯性修改为OS.time和OS),并将生存状态Ailve替换为0,dead替换为1
在这里插入图片描述
并将样本复制出现,保存在gse.sample.txt

在这里插入图片描述
打开gse31210.select.gene.txt文件,在excel转置一下,提取肿瘤组织的表达谱数据,和TCGA数据一样
在这里插入图片描述

在这里插入图片描述
运行完成后,下载并改名为gse31210.T.data.txt

接下来就是分子亚型和风险模型的构建

这篇关于零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/347596

相关文章

springboot循环依赖问题案例代码及解决办法

《springboot循环依赖问题案例代码及解决办法》在SpringBoot中,如果两个或多个Bean之间存在循环依赖(即BeanA依赖BeanB,而BeanB又依赖BeanA),会导致Spring的... 目录1. 什么是循环依赖?2. 循环依赖的场景案例3. 解决循环依赖的常见方法方法 1:使用 @La

使用C#代码在PDF文档中添加、删除和替换图片

《使用C#代码在PDF文档中添加、删除和替换图片》在当今数字化文档处理场景中,动态操作PDF文档中的图像已成为企业级应用开发的核心需求之一,本文将介绍如何在.NET平台使用C#代码在PDF文档中添加、... 目录引言用C#添加图片到PDF文档用C#删除PDF文档中的图片用C#替换PDF文档中的图片引言在当

C#使用SQLite进行大数据量高效处理的代码示例

《C#使用SQLite进行大数据量高效处理的代码示例》在软件开发中,高效处理大数据量是一个常见且具有挑战性的任务,SQLite因其零配置、嵌入式、跨平台的特性,成为许多开发者的首选数据库,本文将深入探... 目录前言准备工作数据实体核心技术批量插入:从乌龟到猎豹的蜕变分页查询:加载百万数据异步处理:拒绝界面

用js控制视频播放进度基本示例代码

《用js控制视频播放进度基本示例代码》写前端的时候,很多的时候是需要支持要网页视频播放的功能,下面这篇文章主要给大家介绍了关于用js控制视频播放进度的相关资料,文中通过代码介绍的非常详细,需要的朋友可... 目录前言html部分:JavaScript部分:注意:总结前言在javascript中控制视频播放

Spring Boot 3.4.3 基于 Spring WebFlux 实现 SSE 功能(代码示例)

《SpringBoot3.4.3基于SpringWebFlux实现SSE功能(代码示例)》SpringBoot3.4.3结合SpringWebFlux实现SSE功能,为实时数据推送提供... 目录1. SSE 简介1.1 什么是 SSE?1.2 SSE 的优点1.3 适用场景2. Spring WebFlu

java之Objects.nonNull用法代码解读

《java之Objects.nonNull用法代码解读》:本文主要介绍java之Objects.nonNull用法代码,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录Java之Objects.nonwww.chinasem.cnNull用法代码Objects.nonN

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤

在C#中调用Python代码的两种实现方式

《在C#中调用Python代码的两种实现方式》:本文主要介绍在C#中调用Python代码的两种实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C#调用python代码的方式1. 使用 Python.NET2. 使用外部进程调用 Python 脚本总结C#调

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时