零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(二)

2023-11-05 05:04

本文主要是介绍零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(二)-关键基因集的获取和生存数据准备

前面的分析中,下载TCGA和GEO的数据,并进行简单的处理,接下来就是相关基因集的获取和整理,为后期聚类和降维做准备工作

三、获取免疫基因和代谢相关的基因集

这里可以选择从GSEA官网下载免疫和代谢相关基因,或者换成其他的基因也是可以的

1、取对数,TCGA的数据一般跨度比较大,所以在使用limma做差异之前,需要取一个log进行后续的分析(http://www.sxdyc.com/logarithmicdata)
在这里插入图片描述
运行完成后,点击下载即可
在这里插入图片描述
2、直接提取相关基因的表达谱矩阵

准备好基因集后,可以收到一个一个捕获基因的表达谱,也可以使用我们的工具

首先获取这两个基因集合并为all.gene.txt
在这里插入图片描述
使用工具,提取特定的基因集(提取部分基因表达,http://www.sxdyc.com/geneExpression)

需要上传两个文件,一个是全基因的表达谱数据,一个是基因的列表信息
在这里插入图片描述
运行完成后,直接下载数据
在这里插入图片描述
在这里插入图片描述
四、TCGA数据差异分析

1、准备分组文件

接下来进行差异分析,需要准备一个分组文件,这里选择 4.特征基因表达谱的准备 文件夹中生成的dat.select.txt 的文件
在这里插入图片描述
在这里插入图片描述
从14号位置往后数两个字符,其中01为肿瘤组织,11为正常组织
在这里插入图片描述
02其实也是肿瘤组织,只是很多分析中会去掉,因为01是原发性肿瘤,保存一下(所以只保留了01和11的样本)
在这里插入图片描述
2、差异分析

这里其实有两种做法的,一种是拿免疫+代谢相关基因表达谱进行差异分析,一种是拿全部的基因做差异分析,筛选出差异基因后,在和免疫+代谢相关基因集取交集。(这里选择的是免疫+代谢相关基因表达谱进行差异分析)

http://www.sxdyc.com/diffLimmaAnalyse
在这里插入图片描述
3、差异分析的火山图的绘制

从limma差异分析中下载差异分析的结果
在这里插入图片描述
获取绘制火山图的数据,包含三列,顺序分别为基因,差异倍数,p值

在这里插入图片描述
http://www.sxdyc.com/visualsVolcano
在这里插入图片描述
在这里插入图片描述
补充一点,如果这里用全部的基因做差异,需单独使用venn图的工具取一个交集

4、差异基因表达的热图

差异基因的获取,用excel的筛选工具,对volcan0.txt进行筛选(标准:logFC选择大于1或者小于-1,FDR<0.05,当然这里的标准可以进行修改),把相关基因提取放在heatmap.gene.txt文件中
在这里插入图片描述
在这里插入图片描述
先通过工具获取差异基因的表达谱(http://www.sxdyc.com/geneExpression)
运行成功后,下载数据,并改名为heatmap.exp.txt
在这里插入图片描述
在这里插入图片描述
在使用工具绘制热图(http://www.sxdyc.com/visualsClusterHeat)
在这里插入图片描述
这里需要注意的是

行注释为:基因的分组信息,如上调,下调的分组,代谢还是免疫基因的分组等等;

列注释为:样本的分组信息,例如这个癌组织和癌旁组织

热图的颜色:从低到高的颜色

是否显示行名:这里需要显示基因名,就选yes

是否显示列名:这里需要显示样本命,就选yes

是否进行行聚类:如果需要对基因进行聚类,就选yes

是否进行列聚类:如果需要对样本进行聚类,就选yes

图片的高度和宽度设置好

提交后等待运行成功即可下载
在这里插入图片描述
在这里插入图片描述
五、TCGA和GEO差异基因获取和预后数据的整理

1、差异基因集的获取,获取TCGA和GEO数据集的共有基因

首先,需要将GEO的数据中的基因名单独复制到gse31210.gene.list.txt文件中
在这里插入图片描述
使用venn/upset图绘制工具,获取交集基因(http://www.sxdyc.com/visualsVennUpset)

准备绘制venn图的文件,如这里只要两个组
在这里插入图片描述
在这里插入图片描述
上传后,绘制venn图,这里的颜色指的是分组的颜色(工具写错了,后面会改掉),设置图片的宽度和高度,运行完成后,直接下载即可
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这时候就需要提取共有基因表达谱,包括TCGA和GEO的表达谱数据,为后面的分型和建模做准备。

2、TCGA数据集肿瘤组织生存数据的准备和表达谱矩阵的准备

提取TCGA的肿瘤组织的表达谱,在5.差异基因热图获取的group.txt和heatmap.exp.txt,打开group.txt,数据筛选,删掉N的样本,只有肿瘤组织的样本,另存为group1.txt(只保留第一列的样本名,去掉列名)。
在这里插入图片描述
在这里插入图片描述
打开生存数据TCGA.merge.cli.txt,去掉生存时间为0的样本
在这里插入图片描述
准备两列数据,第一列数据为生存时间大于0的样本,第二列为肿瘤组织的样本,用excel选择1-12位字符串,接下來复制C列的数据,选择性粘贴在C列,选择数值(这一步很重要)
在这里插入图片描述
然后把A列的数据复制在C列之下,用excel筛选共有的样本
在这里插入图片描述
开始-条件格式-突出显示单元格规则-重复值(选择C列之后)

在这里插入图片描述
将没有颜色的行删掉
在这里插入图片描述
这时候将B列的样本名复制为group1.txt的文件中。

同时将C列中重复的样本复制在生存数据中,将不存在的样本删掉TCGA.merge.cli.txt,一样的方法去掉多余的样本

在这里插入图片描述
打开heatmap.exp.txt文件,转置,如下所示,改为heatmap.exp1.txt
在这里插入图片描述
使用提取部分基因表达工具提取肿瘤组织的表达谱(http://www.sxdyc.com/geneExpression),当然也可以手动一个一个删,这样比较麻烦
在这里插入图片描述
运行完成后,直接下载,并改名为tcga.T.dat.txt

用excel打开tcga.T.dat.txt文件,然后,提取样本的1-12位字符串
在这里插入图片描述
接下來复制B列的数据,选择性粘贴在A列,选择数值(这一步很重要)

在这里插入图片描述
然后删除B列的信息,只留A列的信息即可
在这里插入图片描述
该文件保存一下即可

3、GEO数据生存时间的筛选和表达谱矩阵的获取

首先获取共有基因表达谱,准备文件(2.geo.pre\GSE31210\gse31210.dat.process.txt),6.TCGA和GEO差异基因获取和预后数据的整理中获取的(com.set.txt),使用工具(http://www.sxdyc.com/geneExpression)提取gse31210数据集表达谱
在这里插入图片描述
运行完成后,下载即可
在这里插入图片描述
下载后改名为gse31210.select.gene.txt

打开gse31210的生存数据,删掉正常组织,保留我们想要的临床信息
在这里插入图片描述
修改生存时间名字(习惯性修改为OS.time和OS),并将生存状态Ailve替换为0,dead替换为1
在这里插入图片描述
并将样本复制出现,保存在gse.sample.txt

在这里插入图片描述
打开gse31210.select.gene.txt文件,在excel转置一下,提取肿瘤组织的表达谱数据,和TCGA数据一样
在这里插入图片描述

在这里插入图片描述
运行完成后,下载并改名为gse31210.T.data.txt

接下来就是分子亚型和风险模型的构建

这篇关于零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/347596

相关文章

python实现pdf转word和excel的示例代码

《python实现pdf转word和excel的示例代码》本文主要介绍了python实现pdf转word和excel的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录一、引言二、python编程1,PDF转Word2,PDF转Excel三、前端页面效果展示总结一

在MyBatis的XML映射文件中<trim>元素所有场景下的完整使用示例代码

《在MyBatis的XML映射文件中<trim>元素所有场景下的完整使用示例代码》在MyBatis的XML映射文件中,trim元素用于动态添加SQL语句的一部分,处理前缀、后缀及多余的逗号或连接符,示... 在MyBATis的XML映射文件中,<trim>元素用于动态地添加SQL语句的一部分,例如SET或W

使用C#代码计算数学表达式实例

《使用C#代码计算数学表达式实例》这段文字主要讲述了如何使用C#语言来计算数学表达式,该程序通过使用Dictionary保存变量,定义了运算符优先级,并实现了EvaluateExpression方法来... 目录C#代码计算数学表达式该方法很长,因此我将分段描述下面的代码片段显示了下一步以下代码显示该方法如

Python结合requests和Cheerio处理网页内容的操作步骤

《Python结合requests和Cheerio处理网页内容的操作步骤》Python因其简洁明了的语法和强大的库支持,成为了编写爬虫程序的首选语言之一,requests库是Python中用于发送HT... 目录一、前言二、环境搭建三、requests库的基本使用四、Cheerio库的基本使用五、结合req

python多进程实现数据共享的示例代码

《python多进程实现数据共享的示例代码》本文介绍了Python中多进程实现数据共享的方法,包括使用multiprocessing模块和manager模块这两种方法,具有一定的参考价值,感兴趣的可以... 目录背景进程、进程创建进程间通信 进程间共享数据共享list实践背景 安卓ui自动化框架,使用的是

SpringBoot生成和操作PDF的代码详解

《SpringBoot生成和操作PDF的代码详解》本文主要介绍了在SpringBoot项目下,通过代码和操作步骤,详细的介绍了如何操作PDF,希望可以帮助到准备通过JAVA操作PDF的你,项目框架用的... 目录本文简介PDF文件简介代码实现PDF操作基于PDF模板生成,并下载完全基于代码生成,并保存合并P

SpringBoot基于MyBatis-Plus实现Lambda Query查询的示例代码

《SpringBoot基于MyBatis-Plus实现LambdaQuery查询的示例代码》MyBatis-Plus是MyBatis的增强工具,简化了数据库操作,并提高了开发效率,它提供了多种查询方... 目录引言基础环境配置依赖配置(Maven)application.yml 配置表结构设计demo_st

SpringCloud集成AlloyDB的示例代码

《SpringCloud集成AlloyDB的示例代码》AlloyDB是GoogleCloud提供的一种高度可扩展、强性能的关系型数据库服务,它兼容PostgreSQL,并提供了更快的查询性能... 目录1.AlloyDBjavascript是什么?AlloyDB 的工作原理2.搭建测试环境3.代码工程1.

Java调用Python代码的几种方法小结

《Java调用Python代码的几种方法小结》Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求很常见、实用,本文介绍几种方法从java调用Pyt... 目录引言Java core使用ProcessBuilder使用Java脚本引擎总结引言python

Java中ArrayList的8种浅拷贝方式示例代码

《Java中ArrayList的8种浅拷贝方式示例代码》:本文主要介绍Java中ArrayList的8种浅拷贝方式的相关资料,讲解了Java中ArrayList的浅拷贝概念,并详细分享了八种实现浅... 目录引言什么是浅拷贝?ArrayList 浅拷贝的重要性方法一:使用构造函数方法二:使用 addAll(