零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(一)

2023-11-05 13:12

本文主要是介绍零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(一),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

经过一段时间的积累,搭建的分析平台已经日渐进入稳定的状态,很多粉丝也在和我们反馈,让我们出一下零代码生信套路课。

小编找了很久,发现某某机构出的TCGA联合GEO 免疫基因+代谢基因的生信套路,该套路应用常见相对来说比较广,又属于双热点套路。但是代码运行真的是太麻烦了,还有各种各样的报错,实在是不好弄,为此,我们推出了复现课程,该课程内容较长, 分成几篇进行讲解,如带来不便,请大家谅解!

一、TCGA数据的下载和预处理

这里通过生信豆芽菜官网可以直接下载TCGA的数据,比如这里我们以LUAD数据为例,

http://www.sxdyc.com/tcgaDataSet
在这里插入图片描述
下载后放在文件夹1.TCGA.pre下面
在这里插入图片描述
用excel打开TCGA.merge.cli.txthe tcga.merge.mRNA.TPM.txt的文件

1、整理表达谱数据
在这里插入图片描述
A列的数据为基因ENSG号,可以直接删掉,C列的数据需要注意,代表了基因的类型,比如说这里选择蛋白编码的基因,将其他类型的全部删掉
在这里插入图片描述
选择数据-筛选-将protein_coding的 基因保留下来,如果这里需要分析lncRNA,就单独只保留lncRNA
在这里插入图片描述
这时候,删掉A和C列的数据

将数据保存后,这里出来后的数据很容易出现重复的基因,所以可以使用我们的去重工具

http://www.sxdyc.com/singleCollectionTool?href-preprocess
在这里插入图片描述
选择去重工具,上传刚刚处理好的TCGA的表达谱数据,并选择去重的方法,等待运行结束即可。
在这里插入图片描述
当然如果文件过大,可以选择7-zip进行压缩,将文件压缩为.gz的格式

在这里插入图片描述
在这里插入图片描述
2、整理生存数据

打开文件后,先删掉后面无用的列名信息,去重
在这里插入图片描述
替换字符
在这里插入图片描述
去掉缺少生存时间和生存状态的样本
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
最后保存数据即可

二、GEO数据的下载和预处理

1、从NCBI的GEO dataset官网查找合适的GEO的数据集,可以通过关键词进行查找,也可以通过已经发表的文章进行筛选。

(https://www.ncbi.nlm.nih.gov/)
在这里插入图片描述
通过一些关键词进行搜索。

比如这里选择GSE31210,怎么下载呢
在这里插入图片描述
往下滑动,选择platforms(平台注释文件)和矩阵文件
在这里插入图片描述
在这里插入图片描述
2、表达谱数据和临床数据的处理

对GSE31210_series_matrix.txt.gz文件进行解压,然后excel打开
在这里插入图片描述
这一部分为样本的表型数据,有时候,表型的临床是存在原文的附件中。

表达谱的数据,这些信息都要删掉,同时拉到最后,将最后一行删掉。
在这里插入图片描述
然后保存一下数据
在这里插入图片描述
3、注释信息的准备

删掉多余的行和列,去掉一个探针对应多个基因名
在这里插入图片描述
选择筛选-包含-///,将这些行全部删掉。
在这里插入图片描述
在这里插入图片描述
合并数据
在这里插入图片描述
运行完成后
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在最后一列,有基因的名字,直接剪切粘贴到A列
在这里插入图片描述
这时候保存一下,再用去重工具,去一下重复的基因,在前面处理的时候,我们将一个探针对应多个基因的去掉了,那么这里的基因重复就是多个探针对应一个基因名,可以选择去重方法进行去重,这里就省略了
在这里插入图片描述
到这里数据的准备阶段基本就做完了,需要注意的是,在分析的过程中药注意基因的表达,相差大的,可以取一个log进行后续的分析。
#################################
到这里数据准备基本就结束,如果有兴趣可以关注公众号(豆芽数据分析)
有零代码复现相关问题,可以付费进入零代码答疑群和大家一起交流,群费为9.9元,拒绝白嫖党(添加微信:ShenxinBS003或者ShenxinBS001)

这篇关于零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(一)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/350091

相关文章

利用Python调试串口的示例代码

《利用Python调试串口的示例代码》在嵌入式开发、物联网设备调试过程中,串口通信是最基础的调试手段本文将带你用Python+ttkbootstrap打造一款高颜值、多功能的串口调试助手,需要的可以了... 目录概述:为什么需要专业的串口调试工具项目架构设计1.1 技术栈选型1.2 关键类说明1.3 线程模

Python Transformers库(NLP处理库)案例代码讲解

《PythonTransformers库(NLP处理库)案例代码讲解》本文介绍transformers库的全面讲解,包含基础知识、高级用法、案例代码及学习路径,内容经过组织,适合不同阶段的学习者,对... 目录一、基础知识1. Transformers 库简介2. 安装与环境配置3. 快速上手示例二、核心模

Java的栈与队列实现代码解析

《Java的栈与队列实现代码解析》栈是常见的线性数据结构,栈的特点是以先进后出的形式,后进先出,先进后出,分为栈底和栈顶,栈应用于内存的分配,表达式求值,存储临时的数据和方法的调用等,本文给大家介绍J... 目录栈的概念(Stack)栈的实现代码队列(Queue)模拟实现队列(双链表实现)循环队列(循环数组

Python结合PyWebView库打造跨平台桌面应用

《Python结合PyWebView库打造跨平台桌面应用》随着Web技术的发展,将HTML/CSS/JavaScript与Python结合构建桌面应用成为可能,本文将系统讲解如何使用PyWebView... 目录一、技术原理与优势分析1.1 架构原理1.2 核心优势二、开发环境搭建2.1 安装依赖2.2 验

使用Java将DOCX文档解析为Markdown文档的代码实现

《使用Java将DOCX文档解析为Markdown文档的代码实现》在现代文档处理中,Markdown(MD)因其简洁的语法和良好的可读性,逐渐成为开发者、技术写作者和内容创作者的首选格式,然而,许多文... 目录引言1. 工具和库介绍2. 安装依赖库3. 使用Apache POI解析DOCX文档4. 将解析

C++使用printf语句实现进制转换的示例代码

《C++使用printf语句实现进制转换的示例代码》在C语言中,printf函数可以直接实现部分进制转换功能,通过格式说明符(formatspecifier)快速输出不同进制的数值,下面给大家分享C+... 目录一、printf 原生支持的进制转换1. 十进制、八进制、十六进制转换2. 显示进制前缀3. 指

使用Python实现全能手机虚拟键盘的示例代码

《使用Python实现全能手机虚拟键盘的示例代码》在数字化办公时代,你是否遇到过这样的场景:会议室投影电脑突然键盘失灵、躺在沙发上想远程控制书房电脑、或者需要给长辈远程协助操作?今天我要分享的Pyth... 目录一、项目概述:不止于键盘的远程控制方案1.1 创新价值1.2 技术栈全景二、需求实现步骤一、需求

Java中Date、LocalDate、LocalDateTime、LocalTime、时间戳之间的相互转换代码

《Java中Date、LocalDate、LocalDateTime、LocalTime、时间戳之间的相互转换代码》:本文主要介绍Java中日期时间转换的多种方法,包括将Date转换为LocalD... 目录一、Date转LocalDateTime二、Date转LocalDate三、LocalDateTim

jupyter代码块没有运行图标的解决方案

《jupyter代码块没有运行图标的解决方案》:本文主要介绍jupyter代码块没有运行图标的解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录jupyter代码块没有运行图标的解决1.找到Jupyter notebook的系统配置文件2.这时候一般会搜索到

Spring Boot项目中结合MyBatis实现MySQL的自动主从切换功能

《SpringBoot项目中结合MyBatis实现MySQL的自动主从切换功能》:本文主要介绍SpringBoot项目中结合MyBatis实现MySQL的自动主从切换功能,本文分步骤给大家介绍的... 目录原理解析1. mysql主从复制(Master-Slave Replication)2. 读写分离3.