TCGA相关分析之数据筛选 | python从TCGA-GBM的RNA-seq表达数据count中筛选出各genes对应的案例cases的表达量count矩阵

本文主要是介绍TCGA相关分析之数据筛选 | python从TCGA-GBM的RNA-seq表达数据count中筛选出各genes对应的案例cases的表达量count矩阵,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

接上一篇文章,现在开始筛选数据组成count矩阵。
上一篇:TCGA下载GBM患者的RNA-seq数据

上一篇结束,下载到初始数据(图一图二是下载之后的文件夹以及每一个文件夹中的count数据文件)
在这里插入图片描述
在这里插入图片描述
需要从每一个count数据文件中筛选出gene_name、gene_type为lncRNA、FPKM表达量,效果图如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

由于不会R语言,就用python来实现

步骤:

  • 从每一个文件夹中提取出来count数据文件,整理到一个新文件夹中
  • 将所有count数据文件中需要的列提取出来,整合到一个文件中
  • 在整合文件中手动复制粘贴添加 gene_id、gene_name、gene_type 列数据即可(手动更快,因为这些都是一样的,不需要筛选)

1、从每一个文件夹中提取出来count数据文件,整理到一个新文件夹中

参照:python | 从指定文件夹中筛选出xml文件,复制到新的指定路径

2、将所有count数据文件中需要的列提取出来,整合到一个文件中

由于不方便对 tsv 文件操作行列,所以 tsv 转成 xls 来操作,这里就比较繁琐,需要来回转换。

2.1 tsv 转成 xls

最初由于 xlrd 模块不好用,比如更新带来的报错等,所以采用了 xlsx 格式。但是后面提取列的时候,openpyxl 模块又不支持行列操作,只能针对单元格,不得已又从 xlsx 转成 xls,绕了一圈,工作量加倍 (ˉ▽ˉ;)…

这里给出转 xls 和 xlsx 都能用的代码:
参照:python | 批量将 tsv 文件转成 xls 文件,保存到新路径

不过需要注意,不久pandas将不再支持xls,也就是说不能使用 pandas 保存为 xls 格式了,但是 xlsx 依旧能用。之后可能需要寻找其他方法,或者 tsv-xlsx-xls 间接转换。

2.2 提取出每一个 xls 文件中的所需列

这里说一下,因为使用 xlrd 模块,可直接通过 sheet.row[i] 和 sheet.col[i] 获取行和列的内容,所以使用 xls 格式。由于 openpyxl 模块只能对单元格操作,不合适,所以不用 xlsx 格式。

参照:python | 批量提取出每一个 xls 文件中的所需列,并重命名列名,保存到同一个新的 xls 文件中


这一篇就写到这里,下一篇继续前文工作,实现Person相关分析,后续实现共表达网络构建

这篇关于TCGA相关分析之数据筛选 | python从TCGA-GBM的RNA-seq表达数据count中筛选出各genes对应的案例cases的表达量count矩阵的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/372762

相关文章

Python脚本实现自动删除C盘临时文件夹

《Python脚本实现自动删除C盘临时文件夹》在日常使用电脑的过程中,临时文件夹往往会积累大量的无用数据,占用宝贵的磁盘空间,下面我们就来看看Python如何通过脚本实现自动删除C盘临时文件夹吧... 目录一、准备工作二、python脚本编写三、脚本解析四、运行脚本五、案例演示六、注意事项七、总结在日常使用

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

python管理工具之conda安装部署及使用详解

《python管理工具之conda安装部署及使用详解》这篇文章详细介绍了如何安装和使用conda来管理Python环境,它涵盖了从安装部署、镜像源配置到具体的conda使用方法,包括创建、激活、安装包... 目录pytpshheraerUhon管理工具:conda部署+使用一、安装部署1、 下载2、 安装3

Python进阶之Excel基本操作介绍

《Python进阶之Excel基本操作介绍》在现实中,很多工作都需要与数据打交道,Excel作为常用的数据处理工具,一直备受人们的青睐,本文主要为大家介绍了一些Python中Excel的基本操作,希望... 目录概述写入使用 xlwt使用 XlsxWriter读取修改概述在现实中,很多工作都需要与数据打交

使用MongoDB进行数据存储的操作流程

《使用MongoDB进行数据存储的操作流程》在现代应用开发中,数据存储是一个至关重要的部分,随着数据量的增大和复杂性的增加,传统的关系型数据库有时难以应对高并发和大数据量的处理需求,MongoDB作为... 目录什么是MongoDB?MongoDB的优势使用MongoDB进行数据存储1. 安装MongoDB

使用Python实现在Word中添加或删除超链接

《使用Python实现在Word中添加或删除超链接》在Word文档中,超链接是一种将文本或图像连接到其他文档、网页或同一文档中不同部分的功能,本文将为大家介绍一下Python如何实现在Word中添加或... 在Word文档中,超链接是一种将文本或图像连接到其他文档、网页或同一文档中不同部分的功能。通过添加超

MybatisGenerator文件生成不出对应文件的问题

《MybatisGenerator文件生成不出对应文件的问题》本文介绍了使用MybatisGenerator生成文件时遇到的问题及解决方法,主要步骤包括检查目标表是否存在、是否能连接到数据库、配置生成... 目录MyBATisGenerator 文件生成不出对应文件先在项目结构里引入“targetProje

Linux使用fdisk进行磁盘的相关操作

《Linux使用fdisk进行磁盘的相关操作》fdisk命令是Linux中用于管理磁盘分区的强大文本实用程序,这篇文章主要为大家详细介绍了如何使用fdisk进行磁盘的相关操作,需要的可以了解下... 目录简介基本语法示例用法列出所有分区查看指定磁盘的区分管理指定的磁盘进入交互式模式创建一个新的分区删除一个存

Golang操作DuckDB实战案例分享

《Golang操作DuckDB实战案例分享》DuckDB是一个嵌入式SQL数据库引擎,它与众所周知的SQLite非常相似,但它是为olap风格的工作负载设计的,DuckDB支持各种数据类型和SQL特性... 目录DuckDB的主要优点环境准备初始化表和数据查询单行或多行错误处理和事务完整代码最后总结Duck

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat