R语言Python GEO DataSets多个Series进行差异基因表达分析以及导入Excel到R的问题

本文主要是介绍R语言Python GEO DataSets多个Series进行差异基因表达分析以及导入Excel到R的问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引入

GEO DataSets上,某些Series是由多个series组成的,比如GSE6834,由六个Series组成:

This SuperSeries is composed of the following SubSeries:
Less… Less…
GSE6771 Temporal Cortex Control (mesial temporal lobe epilepsy control)
GSE6773 Temporal neocortex mesial temporal lobe epilepsy
GSE6774 Temporal Cortex Control (Alzheimer’s disease control)
GSE6774 Temporal Cortex Alzheimer’s Disease
GSE6777 Cerebellum Alzheimer’s Disease
GSE6778 Cerebellum Control (Alzheimer’s disease control)

每个Series又包括10个GSM,要知道一般都是实验组对照组在同一个矩阵中才能进行差异表达分析。那么举个例子,GSE6774和GSE6774,一个对照一个实验,两个矩阵怎么分析呢?

txt转为xlsx

很多人第一反应可能是将两个TXT合二为一,这样做可以,尤其是多个Series,这样还可以利用批处理减轻工作量,但是中间涉及到对齐、插入制表符等问题,很可能出错。不如借助Excel,直接在Excel中复制粘贴即可完成(Series比较少的话)。首先将txt转为xlsx,利用Java或者Python等脚本都可以完成,下面给出Python版的:

# coding=utf-8
import xlsxwriter
import pandas as pdworkbook = xlsxwriter.Workbook(r'D:\Alzheimer\Series\GSE6834\6780.xlsx') 
worksheet= workbook.add_worksheet(u'matrix')
txt=open(r'D:\Alzheimer\Series\GSE6834\6778.txt')m=0
n=0for m in range(1,8690):print(m);line=txt.readline()data=line.split('\t')for n in range(1,11):worksheet.write(m-1,n-1,data[n-1])worksheet.write(m-1,10,data[10][0:-1]) workbook.close()

注意worksheet.write(m-1,10,data[10][0:-1])这一行,由于每个数据带一个\t,但每一行最后一个还额外多一个\n,所以这一个\n要特殊处理。
转化为TXT后,直接复制粘贴便可合二为一。

在这里插入图片描述

xlsx到R中的数据框

xlsx做好了,怎么将其变成我们需要的数据框呢?
思路一:将其转化为txt,也就是再变回去。但是转化时,需要加入\t, \n等符号,也是比较麻烦,容易出错。
思路二:在R中直接用readxl包导入xlsx为数据框。乍一看貌似这个方法最简单,但是有一个问题:xlsx里的数据是文本格式,不能直接用于数据分析。否则,就会出现报错:

> fit=lmFit(exp_matrix, design)
Error in rowMeans(y$exprs, na.rm = TRUE) : 'x' must be numeric

要想批量将Excel中文本格式的数字转化成数字格式,一般的办法是转成csv,然后再转回来。不过,既然转成csv了,不如直接用R导入就可以了。
思路三:将xlsx转成csv,然后用read.csv()导入。
导入之后观察实验矩阵:在这里插入图片描述
发现数据框第一列居然是探针名字,而不是想象中探针名字作为数据框的行名。所以我们还需要一步,修改下这个数据框。

更改数据框行名(rownames)

首先,我们需要知道更改数据框行名的函数是row.names()。这个函数的参数是向量,所以我们需要把数据框第一列转化成向量;如果直接将数据框或者矩阵作为行名会报错Error in `.rowNamesDF<-`(x, value = value) : 'row.names'的长度不对。那么,数据框怎么转化为向量呢?中间必要的一步是矩阵。所以正确的方法是连续用两个函数as.matrix()as.vector()
另外我们还需要将第一列删除,注意删除是在赋rownames之前,否则刚刚赋好的rownames也会被删除!
这一部分代码如下:

m=as.matrix(exp_matrix[, 1])
v=as.vector(m)
exp_matrix<-exp_matrix[, -1]
row.names(exp_matrix) <- v

处理后的数据框如下:在这里插入图片描述

差异表达分析

最后贴一下这个例子中,从导入到差异表达分析的全过程:

library("reshape2")
library("hgu133plus2.db")
library("limma")setwd("D:/Alzheimer/Series/GSE6834")exp_matrix<-read.csv("6774&6775.csv",header = TRUE)
m=as.matrix(exp_matrix[, 1])
v=as.vector(m)
exp_matrix<-exp_matrix[, -1]
row.names(exp_matrix) <- v#TC_Control	Temporal Cortex Control (AD)
#TC_AD Temporal Cortex Alzheimer's disease
type <-c('TC_Control','TC_Control','TC_Control','TC_Control','TC_Control','TC_Control','TC_Control','TC_Control','TC_Control','TC_Control','TC_AD','TC_AD','TC_AD','TC_AD','TC_AD','TC_AD','TC_AD','TC_AD','TC_AD','TC_AD')
design <- model.matrix(~ -1+factor(type,levels=c('TC_Control','TC_AD'),ordered=TRUE)) 
colnames(design) <- c('TC_Control','TC_AD')
rownames(design)=colnames(exp_matrix)fit=lmFit(exp_matrix, design)contrast.matrix=makeContrasts(TC_ControlVSTC_AD=TC_Control-TC_AD,levels=design) 
fit2 = contrasts.fit(fit, contrast.matrix) 
fit2 = eBayes(fit2)
results <- decideTests(fit2) 
vennDiagram(results)diff1 = topTreat(fit2, coef=1,p.value=0.05, n=Inf, adjust.method='BH')write.table(diff1, "diff.TC_ControlVSTC_AD.GSE6834.txt",sep = '\t',quote = F)

这篇关于R语言Python GEO DataSets多个Series进行差异基因表达分析以及导入Excel到R的问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/943736

相关文章

Python将博客内容html导出为Markdown格式

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转... 目录一、为什么要搞?二、准备如何搞?三、说搞咱就搞!抓取文章提取内容构建html转存markdown

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Java编译生成多个.class文件的原理和作用

《Java编译生成多个.class文件的原理和作用》作为一名经验丰富的开发者,在Java项目中执行编译后,可能会发现一个.java源文件有时会产生多个.class文件,从技术实现层面详细剖析这一现象... 目录一、内部类机制与.class文件生成成员内部类(常规内部类)局部内部类(方法内部类)匿名内部类二、

Go标准库常见错误分析和解决办法

《Go标准库常见错误分析和解决办法》Go语言的标准库为开发者提供了丰富且高效的工具,涵盖了从网络编程到文件操作等各个方面,然而,标准库虽好,使用不当却可能适得其反,正所谓工欲善其事,必先利其器,本文将... 目录1. 使用了错误的time.Duration2. time.After导致的内存泄漏3. jsO

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

springboot循环依赖问题案例代码及解决办法

《springboot循环依赖问题案例代码及解决办法》在SpringBoot中,如果两个或多个Bean之间存在循环依赖(即BeanA依赖BeanB,而BeanB又依赖BeanA),会导致Spring的... 目录1. 什么是循环依赖?2. 循环依赖的场景案例3. 解决循环依赖的常见方法方法 1:使用 @La

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.