yll duqiang 制作geo三个独立数据集IPF基因集合 用于分析某个基因是否与生存期相关THBS2 mmp7

本文主要是介绍yll duqiang 制作geo三个独立数据集IPF基因集合 用于分析某个基因是否与生存期相关THBS2 mmp7,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

制作IPF基因集合 用于分析某个基因是否与生存期相关

load("G:/r/duqiang_IPF/surval_analysis_3_independent_dataset_IPF/combined_data_for_surval.RDdata")1#输入想要查询的基因名称或者向量
gene_interested="MMP7"  #输入想要查询的基因名称或者向量
library(stringr)
gene_interested=readClipboard() %>% str_split(pattern = ",",gene_interested)[[1]]2#首先查看基因是否存在数据集中,如果不存在则去掉该基因
table( gene_interested %in% rownames(expr.17077clean) & gene_interested %in% rownames(expr.freibrug.IPF))#制作phedata数据用于存活分析
if(1==1){#制作phedata数据用于存活分析for (eachgene in gene_interested) {phe.freigbrug[paste0(eachgene)]=ifelse(expr.freibrug.IPF[eachgene,]>median(expr.freibrug.IPF[eachgene,]),"High",'Low')}head(phe.freigbrug)for (eachgene in gene_interested) {phe.senia[paste0(eachgene)]=ifelse(expr.siena.IPF[eachgene,]>median(expr.siena.IPF[eachgene,]),"High",'Low')}head(phe.senia)for (eachgene in gene_interested) {phe.17077[paste0(eachgene)]=ifelse(expr.17077clean[eachgene,]>median(expr.17077clean[eachgene,]),"High",'Low')}head(phe.17077)}###开始合并三个数据集的phe数据phe_final_3=rbind(phe.freigbrug,phe.senia,phe.17077)
dim(phe_final_3) #[1] 176  5
head(phe_final_3)library(dplyr)
phe_final_3=phe_final_3 %>% transform(time=as.numeric(time))%>% transform(event=as.numeric(event))
getwd()#批量基因差异分析
library(survival)
library(survminer)
for (eachgene in gene_interested) {p=ggsurvplot(survfit(Surv(time, event)~phe_final_3[,eachgene], data=phe_final_3), conf.int=F, pval=TRUE)pdf(paste0(eachgene, "_surval_analysis_from_3_institutes.pdf"),width = 5, height = 5)print(p, newpage = FALSE)dev.off()}

THBS2

在这里插入图片描述

ASB2

在这里插入图片描述

MMP7
在这里插入图片描述


if(1==1){#读取感兴趣的基因gene_interested=readClipboard()head(gene_interested)library(stringr)gene_interested=str_split(pattern = ",",gene_interested)[[1]]gene_interested=gene_interested[-which(gene_interested=="RAB40A")]gene_interested#gpl14550load(file ="G:/r/duqiang_IPF/GSE70866—true—_BAL_IPF_donors_RNA-seq/Rdatafor_freibrug.RData")head(expr.freiburg_clean)[,1:4]head(meta.14550)[,1:4]dim(expr.freiburg)dim(meta.14550)exprSet.114550.ipf=expr.freiburg[,which(colnames(expr.freiburg)=="GSM1820739"):which(colnames(expr.freiburg)=="GSM1820850")]dim(exprSet.114550.ipf) #[1] 20330   112head(exprSet.114550.ipf)[,1:4]#ID 转换if(1==1){ids14550=data.table::fread("G:/r/duqiang_IPF/GSE70866_BAL_IPF_donors_RNA-seq/GPL14550-9757.txt",)##读取head(ids14550)colnames(ids14550)ids14550=ids14550[,c("ID","GENE","GENE_SYMBOL")]head(ids14550)colnames(ids14550) <- c("PROBE_ID","Entrez_ID", "SYMBOL_ID")#改名,让他适合下面的自定义函数#自建函数p2g <- function(eset,probe2symbol){library(dplyr)library(tibble)library(tidyr)eset <- as.data.frame(eset)p2g_eset <- eset %>% rownames_to_column(var="PROBE_ID") %>% #合并探针的信息inner_join(probe2symbol,by="PROBE_ID") %>% #去掉多余信息select(-PROBE_ID) %>% #重新排列dplyr::select(SYMBOL_ID,everything()) %>% #求出平均数(这边的点号代表上一步产出的数据)mutate(rowMean = rowMeans(.[grep("GSM", names(.))])) %>% #去除symbol中的NAfilter(SYMBOL_ID != "NA") %>% #把表达量的平均值按从大到小排序arrange(desc(rowMean)) %>% # symbol留下第一个distinct(SYMBOL_ID,.keep_all = T) %>% #反向选择去除rowMean这一列dplyr::select(-rowMean) %>% # 列名变成行名column_to_rownames(var = "SYMBOL_ID")#save(p2g_eset, file = "p2g_eset.Rdata")return(p2g_eset)}p2g_eset <- p2g(eset = exprSet.114550.ipf, probe2symbol = ids14550)head(p2g_eset)exprSet.114550.ipf=p2g_eset[,!colnames(p2g_eset)=="Entrez_ID"]}head(exprSet.114550.ipf)[,1:4]colnames(meta.14550)=c('event','time','sex','diagnosis')head(meta.14550)[,1:4]meta.14550=meta.14550[rownames(meta.14550) %in% colnames(exprSet.114550.ipf),]head(meta.14550)[,1:4]dim(meta.14550) #[1] 112   7dim(exprSet.114550.ipf) #[1] 20330   112head(exprSet.114550.ipf)[,1:4]phe.14550=transform(meta.14550,event=as.numeric(event)) %>% transform(time=as.numeric(time)) phe.14550=phe.14550[,1:3]head(phe.14550)exprSet.114550=exprSet.114550.ipf %>% transform(as.numeric()) %>% as.matrix()head(exprSet.114550)[,1:3]for (eachgene in gene_interested) {phe.14550[paste0(eachgene)]=ifelse(exprSet.114550[eachgene,]>median(exprSet.114550[eachgene,]),"High",'Low')}head(phe.14550)dim(phe.14550)dim(phe.17077)##gpl17077load(file ="G:/r/duqiang_IPF/GSE70866—true—_BAL_IPF_donors_RNA-seq/expr17077.RData")head(expr.17077clean)dim(expr.17077clean) #[1] 20190    64head(meta.17077)colnames(meta.17077)=colnames(meta.14550)head(meta.17077)meta.17077=meta.17077[,1:3]head(meta.17077)head(expr.17077clean)[,1:3]library(dplyr)phe.17077=meta.17077head(meta.17077)exprSet.17077=expr.17077clean  %>% as.matrix() %>% transform(as.numeric()) #数据格式转换head(exprSet.17077)[,1:3]for (eachgene in gene_interested) {phe.17077[paste0(eachgene)]=ifelse(exprSet.17077[eachgene,]>median(exprSet.17077[eachgene,]),"High",'Low')}head(phe.17077)##开始合并两个平台的phe数据phe_final_3=rbind(phe.14550,phe.17077)dim(phe_final_3) #[1] 176  37getwd()dir.create("G:/r/duqiang_IPF/GSE70866—true—_BAL_IPF_donors_RNA-seq/survival_for_genes-three")setwd("G:/r/duqiang_IPF/GSE70866—true—_BAL_IPF_donors_RNA-seq/survival_for_genes-three")head(phe_final_3)phe_final_3=phe_final_3 %>% transform(time=as.numeric(time))%>% transform(event=as.numeric(event))getwd()#save(phe_final_3,meta.14550,meta.17077,expr.17077clean,exprSet.114550,file = "G:/r/duqiang_IPF/GSE70866—true—_BAL_IPF_donors_RNA-seq/survival_for_genes-three/3-institutes.RData")load("G:/r/duqiang_IPF/GSE70866—true—_BAL_IPF_donors_RNA-seq/survival_for_genes-three/3-institutes.RData")#批量基因差异分析for (eachgene in gene_interested) {p=ggsurvplot(survfit(Surv(time, event)~phe_final_3[,eachgene], data=phe_final_3), conf.int=F, pval=TRUE)pdf(paste0(eachgene, "_surval_analysis_from_3_institutes.pdf"),width = 5, height = 5)print(p, newpage = FALSE)dev.off()}load("G:/r/duqiang_IPF/GSE70866—true—_BAL_IPF_donors_RNA-seq/survival_for_genes-three/3-institutes.RData")#批量基因差异分析head(phe_final_3)}load("G:/r/duqiang_IPF/GSE70866—true—_BAL_IPF_donors_RNA-seq/survival_for_genes-three/3-institutes.RData")colnames(exprSet.114550)
nrow(meta.14550)
dim(exprSet.114550) #[1] 20190   112if(1==1){head(meta.14550)expr.freibrug.IPF=exprSet.114550[,which(colnames(exprSet.114550)=="GSM1820739"):which(colnames(exprSet.114550)=="GSM1820800")]meta.freibrug.IPF=meta.14550[1:62,]expr.siena.IPF=exprSet.114550[,!(colnames(exprSet.114550) %in% colnames(expr.freibrug.IPF)) ]meta.siena.IPF=meta.14550[rownames(meta.14550) %in% colnames(expr.siena.IPF),]head(meta.siena.IPF)dim(meta.siena.IPF) #[1] 50  7dim(expr.17077clean) #[1] 20190    64head(meta.17077)colnames(meta.17077)=c("time","event","sex","diagnosis")head(meta.17077)meta.17077=meta.17077[,1:4] %>%select(event,everything())meta.14550=meta.14550[,1:4]head(meta.14550)meta.freibrug.IPF=meta.freibrug.IPF[,1:4]meta.siena.IPF=meta.siena.IPF[,1:4]head(meta.17077)dim(expr.17077clean)# [1] 20190    64identical(rownames(expr.freibrug.IPF),rownames(expr.17077clean))phe.freigbrug=meta.freibrug.IPFphe.senia=meta.siena.IPFphe.17077=meta.17077expr.17077clean=as.matrix(expr.17077clean)getwd()dir.create("G:/r/duqiang_IPF/surval_analysis_3_independent_dataset_IPF")setwd("G:/r/duqiang_IPF/surval_analysis_3_independent_dataset_IPF")save(expr.freibrug.IPF,  phe.freigbrug,expr.siena.IPF,     phe.senia,expr.17077clean,    phe.17077,file ="G:/r/duqiang_IPF/surval_analysis_3_independent_dataset_IPF/combined_data_for_surval.RDdata" )}

这篇关于yll duqiang 制作geo三个独立数据集IPF基因集合 用于分析某个基因是否与生存期相关THBS2 mmp7的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/282693

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

sqlite3 相关知识

WAL 模式 VS 回滚模式 特性WAL 模式回滚模式(Rollback Journal)定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能;支持多读者和单写者。支持安全的事务回滚,但并发性较低。性能写入性能更好,尤其是读多写少的场景。写操作会造成较大的性能开销,尤其是在事务开始时。写入流程数据首先写入 WAL 文件,然后才从 WAL 刷新到主数据库。数据在开始

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X