ards数据集合 脓毒症 jimmy学徒 优秀代码 split灵活应用

本文主要是介绍ards数据集合 脓毒症 jimmy学徒 优秀代码 split灵活应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

GEO Accession viewer

GEO Accession viewerNCBI's Gene Expression Omnibus (GEO) is a public archive and resource for gene expression data.https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE65682

 2. 拿相应的细胞Marker进行注释再看看,其实前一个注释结果就够(T细胞Mareker) --------------------------p=DimPlot(sce,reduction = "umap",label=T )  
sce.all = sce# yT1c=c("GNLY","PTGDS","GZMB","TRDC"),
# yT2c=c("TMN1","HMGB2","TYMS")
genes_to_check =list( naive=c("CCR7","SELL","TCF7","IL7R","CD27","CD28","LEF1","S1PR1"),CD8Trm=c("XCL1","XCL2","MYADM"),NKTc=c("GNLY","GZMA"), Tfh=c("CXCR5","BCL6","ICA1","TOX","TOX2","IL6ST"),th17=c("IL17A","KLRB1","CCL20","ANKRD28","IL23R","RORC","FURIN","CCR6","CAPG","IL22"),CD8Tem=c("CXCR4","GZMH","CD44","GZMK"),Treg=c("FOXP3","IL2RA","TNFRSF18","IKZF2"),naive=c("CCR7","SELL","TCF7","IL7R","CD27","CD28"),CD8Trm=c("XCL1","XCL2","MYADM"), MAIT=c("KLRB1","ZBTB16","NCR3","RORA"),yT1c=c("GNLY","PTGDS","GZMB","TRDC"),yT2c=c("TMN1","HMGB2","TYMS"),yt=c("TRGV9","TRDV2")
)
genes_to_check = lapply(genes_to_check, str_to_title)
dup=names(table(unlist(genes_to_check)))[table(unlist(genes_to_check))>1] #取出重名的marker基因
genes_to_check = lapply(genes_to_check, function(x) x[!x %in% dup]) #取出未重名的基因
p_all_markers=DotPlot(sce.all,  group.by = "RNA_snn_res.0.8",features = genes_to_check,scale = T,assay='RNA' )+theme(axis.text.x=element_text(angle=45,hjust = 1))
p_all_markers+p
ggsave('check_cd4_and_cd8T_markers.pdf',width = 9 )

# 拆成细胞类型对应的细胞list(CyclingT、CytoticT、NaiveT)
cell_list = split(colnames(sce.all),sce.all$celltype)
cell_list#获得相应细胞类型,对应的样本ID
names(cell_list)# 4.每个celltype不同分组之间差异分析 ----
dir.create("./by_celltype")
setwd("./by_celltype/")
getwd()

# 4.每个celltype不同分组之间差异分析 ----
dir.create("./by_celltype")
setwd("./by_celltype/")
getwd()# 利用FindAllMarkers进行差异分析---整个流程值得借鉴(针对每一种细胞类型在组别间分别进行差异分析)
# 保存每一种细胞类型的差异分析结果、对应细胞类型topMarker的Rdata、每种细胞类型top10气泡图与热图
for ( pro in names(cell_list) ) {#pro=names(cell_list)[1]sce=sce.all[,colnames(sce.all) %in% cell_list[[pro]]]sce <- CreateSeuratObject(counts = sce@assays$RNA@counts, meta.data = sce@meta.data, min.cells = 3, min.features = 200)  sce <- NormalizeData(sce)  sce = FindVariableFeatures(sce)sce = ScaleData(sce, vars.to.regress = c("nFeature_RNA","percent_mito"))Idents(sce)=sce$group #组别信息;后续用组别信息比较(赋值ident)table(Idents(sce))# 利用FindAllMarkers进行差异分析sce.markers <- FindAllMarkers(object = sce, only.pos = TRUE, logfc.threshold = 0.2,min.pct = 0.2, thresh.use = 0.2) write.csv(sce.markers,file=paste0(pro,'_sce.markers.csv'))sce.markers=sce.markers[order(sce.markers$cluster,sce.markers$avg_log2FC),]library(dplyr) top10 <- sce.markers %>% group_by(cluster) %>% top_n(10, avg_log2FC)# sce.Scale <- ScaleData(subset(sce,downsample=100),features =  unique(top10$gene)  )  sce.Scale <- ScaleData( sce ,features =  unique(top10$gene)  )  DoHeatmap(sce.Scale,features =  unique(top10$gene),# group.by = "celltype",assay = 'RNA', label = T)+scale_fill_gradientn(colors = c("white","grey","firebrick3"))ggsave(filename=paste0(pro,'_sce.markers_heatmap.pdf'),height = 8)p <- DotPlot(sce , features = unique(top10$gene)  ,assay='RNA'  )  + coord_flip()pggsave(plot=p, filename=paste0("check_top10-marker_by_",pro,"_cluster.pdf") ,height = 8)save(sce.markers,file=paste0(pro,'_sce.markers.Rdata')) }

细胞比例图library(ggsci)
ggplot(bar_per, aes(x = Var1, y = percent)) +geom_bar(aes(fill = Var2) , stat = "identity") + coord_flip() +theme(axis.ticks = element_line(linetype = "blank"),legend.position = "top",panel.grid.minor = element_line(colour = NA,linetype = "blank"), panel.background = element_rect(fill = NA),plot.background = element_rect(colour = NA)) +labs(y = "% Relative cell source", fill = NULL)+labs(x = NULL)+scale_fill_d3() #分组之间各种细胞占比ggsave("celltype_by_group_percent.pdf",units = "cm",width = 20,height = 12)
## 4.2 每种细胞类型中,各个样本所占比例 ----
bar_data <- as.data.frame(table(phe$celltype,phe$orig.ident))bar_per <- bar_data %>% group_by(Var1) %>%mutate(sum(Freq)) %>%mutate(percent = Freq / `sum(Freq)`)
bar_perwrite.csv(bar_per,file = "celltype_by_orig.ident_percent.csv")
ggplot(bar_per, aes(x = Var1, y = percent)) +geom_bar(aes(fill = Var2) , stat = "identity") + coord_flip() +theme(axis.ticks = element_line(linetype = "blank"),legend.position = "top",panel.grid.minor = element_line(colour = NA,linetype = "blank"), panel.background = element_rect(fill = NA),plot.background = element_rect(colour = NA)) +labs(y = "% Relative cell source", fill = NULL)+labs(x = NULL) ggsave("celltype_by_orig.ident_percent.pdf",units = "cm",width = 20,height = 12)

#自建函数# 自定义绘图函数,运行即可
head(phe)
plot_percent <- function(x,y){# x <- "group"# y <- "celltype"plot_data <- data.frame(table(phe[, x ],phe[, y ]))plot_data$Total <- apply(plot_data,1,function(x)sum(plot_data[plot_data$Var1 == x[1],3]))plot_data <- plot_data %>% mutate(Percentage = round(Freq/Total,3) * 100)pro <- xwrite.table(plot_data,paste0(pro,"_celltype_proportion.txt"),quote = F)th=theme(axis.text.x = element_text(angle = 45, vjust = 0.5, hjust=0.5)) library(paletteer) color <- c(paletteer_d("awtools::bpalette"),paletteer_d("awtools::a_palette"),paletteer_d("awtools::mpalette"))ratio1 <- ggplot(plot_data,aes(x = Var1,y = Percentage,fill = Var2)) +geom_bar(stat = "identity",position = "stack") +scale_fill_manual(values = color)+theme_classic() + theme(axis.title.x = element_blank()) + labs(fill = "Cluster") +th ratio1f=paste0('ratio_by_',x,'_VS_',y)h=floor(5+length(unique(plot_data[,1]))/2)w=floor(3+length(unique(plot_data[,2]))/2)ggsave(paste0('bar1_',f,'.pdf'),ratio1,height = h ,width = w ) pdf(paste0('balloonplot_',f,'.pdf'),height = 12 ,width = 20)balloonplot(table(phe[, x ],phe[, y ]))dev.off()plot_data$Total <- apply(plot_data,1,function(x)sum(plot_data[plot_data$Var1 == x[1],3]))plot_data<- plot_data %>% mutate(Percentage = round(Freq/Total,3) * 100)bar_Celltype=ggplot(plot_data,aes(x = Var1,y = Percentage,fill = Var2)) +geom_bar(stat = "identity",position = "stack") +theme_classic() + theme(axis.text.x=element_text(angle=45,hjust = 1)) + labs(fill = "Cluster")+facet_grid(~Var2,scales = "free")bar_Celltypeggsave(paste0('bar2_',f,'.pdf'),bar_Celltype,height = 8 ,width =  40) 
}## 4.3 每个分组中,不同细胞类型所占比例 ----plot_percent("group","celltype")## 4.4 每个分组中,不同细胞类型所占比例 ----
plot_percent("orig.ident","celltype")

#分组富集分析
getwd()  #"G:/linux study/hsp70_human/ref/201023国庆授课检查版/4_group"
setwd("G:/linux study/hsp70_human/ref/201023国庆授课检查版/4_group")
dir.create("../5_GO_KEGG")
setwd("../5_GO_KEGG/")
getwd()  #"G:/linux study/hsp70_human/ref/201023国庆授课检查版/5_GO_KEGG"# 对各个亚群的topMarker基因进行降维聚类分群 -----------------------------------------------## 3.1 kegg and go by cluster ----
# 只针对find的各个亚群top基因
# 现在我们选择了COSG算法if(T){# 3.all 读取数据富集分析-## 3.1 kegg and go by cluster 可视化 ----f = '../3-cell/harmony-sce.markers.Rdata' #决定了找簇与簇的显著富集的KEGG通路# 这个Rdata数据源于step3.1,针对簇利用FindAllMarker找簇的Top Marker 基因if(file.exists(f)){load(file = f)sce.markers=sce.markers[sce.markers$avg_log2FC > 0,]top1000 <- sce.markers %>% group_by(cluster) %>% top_n(1000, avg_log2FC)head(top1000) library(ggplot2)ids=bitr(top1000$gene,'SYMBOL','ENTREZID','org.Mm.eg.db')top1000=merge(top1000,ids,by.x='gene',by.y='SYMBOL')gcSample=split(top1000$ENTREZID, top1000$cluster) #分组太强大了 切割 按照组别切割splitgcSample # entrez id , compareCluster names(gcSample)xx <- compareCluster(gcSample, fun="enrichKEGG",organism="mmu")str(xx)p=dotplot(xx) p+ theme(axis.text.x = element_text(angle = 45, vjust = 0.5, hjust=0.5))ggsave('compareCluster-KEGG-top1000-cluster.pdf',width = 18,height = 8)xx <- compareCluster(gcSample, fun="enrichGO",OrgDb='org.Mm.eg.db')summary(xx)p=dotplot(xx) p+ theme(axis.text.x = element_text(angle = 90, vjust = 0, hjust=1))ggsave('compareCluster-GO-top1000-cluster.pdf',width = 15,height = 12)}}

这篇关于ards数据集合 脓毒症 jimmy学徒 优秀代码 split灵活应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/566583

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个