R语言基因功能富集分析气泡图

2023-10-17 20:30

本文主要是介绍R语言基因功能富集分析气泡图,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 前言
  • 一、基因本体论介绍
  • 二、数据获得
  • 三、气泡图绘制
  • 四、参考


前言

大家好✨,这里是bio🦖。有一位粉丝询问我如何绘制基因功能富集分析图,简单了解过后发现这是gene ontology(基因本体论)有关的知识,之前从未了解过。于是想写篇博客记录一下新知识以及第一次教粉丝绘图。
看完本篇博客,你将学习到:
1. 什么是基因本体论
2. 如何绘制基因功能富集分析图


一、基因本体论介绍

基因本体论 (Gene Ontology, GO)是生物信息学主要的项目,旨在是统一所有物种的基因和基因产物属性的代表。具体而言,这个项目的目的是(1)维持和发展在控制下基因及基因产物属性的词汇;(2)注释基因及基因产物属性,同化或传播注释数据;(3)提供工具,方便访问项目提供的数据的各个方面,并使用GO实现实验数据的功能解释[1]

GO包含生物学的三个方面[1]
细胞组分(cellular component):细胞的组成部分或细胞外环境
分子功能(molecular function):基因产物在分子水平的活性,如结合或催化活性
生物过程(biological process):有明确开始和结束的操作或一组分子事件,与整合的生命单位的功能有关。

哔哩哔哩有个讲解视频,个人觉得很不错,感兴趣的读者可以去看看哔哩哔哩讲解视频

二、数据获得

数据是粉丝提供的,感兴趣的读者可以下载:
百度网盘下载链接
提取码:svwx

在这里插入图片描述

图一,数据图

Category:种类
CategoryID:种类id
GO:GO编码
Description:描述
PARENT_GO:上一级的GO(这个可能没理解对)
LogP:P值的负对数
Enrichment:富集
Z-score:
GeneInHitList:基因在自己列表中的数量
GeneInGOAndHitList:基因在自己列表中且在GO中的数量

Z-score 的意思没有查到,如果有读者知道,可以告知一下,谢谢!

三、气泡图绘制

因为它的数据只需要简单的处理就可以使用了,所以话不多说直接上代码:

library(openxlsx)
library(ggplot2)setwd('YOUR_WORKWAY')# import data
data <- read.xlsx('1021_csdn.xlsx', sheet = 2)# data processing## calculate gene ratio
data$GeneRatio <- data$`#GeneInGOAndHitList` / data$`#GeneInHitList`## transfer negative PV to positive
data$positive_Pvalue <- -(data$LogP)draw_data <- data.frame(Description = data$Description, LogP = data$positive_Pvalue,GeneRatio = data$GeneRatio,Enrichment = data$Enrichment)# visualize data
ggplot(draw_data, aes(x=GeneRatio, y=Description))+geom_point(aes(size=Enrichment, color=LogP))+scale_colour_continuous(name="LogP", low='orange', high='red')

在这里插入图片描述

图二,气泡图

绘制出的散点图有部分点偏移了,可以对数据进行缩放(不等缩放,类似于y=ax+b

library(openxlsx)
library(ggplot2)setwd('YOUR_WORKWAY')# import data
data <- read.xlsx('1021_csdn.xlsx', sheet = 2)# data processing## calculate gene ratio
data$GeneRatio <- data$`#GeneInGOAndHitList` / data$`#GeneInHitList`## transfer negative PV to positive
data$positive_Pvalue <- -(data$LogP)## scale the gene ratio
data$percentage <- ceiling(rep(1,15) / data$GeneRatio)
data$GeneRatio <- data$percentage * data$GeneRatiodraw_data <- data.frame(Description = data$Description, LogP = data$positive_Pvalue,GeneRatio = data$GeneRatio,percentage = data$percentage * 10)# visualize data
ggplot(draw_data, aes(x=GeneRatio, y=Description))+geom_point(aes(size=percentage, color=LogP))+scale_colour_continuous(name="LogP", low='pink', high='red')+labs(size="10*percentage")

在这里插入图片描述

图三,数据处理气泡图

四、参考

[1]. wikipedia Gene Ontology
[2]. 哔哩哔哩视频讲解


这篇关于R语言基因功能富集分析气泡图的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/227770

相关文章

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

MOLE 2.5 分析分子通道和孔隙

软件介绍 生物大分子通道和孔隙在生物学中发挥着重要作用,例如在分子识别和酶底物特异性方面。 我们介绍了一种名为 MOLE 2.5 的高级软件工具,该工具旨在分析分子通道和孔隙。 与其他可用软件工具的基准测试表明,MOLE 2.5 相比更快、更强大、功能更丰富。作为一项新功能,MOLE 2.5 可以估算已识别通道的物理化学性质。 软件下载 https://pan.quark.cn/s/57

衡石分析平台使用手册-单机安装及启动

单机安装及启动​ 本文讲述如何在单机环境下进行 HENGSHI SENSE 安装的操作过程。 在安装前请确认网络环境,如果是隔离环境,无法连接互联网时,请先按照 离线环境安装依赖的指导进行依赖包的安装,然后按照本文的指导继续操作。如果网络环境可以连接互联网,请直接按照本文的指导进行安装。 准备工作​ 请参考安装环境文档准备安装环境。 配置用户与安装目录。 在操作前请检查您是否有 sud

线性因子模型 - 独立分量分析(ICA)篇

序言 线性因子模型是数据分析与机器学习中的一类重要模型,它们通过引入潜变量( latent variables \text{latent variables} latent variables)来更好地表征数据。其中,独立分量分析( ICA \text{ICA} ICA)作为线性因子模型的一种,以其独特的视角和广泛的应用领域而备受关注。 ICA \text{ICA} ICA旨在将观察到的复杂信号

C语言 | Leetcode C语言题解之第393题UTF-8编码验证

题目: 题解: static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num & MASK1) == 0) {return

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

如何确定 Go 语言中 HTTP 连接池的最佳参数?

确定 Go 语言中 HTTP 连接池的最佳参数可以通过以下几种方式: 一、分析应用场景和需求 并发请求量: 确定应用程序在特定时间段内可能同时发起的 HTTP 请求数量。如果并发请求量很高,需要设置较大的连接池参数以满足需求。例如,对于一个高并发的 Web 服务,可能同时有数百个请求在处理,此时需要较大的连接池大小。可以通过压力测试工具模拟高并发场景,观察系统在不同并发请求下的性能表现,从而