RNAseq分析:Step6(计算表达丰度)

2023-10-09 09:20

本文主要是介绍RNAseq分析:Step6(计算表达丰度),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

前记

一、计算FPKM

二、计算reads数

后记


前记

RNA-seq技术是研究基因表达的常用方法之一,其表达丰度计算是RNA-seq数据分析的重要步骤之一。

RNA-seq表达丰度计算的基本流程如下:

  1. 序列比对:将测序数据比对到参考基因组,得到每个基因的计数。

  2. 转录本重构:使用转录本拼接软件,如Cufflinks或StringTie,将比对后的 Bam/Sam 文件转换为每个转录本的表达值。这里的转录本可能是已知的基因、未知的基因或转录本。

  3. 表达值的归一化:考虑样本间的技术差异和表达量大小的影响,对表达值进行归一化。常用的归一化方法包括RPKM、FPKM、TPM等,其中TPM是近年来推出的一种比较推荐的归一化方法。

  4. 差异表达分析:通过比较不同样本下的基因或转录本表达值,识别差异表达的基因或转录本。差异表达分析常用的软件包括DESeq2、edgeR和limma等。

  5. 基因本体注释和通路分析:将差异表达的基因或转录本进行功能注释,通常使用基因本体注释(GO)和通路分析(KEGG)等方法。这一步有助于研究人员理解基因在生物学过程中的功能和调控机制。

总的来说,RNA-seq表达丰度计算需要经历序列比对、转录本重构、表达值的归一化、差异表达分析和功能注释等步骤。这些步骤需要使用不同的软件和工具,根据实验设计和分析目的合理选择并组合使用。

本文主要介绍如何使用stringtie软件计算FPKM值以及如何利用HTSeq-count软件计算reads数目。

一、计算FPKM

使用stringtie计算基因和转录本的表达丰度。

#使用stringtie计算基因和转录本的FPKM
stringtie -e -p 2 -G ~/rnaseq/tair10_genome/tair10.gtf -A SRR3418005_genes.gtf -o SRR3418005_transcripts.gtf ~/rnaseq/hisat2_results/SRR3418005.bam &

每个bam文件处理之后会得到两个gtf文件,分别是genes.gtf文件和transcripts.gtf文件,文件中包含,基因或转录本的FPKM值信息。

 将得到四个样本的基因和转录本的gtf文件分别进行合并。

#删除第一行标题,以下步骤将四个gtf文件整合为一个
sed -i '1d' *_genes.gtf #排序并输出到merge文件夹下
mkdir merge
sort SRR3418005_genes.gtf > merge/SRR3418005_genes.gtf 
sort SRR3418006_genes.gtf > merge/SRR3418006_genes.gtf
sort SRR3418019_genes.gtf > merge/SRR3418019_genes.gtf
sort SRR3418020_genes.gtf > merge/SRR3418020_genes.gtf#切换到merge文件夹,操作如下
cd merge
join -t $'\t' SRR3418005_genes.gtf SRR3418006_genes.gtf | join - SRR3418019_genes.gtf | join - SRR3418020_genes.gtf > out_fpkm.gtf
awk -F ' ' '{print $1"\t"$2"\t"$3"\t"$4"\t"$5"\t"$5"\t"$6"\t"$7"\t"$8"\t"$16"\t"$24"\t"$32}' out_fpkm.gtf > fpkm.gtf #fpkm_gtf为最终的FPKM注释文件

二、计算reads数

#计算SRR3418005样本基因的counts数目
htseq-count -q -f bam -s no -i gene_id ~/rnaseq/hisat2_results/SRR3418005.bam ~/rnaseq/tair10_genome/tair10.gtf > SRR3418005.count &

计算过程如下所示:

 整合四个样本的count文件。

#count文件整合
join SRR3418005.count SRR3418006.count | join - SRR3418019.count | join - SRR3418020.count > count.txt 
sed -i 's/ /\t/g' count.txt

后记

以上是FPKM值计算和reads数计算的方法,后续会利用count.txt文件进行差异表达分析。

2023.8.24

----CXGG

这篇关于RNAseq分析:Step6(计算表达丰度)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/171863

相关文章

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

poj 1113 凸包+简单几何计算

题意: 给N个平面上的点,现在要在离点外L米处建城墙,使得城墙把所有点都包含进去且城墙的长度最短。 解析: 韬哥出的某次训练赛上A出的第一道计算几何,算是大水题吧。 用convexhull算法把凸包求出来,然后加加减减就A了。 计算见下图: 好久没玩画图了啊好开心。 代码: #include <iostream>#include <cstdio>#inclu

uva 1342 欧拉定理(计算几何模板)

题意: 给几个点,把这几个点用直线连起来,求这些直线把平面分成了几个。 解析: 欧拉定理: 顶点数 + 面数 - 边数= 2。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#inc

uva 11178 计算集合模板题

题意: 求三角形行三个角三等分点射线交出的内三角形坐标。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#include <stack>#include <vector>#include <

XTU 1237 计算几何

题面: Magic Triangle Problem Description: Huangriq is a respectful acmer in ACM team of XTU because he brought the best place in regional contest in history of XTU. Huangriq works in a big compa

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

MOLE 2.5 分析分子通道和孔隙

软件介绍 生物大分子通道和孔隙在生物学中发挥着重要作用,例如在分子识别和酶底物特异性方面。 我们介绍了一种名为 MOLE 2.5 的高级软件工具,该工具旨在分析分子通道和孔隙。 与其他可用软件工具的基准测试表明,MOLE 2.5 相比更快、更强大、功能更丰富。作为一项新功能,MOLE 2.5 可以估算已识别通道的物理化学性质。 软件下载 https://pan.quark.cn/s/57

衡石分析平台使用手册-单机安装及启动

单机安装及启动​ 本文讲述如何在单机环境下进行 HENGSHI SENSE 安装的操作过程。 在安装前请确认网络环境,如果是隔离环境,无法连接互联网时,请先按照 离线环境安装依赖的指导进行依赖包的安装,然后按照本文的指导继续操作。如果网络环境可以连接互联网,请直接按照本文的指导进行安装。 准备工作​ 请参考安装环境文档准备安装环境。 配置用户与安装目录。 在操作前请检查您是否有 sud

线性因子模型 - 独立分量分析(ICA)篇

序言 线性因子模型是数据分析与机器学习中的一类重要模型,它们通过引入潜变量( latent variables \text{latent variables} latent variables)来更好地表征数据。其中,独立分量分析( ICA \text{ICA} ICA)作为线性因子模型的一种,以其独特的视角和广泛的应用领域而备受关注。 ICA \text{ICA} ICA旨在将观察到的复杂信号

【软考】希尔排序算法分析

目录 1. c代码2. 运行截图3. 运行解析 1. c代码 #include <stdio.h>#include <stdlib.h> void shellSort(int data[], int n){// 划分的数组,例如8个数则为[4, 2, 1]int *delta;int k;// i控制delta的轮次int i;// 临时变量,换值int temp;in