RNA-seq流程学习笔记(9)-使用RSeQC软件对生成的BAM文件进行质控

2023-11-06 11:10

本文主要是介绍RNA-seq流程学习笔记(9)-使用RSeQC软件对生成的BAM文件进行质控,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

参考文章:
用RSeQC对比对后的转录组数据进行质控
高通量测序质控及可视化工具包RSeQC
RSeQC使用笔记

1. 质控的原因及相关软件

在A survey of best practices for RNA-seq data analysis里面,提到了人类基因组应该有70%~90%的比对率,并且多比对read(multi-mapping reads)数量要少。另外比对在外显子和所比对链(uniformity of read coverage on exons and the mapped strand)的覆盖度要保持一致。因此,可以对之前得到的BAM比对文件进行质检。

对BAM文件进行QC的软件包括:

Qualimap:对二代数据进行质控的综合软件

Picard:综合质控学习软件。

RSeQC是发表于2012年的一个RNA-Seq质控工具,属于python包。提供了一系列有用的小工具能够评估高通量测序尤其是RNA-seq数据。比如一些基本模块:检查序列质量、核酸组分偏性、PCR偏性、GC含量偏性,还有RNA-seq特异性模块:评估测序饱和度、映射读数分布、覆盖均匀性、链特异性、转录水平RNA完整性等。

2. RSeQC软件安装

参照文章:RNA-seq流程学习笔记(3)
查看Conda官网Index的RSeQC软件介绍,发现支持python3.6版本,因此直接使用Miniconda3安装, 安装完成后并没有RSeQC这个软件,而是增加了一些python命令,如下:
在这里插入图片描述
虽然该软件的使用命令非常多,但很多功能并不是用来诊断转录组测序的,所以不在我们的考虑范围内。

3.RSeQC处理4种文件格式:

  1. BED 格式:Tab 分割,12列的表示基因模型的纯文本文件。
  2. SAM 或BAM 格式: 用来存储reads比对结果信息,SAM是可读的纯文本文件,然而BAM是SAM的二进制文本,一个压缩的可索引的reads比对文件。
  3. 染色体大小文件: 只有两列的纯文本文件,在“生物信息学文本处理大杂烩(一)”里已经讲过。hg19.chrom_24.sizes是人基因组hg19版本的size文件,是使用UCSC 的fetchChromSizes下载的。
  4. Fasta文件。
    我主要使用的是比对后得到的BAM格式文件。

4. RSeQC软件进行质控检测

1. 使用bam_stat.py命令查看比对的总体情况

#命令说明
Usage: bam_stat.py [options]
Summarizing mapping statistics of a BAM or SAM file.
Options:--version             show program's version number and exit-h, --help            show this help message and exit-i INPUT_FILE, --input-file=INPUT_FILEAlignment file in BAM or SAM format.-q MAP_QUAL, --mapq=MAP_QUALMinimum mapping quality (phred scaled) to determine"uniquely mapped" reads. default=30
#操作记录
(base) zexing@DNA:~/projects/zhaoxiujuan/aligned$ bam_stat.py -i Scr.bam.sort
Load BAM file ...  Done#==================================================
#All numbers are READ count
#==================================================Total records:                          50976263QC failed:                              0
Optical/PCR duplicate:                  0
Non primary hits                        5208051   #表示多匹配位点
Unmapped reads:                         1232377
mapq < mapq_cut (non-unique):           2464685
mapq >= mapq_cut (unique):              42071150
Read-1:                                 21096560
Read-2:                                 20974590
Reads map to '+':                       21026875
Reads map to '-':                       21044275
Non-splice reads:                       18498057
Splice reads:                           23573093
Reads mapped in proper pairs:           41139130
Proper-paired reads map to different chrom:0

确认代码:

bam_stat.py -i ${i}.bam.sort

2. 使用read_distribution.py命令查看基因组覆盖率

#命令说明:
Usage: read_distribution.py [options]
Check reads distribution over exon, intron, UTR, intergenic ... etc
The following reads will be skipped:qc_failedPCR duplicateUnmappedNon-primary (or secondary)
Options:--version             show program's version number and exit-h, --help            show this help message and exit-i INPUT_FILE, --input-file=INPUT_FILEAlignment file in BAM or SAM format.-r REF_GENE_MODEL, --refgene=REF_GENE_MODELReference gene model in bed format.
#该命令需要输入两个文件
# -i为BAM或SAM文件
# -r为参考的bed文件

BED文件可以直接从RSeQC网站下载:
此次练习中下载了人的BED文件,测序数据为小鼠来源,错误!!
在这里插入图片描述下载如下:

#使用wget下载,发现报错,暂未解决。
#在windows 10下面右键保存(2.6M)
#使用scp file name@222.22.222.222:~/dir 命令将文件上传至服务器
#使用gzip命令对文件解压缩,压缩文件不能被识别
(base) zexing@DNA:~/projects/zhaoxiujuan/aligned/BED_file$ gzip -d hg19_RefSeq.bed.gz
(base) zexing@DNA:~/projects/zhaoxiujuan/aligned/BED_file$ ls
hg19_RefSeq.bed

操作记录:

(base) zexing@DNA:~/projects/zhaoxiujuan/aligned$ read_distribution.py -i ./Scr.bam.sort -r /f/xudonglab/zexing/projects/zhaoxiujuan/aligned/BED_file/hg19_RefSeq.bed
processing /f/xudonglab/zexing/projects/zhaoxiujuan/aligned/BED_file/hg19_RefSeq.bed ... Done
processing ./Scr.bam.sort ... FinishedTotal Reads                   44535835
Total Tags                    75880491
Total Assigned Tags           37717256
=====================================================================
Group               Total_bases         Tag_count           Tags/Kb
CDS_Exons           35271889            808827              22.93
5'UTR_Exons         13156148            236757              18.00
3'UTR_Exons         35031450            586598              16.74
Introns             1249039112          30136632            24.13
TSS_up_1kb          19566867            461946              23.61
TSS_up_5kb          88704854            1929741             21.75
TSS_up_10kb         163160166           3349520             20.53
TES_down_1kb        20819429            527166              25.32
TES_down_5kb        89844112            1590630             17.70
TES_down_10kb       160449429           2598922             16.20
=====================================================================

可以用一个饼图来表示,在生信技能树论坛里面还有人专门提问过。(有待进一步研究)
关于RSeQC输出结果的保存,可以使用定向写入【>】来保存。

#使用重定向>命令将read_distribution命令的输出结果定向到指定Log文件中
(base) zexing@DNA:~/projects/zhaoxiujuan/aligned$ read_distribution.py -i ./Scr.bam.sort -r /f/xudonglab/zexing/projects/zhaoxiujuan/aligned/BED_file/hg19_RefSeq.bed > Scr_distribution.log
processing /f/xudonglab/zexing/projects/zhaoxiujuan/aligned/BED_file/hg19_RefSeq.bed ... Done
processing ./Scr.bam.sort ... Finished
(base) zexing@DNA:~/projects/zhaoxiujuan/aligned$ ll
total 277G
-rw-rw-r-- 1 zexing zexing 1.2K 6月   4 13:05 Scr_distribution.log
#使用cat命令查看运行结果
(base) zexing@DNA:~/projects/zhaoxiujuan/aligned$ cat Scr_distribution.log
Total Reads                   44535835
Total Tags                    75880491
Total Assigned Tags           37717256
=====================================================================
Group               Total_bases         Tag_count           Tags/Kb
CDS_Exons           35271889            808827              22.93
5'UTR_Exons         13156148            236757              18.00
3'UTR_Exons         35031450            586598              16.74
Introns             1249039112          30136632            24.13
TSS_up_1kb          19566867            461946              23.61
TSS_up_5kb          88704854            1929741             21.75
TSS_up_10kb         163160166           3349520             20.53
TES_down_1kb        20819429            527166              25.32
TES_down_5kb        89844112            1590630             17.70
TES_down_10kb       160449429           2598922             16.20
=====================================================================

关于RSeQC的其他使用方法,参考文章:用RSeQC对比对后的转录组数据进行质控
3. 使用shell script对多个数据执行以上命令
关于脚本,参考文章:Linux学习笔记-学习shell脚本的使用(持续更新)

#脚本如下
#!/bin/bash
#program:
#  This program is running RSeQC software command and saving the output results.
#History:
#    2020/06/04            zexing         First release
for i in msh1 msh2 m3108 m3110 m3111 m3112 m3113 m3114
dobam_stat.py -i ${i}.bam.sort > ${i}_bam_stat.logread_distribution.py -i ${i}.bam.sort -r /f/xudonglab/zexing/projects/zhaoxiujuan/aligned/BED_file/hg19_RefSeq.bed > ${i}_distribution.log
done
#后台执行该命令
(base) zexing@DNA:~/projects/zhaoxiujuan/aligned$ nohup sh -x RSeQC.sh &
[1] 172776

这篇关于RNA-seq流程学习笔记(9)-使用RSeQC软件对生成的BAM文件进行质控的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/356252

相关文章

解决Maven项目idea找不到本地仓库jar包问题以及使用mvn install:install-file

《解决Maven项目idea找不到本地仓库jar包问题以及使用mvninstall:install-file》:本文主要介绍解决Maven项目idea找不到本地仓库jar包问题以及使用mvnin... 目录Maven项目idea找不到本地仓库jar包以及使用mvn install:install-file基

Python使用getopt处理命令行参数示例解析(最佳实践)

《Python使用getopt处理命令行参数示例解析(最佳实践)》getopt模块是Python标准库中一个简单但强大的命令行参数处理工具,它特别适合那些需要快速实现基本命令行参数解析的场景,或者需要... 目录为什么需要处理命令行参数?getopt模块基础实际应用示例与其他参数处理方式的比较常见问http

C 语言中enum枚举的定义和使用小结

《C语言中enum枚举的定义和使用小结》在C语言里,enum(枚举)是一种用户自定义的数据类型,它能够让你创建一组具名的整数常量,下面我会从定义、使用、特性等方面详细介绍enum,感兴趣的朋友一起看... 目录1、引言2、基本定义3、定义枚举变量4、自定义枚举常量的值5、枚举与switch语句结合使用6、枚

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取

使用Python实现图像LBP特征提取的操作方法

《使用Python实现图像LBP特征提取的操作方法》LBP特征叫做局部二值模式,常用于纹理特征提取,并在纹理分类中具有较强的区分能力,本文给大家介绍了如何使用Python实现图像LBP特征提取的操作方... 目录一、LBP特征介绍二、LBP特征描述三、一些改进版本的LBP1.圆形LBP算子2.旋转不变的LB

Maven的使用和配置国内源的保姆级教程

《Maven的使用和配置国内源的保姆级教程》Maven是⼀个项目管理工具,基于POM(ProjectObjectModel,项目对象模型)的概念,Maven可以通过一小段描述信息来管理项目的构建,报告... 目录1. 什么是Maven?2.创建⼀个Maven项目3.Maven 核心功能4.使用Maven H

Python中__init__方法使用的深度解析

《Python中__init__方法使用的深度解析》在Python的面向对象编程(OOP)体系中,__init__方法如同建造房屋时的奠基仪式——它定义了对象诞生时的初始状态,下面我们就来深入了解下_... 目录一、__init__的基因图谱二、初始化过程的魔法时刻继承链中的初始化顺序self参数的奥秘默认

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》:本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么,可以干什么?3、Spr

Spring Boot 集成 Quartz并使用Cron 表达式实现定时任务

《SpringBoot集成Quartz并使用Cron表达式实现定时任务》本篇文章介绍了如何在SpringBoot中集成Quartz进行定时任务调度,并通过Cron表达式控制任务... 目录前言1. 添加 Quartz 依赖2. 创建 Quartz 任务3. 配置 Quartz 任务调度4. 启动 Sprin

Linux下如何使用C++获取硬件信息

《Linux下如何使用C++获取硬件信息》这篇文章主要为大家详细介绍了如何使用C++实现获取CPU,主板,磁盘,BIOS信息等硬件信息,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录方法获取CPU信息:读取"/proc/cpuinfo"文件获取磁盘信息:读取"/proc/diskstats"文