从NCBI测序数据下载,相关软件安装,到FastQC使用

2023-11-21 14:40

本文主要是介绍从NCBI测序数据下载,相关软件安装,到FastQC使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 从ncbi下载测序数据

SRA链接:https://www.ncbi.nlm.nih.gov/sra
检索所需的项目,这里以Whole genome sequencing of ExPECs (SRR24129389)为例。
在这里插入图片描述

wget -c -t 0 -O ./SRR24129389.sra  https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR24129389/SRR24129389
# -c -t 配合使用可以防止下载数据的过程中链接中断的问题
# -O则可以指定下载路径和文件名。

2. 安装sratoolkit

方法1

NCBI中各个操作系统下载链接:https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
在这里插入图片描述

##1.下载
wget --output-document sratoolkit.tar.gz https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.5/sratoolkit.3.0.5-ubuntu64.tar.gz
##2.解压
tar -vxzf sratoolkit.3.0.5-ubuntu64.tar.gz
##3.配置环境
echo "export PATH=/home/shpcv2_kvce3/software/sratoolkit.3.0.5-ubuntu64/bin:\$PATH ">>~/.bashrc
source ~/.bashrc
##4.验证
which fastq-dump
#输出  /home/shpcv2_kvce3/software/ratoolkit.3.0.5-ubuntu64/bin/fastq-dump
##5.测试
fastq-dump --stdout -X 2 SRR390728
#输出以下:
#Read 2 spots for SRR390728
#Written 2 spots for SRR390728
#@SRR390728.1 1 length=72
#CATTCTTCACGTAGTTCTCGAGCCTTGGTTTTCAGCGATGGAGAATGACTTTGACAAGCTGAGAGAAGNTNC
#+SRR390728.1 1 length=72
#;;;;;;;;;;;;;;;;;;;;;;;;;;;9;;665142;;;;;;;;;;;;;;;;;;;;;;;;;;;;;96&&&&(
#@SRR390728.2 2 length=72
#AAGTAGGTCTCGTCTGTGTTTTCTACGAGCTTGTGTTCCAGCTGACCCACTCCCTGGGTGGGGGGACTGGGT
#+SRR390728.2 2 length=72
#;;;;;;;;;;;;;;;;;4;;;;3;393.1+4&&5&&;;;;;;;;;;;;;;;;;;;;;<9;<;;;;;464262

参考官方指南:

https://github.com/ncbi/sra-tools/wiki/02.-Installing-SRA-Toolkit

方法2

使用conda安装, 首先先唤醒conda

source {你的conda安装目录/bin/activate}
# 我的代码 source ~/miniconda/bin/activate
conda install -y sra-tools

sudo apt install sra-toolkit

在收集了SRA编号后,还可以直接获取下载链接

srapath SRR24129389
## 输出为 https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR24129389/SRR24129389

3. 将sra格式数据转化为fastq格式数据

方法一:使用fastq-dump

fastq-dump --gzip --split-3 -O ${outdirectory} SRR24129389.sra
##参数
#--gzip :输出gz格式压缩文件,节省空间,稍微多费点时间
#-O ${directory} :设置输出的文件间路径,outdirectory改为相应路径
#--split-3 :不知道sra是单端还是双端,默认使用--split-3##例 fastq-dump --gzip --split-3 -O trans SRR24129389.sra
##trans是我设置的输出文件夹

方法二:使用fasterq-dump
使用差不多,参数上多了线程数 -e

fasterq-dump  -p -e 24 --split-3 -O ${outdirectory} SRR24129389.sra
#-p 可以显示进程
#-e 24 使用24个线程
## fasterq-dump -p -e 4 --split-3 -O trans SRR24129389.sra
##trans是我设置的输出文件夹

总结一下,fasterq-dump速度可以完胜fastq-dump,值得注意的是,fasterq-dump没有压缩选项,而fastq-dump可以直接输出gz压缩fq文件

4. FastQC 安装

4.1 FastQC简介
FastQC是一款基于Java语言设计的软件,目前可以直接下载免费使用,一般在Linux环境下使用命令行执行程序,它可以快速地多线程地对测序数据进行质量控制(Quality Control),还能进行质量可视化来查看质控效果。运行一段时间以后,会出现报告。使用浏览器打开后缀是html的文件,这就是图表化的fastqc报告。

4.2 首先安装Java环境

#查看是否已安装了Java
which java
java -version
#安装Java
sudo apt install default-jre

4.3 基于conda安装FastQC

source /miniconda/bin/activate #启动唤醒conda
conda create -n fastqc #首先创建fastqc环境,输入y
conda active fastqc #进入fastqc环境
conda install -c bioconda fastqc #安装fastqc
fastqc --version ##查看是否安装成功
fastqc --help  ##查看参数

4.4 使用fastqc进行质量检测

#单个文件处理
fastqc 样本名称  
#批量文件处理
fastqc 样本1 样本2 … -o 文件夹  #默认输出文件夹为输入文件所在的位置
#或
fastqc *.fastq -o 文件夹  #默认输出文件夹为输入文件所在的位置

生成.html网页文件和.zip文件
在这里插入图片描述
在这里插入图片描述

参考文献

Fastp使用方法
FastQC的安装与使用
sra转fastq笔记

这篇关于从NCBI测序数据下载,相关软件安装,到FastQC使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/402993

相关文章

Python使用PIL库将PNG图片转换为ICO图标的示例代码

《Python使用PIL库将PNG图片转换为ICO图标的示例代码》在软件开发和网站设计中,ICO图标是一种常用的图像格式,特别适用于应用程序图标、网页收藏夹图标等场景,本文将介绍如何使用Python的... 目录引言准备工作代码解析实践操作结果展示结语引言在软件开发和网站设计中,ICO图标是一种常用的图像

使用Java发送邮件到QQ邮箱的完整指南

《使用Java发送邮件到QQ邮箱的完整指南》在现代软件开发中,邮件发送功能是一个常见的需求,无论是用户注册验证、密码重置,还是系统通知,邮件都是一种重要的通信方式,本文将详细介绍如何使用Java编写程... 目录引言1. 准备工作1.1 获取QQ邮箱的SMTP授权码1.2 添加JavaMail依赖2. 实现

MyBatis与其使用方法示例详解

《MyBatis与其使用方法示例详解》MyBatis是一个支持自定义SQL的持久层框架,通过XML文件实现SQL配置和数据映射,简化了JDBC代码的编写,本文给大家介绍MyBatis与其使用方法讲解,... 目录ORM缺优分析MyBATisMyBatis的工作流程MyBatis的基本使用环境准备MyBati

IDEA与JDK、Maven安装配置完整步骤解析

《IDEA与JDK、Maven安装配置完整步骤解析》:本文主要介绍如何安装和配置IDE(IntelliJIDEA),包括IDE的安装步骤、JDK的下载与配置、Maven的安装与配置,以及如何在I... 目录1. IDE安装步骤2.配置操作步骤3. JDK配置下载JDK配置JDK环境变量4. Maven配置下

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

使用Python实现表格字段智能去重

《使用Python实现表格字段智能去重》在数据分析和处理过程中,数据清洗是一个至关重要的步骤,其中字段去重是一个常见且关键的任务,下面我们看看如何使用Python进行表格字段智能去重吧... 目录一、引言二、数据重复问题的常见场景与影响三、python在数据清洗中的优势四、基于Python的表格字段智能去重

Python如何快速下载依赖

《Python如何快速下载依赖》本文介绍了四种在Python中快速下载依赖的方法,包括使用国内镜像源、开启pip并发下载功能、使用pipreqs批量下载项目依赖以及使用conda管理依赖,通过这些方法... 目录python快速下载依赖1. 使用国内镜像源临时使用镜像源永久配置镜像源2. 使用 pip 的并

jdk21下载、安装详细教程(Windows、Linux、macOS)

《jdk21下载、安装详细教程(Windows、Linux、macOS)》本文介绍了OpenJDK21的下载地址和安装步骤,包括Windows、Linux和macOS平台,下载后解压并设置环境变量,最... 目录1、官网2、下载openjdk3、安装4、验证1、官网官网地址:OpenJDK下载地址:Ar

使用Apache POI在Java中实现Excel单元格的合并

《使用ApachePOI在Java中实现Excel单元格的合并》在日常工作中,Excel是一个不可或缺的工具,尤其是在处理大量数据时,本文将介绍如何使用ApachePOI库在Java中实现Excel... 目录工具类介绍工具类代码调用示例依赖配置总结在日常工作中,Excel 是一个不可或缺的工http://

Java之并行流(Parallel Stream)使用详解

《Java之并行流(ParallelStream)使用详解》Java并行流(ParallelStream)通过多线程并行处理集合数据,利用Fork/Join框架加速计算,适用于大规模数据集和计算密集... 目录Java并行流(Parallel Stream)1. 核心概念与原理2. 创建并行流的方式3. 适