使用vsearch进行16s扩增子高通量序列分析步骤

2023-12-28 04:20

本文主要是介绍使用vsearch进行16s扩增子高通量序列分析步骤,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、vsearch分析工具介绍:

        VSEARCH是一个开源免费的64位,无内存限制的扩增子数据处理分析软件。(点到为止,其他的建议大家参考原文献和网站)

        github:GitHub - torognes/vsearch: Versatile open-source tool for microbiome analysis

        最新文献:Edgar RC (2016) UNOISE2: improved error-correction for Illumina 16S and ITS amplicon sequencing. bioRxiv. doi:10.1101/081257

        二进制文件下载(直接复制到目录就可以开始运行的):Release VSEARCH 2.23.0 · torognes/vsearch · GitHub

2、vsearch 安装:

        建议大家直接下载二进制文件,github有时候不通,可以使用本站链接下载

        https://download.csdn.net/download/zrc_xiaoguo/88404546

        注意事项:无论使用编译安装还是使用二进制直接复制运行,都要注意安装对应版本的依赖库,出现报错时参考一下github里安装指定依赖, 高版本的vesearch对应的glibc也较高,可能需要重新编译新版本的zlib之类的库(如有不会调试的,欢迎骚扰!)

        安装完后,将指定安装目录加入系统环境,集群或超算建议使用共享目录,多节点同时运行,方便后面直接运行,安装好后可查看版本:

   3、vsearch分析步骤:按顺序

###双端配对,使用参数mergepairs ,与usearch使用方法一致,但注意加参数的时候的格式
vsearch --fastq_mergepairs fastq_1.fq --reverse fastq_2.fq --fastqout merged.16s1.fq --relabel @
# label可以按自己喜好,但要注意与后面的label提取对应,一般不建议修改

merge 结果: 注意merged后面的百分数,正常应该比较高,如果远低于其他文献或者自己其他样品,需要注意       

翻转序列,并与原序列合并:  

###翻转序列,并将翻转序列与原序列合并到一个文件
vsearch --fastx_revcomp merged.16S1.fq --fastqout merged.16S1_rc.fq
#多个文件可使用for语句#翻转完成后直接合并原序列
cat merged.16S1.fq merged.16S1_rc.fq >mergedFR.16s1.fq
#或
cat merged.16S1{,_rc}.fq>mergedFR.16s1.fq
###合并后查看文件大小是否为原来两倍大小

使用python脚本fastq_strip_barcode_relabel2.py提取对应barcode的序列,并重新标记label为16s

python脚本参考,大家可自行到usearch或其他地方下载:扩增子分析中需要使用到的python脚本资源-CSDN文库

###注意python需Python2环境,脚本位置,barcode序列(这里用的是16S其中的典型序列之一,以及样品barcode文件,文件格式间下方:
python /py/fastq_strip_barcode_relabel.py mergedFR.16S1.fq GTGCCAGCMGCCGCGGTAA barcode.txt B16s > barcode.relabel.16S1.fq###barcode.txt 格式
>F_2
AGTTCATACGGC
>F_3
TCGCTTTAACCT
>F_4

基于barcode分离出的样品序列单独再次翻转,并加上label后缀

###
vsearch --fastx_revcomp barcode.relabel.16S1.fq --label_suffix _RC --fastqout barcode.relabeled.16S1_rc.fq

  再利用反向barcode提取分样:

###这里的反向barcode特征序列和样品barcode按自己实际替换。
python /nfs/sopt/py/fastq_strip_barcode_relabel2.py barcode.relabeled.16S1_rc.fq GGACTACHVGGGTWTCTAAT barcode_16S_r2.txt B16s > mergedFR.relabeled2.16S1.fq

将同一批不重复样品的所有正反分样的序列合并到一起进行otu分析和物种分类 

###合并所有已标记样品名称的序列
cat mergedFR.relabeled2.16S1.fq mergedFR.relabeled2.16S1.fq {...} > mergedFR.relabel.16s.fq###fastq过滤,去除读长较短的序列
vsearch --fastq_filter mergedFR.relabel.16s.fq --fastq_maxee 0.5 --fastq_minlen 250 --fastq_trunclen 250 --fastq_maxns 1 --fastaout mergedFR.relabel.16S.QC.fa###获取无重复序列unique_seqs
vsearch --derep_fulllength mergedFR.relabel.16S.QC.fa --sizeout --relabel Uniq --output unique_seqs.fa###unique序列排序,加速后续分析
vsearch --sortbysize unique_seqs.fa --output sorted.16s.fa --minsize 2###使用unoise3处理输出otu序列和tab表,新版本特性
###现在版本的vsearch还是alpha版本,所以先用usearch开放版本处理
usearch -unoise3 sorted.16s.fa -zotus zotus.fa -tabbedout uniose3.txt###同样使用usearch开放版本处理uniose3聚类模块,获取otutable
usearch -unoise3 unique_seqs.fa -zotus ref_zotus.fa -minsize 9
usearch -otutab mergedFR.relabel.16S.QC.fa -zotus zotus.fa -otutabout otu_table_16S_unoise3.txt###同样可以使用vsearch的usearch-global模块获取数据otu丰度表
vsearch --usearch_global mergedFR.relabel.16S.QC.fa --db zotus.fa --id 0.99 --otutabout otus_counts.txt###使用rdp数据库的classifier进行物种分类,可按服务器实际资源调整内存
java -Xmx8g -jar /rdp_classifier_2.12/dist/classifier.jar classify -c 0.5 -f filterbyconf -o classification.filterbyconf.16s.txt zotus.fa

   

以下是私房菜,全vsearch分析流程,可放入脚本直接运行,敬请收藏:

###python脚本环境需要py2,使用前可以先使用conda激活conda环境,或者直接在py2环境下运行
###序列文件,barcode及特征序列请根据自己实际修改;vsearch --version
echo ---------------------------------------------
date
echo Mergepairs and relabel with "@"
vsearch --fastq_mergepairs ./datalink/fastq_1.fq \--reverse ./datalink/fastq_2.fq \--fastqout a.merged.fq \--relabel @
echo Mergepairs over!
echo ---------------------------------------------
date
echo ---------------------------------------------
vsearch --fastx_revcomp a.merged.fq \--label_suffix _RC \--fastqout a.merged_rc.fq
echo ---------------------------------------------
date
echo ---------------------------------------------
cat a.merged.fq a.merged_rc.fq >  a.mergedFR.fq
echo --------------------------------------------
python ./testlink/py/fastq_strip_barcode_relabel2.py a.mergedFR.fq \GGACTACHVGGGTWTCTAAT ./datalink/barcode_16S.txt B16S > b.barcode.16S.fq
echo Barcode_16S over!
echo ---------------------------------------------
date
echo ---------------------------------------------
echo Revcomp 16s start
vsearch --fastx_revcomp b.barcode.16S.fq \--fastqout c.barcode.16S_rc.fq
echo Revcomp 16s over!
echo ---------------------------------------------
date
echo ---------------------------------------------
cat b.barcode.16S.fq c.barcode.16S_rc.fq > c.barcode.16S_FR.fqecho Fastq filter start!
vsearch --fastq_filter c.barcode.16S_FR.fq \--fastq_maxee 0.5 \--fastq_minlen 250 \--fastq_trunclen 250 \--fastq_maxns 1 \--fastaout d.barcode.16S_FR.QC.fa
echo Fastq filter over!
echo ---------------------------------------------
date
echo ---------------------------------------------
echo Derep start! Dereplicate across samples and remove singletons.
vsearch --derep_fulllength d.barcode.16S_FR.QC.fa \--output e.dereped.16S.fa \--sizeout
echo Derep over!
echo ---------------------------------------------
date
echo ---------------------------------------------
echo Sortbysize!        
vsearch --sortbysize e.dereped.16S.fa \--output f.sorted.16S.fa \--minsize 2
echo ---------------------------------------------
echo  Cluster_size start! Precluster at 97% before chimera detection.
vsearch --cluster_size f.sorted.16S.fa \--id 0.97 \--strand plus \--sizein \--sizeout \--relabel OTU_ \--uc g.cluster_size.16S.uc \--centroids g.cluster_size.16S.fa
echo Cluster_size over!
echo ---------------------------------------------
date
echo ---------------------------------------------
echo De novo chimera detection.
vsearch --uchime_denovo g.cluster_size.16S.fa \--sizein \--sizeout \--nonchimeras h.denovo.nonchimeras.16S.fa
echo Obtained unique sequences after de novo chimera detection.
echo ---------------------------------------------
date
echo ---------------------------------------------
echo Usearch_global work start!
vsearch --usearch_global d.barcode.16S_FR.QC.fa \--db h.denovo.nonchimeras.16S.fa \--strand plus \--id 0.97 \--maxaccepts 4 \--maxrejects 128 \--uc i.map_rdp_16s.uc
echo Global over!
date
echo ---------------------------------------------
echo Convert .uc to .txt
python ./testlink/py/uc2otutab.py i.map_rdp_16s.uc > j.OTU_table_16S.txt
echo Convert over!
date
echo ---------------------------------------------
echo Start RDP classify!
java -Xmx200g \-jar /rdp_classifier_2.12/dist/classifier.jar classify \-c 0.5 \-f filterbyconf \-o k.class.filterbyconf.16S.txt h.denovo.nonchimeras.16S.fa
echo RDP Classify work over!
date
echo All 16S sequences processes done!

有不足支出敬请指正!!

这篇关于使用vsearch进行16s扩增子高通量序列分析步骤的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/545056

相关文章

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测