PMAT安装及使用(Bioinformatics工具-021)

2024-06-06 03:28

本文主要是介绍PMAT安装及使用(Bioinformatics工具-021),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

01 背景

PMAT 是一个高效的组装工具包,用于利用第三代(HiFi/CLR/ONT)测序数据组装植物线粒体基因组。PMAT 还可以用于组装叶绿体基因组或动物线粒体基因组。

PMAT:使用低覆盖度HiFi测序数据的高效植物线粒体组装工具包-文献精读分享2

02 参考
https://github.com/bichangwei/PMAT  #官网
 03 安装
#1 Install using gitgit clone https://github.com/bichangwei/PMAT.git
cd PMAT/bin
chmod a+x PMAT
PMAT --help#2 Install by downloading the source codeswget https://github.com/bichangwei/PMAT/archive/refs/tags/v1.5.3.tar.gz
tar -zxvf v1.5.3.tar.gz
cd PMAT-1.5.3/bin
chmod a+x PMAT
PMAT --help#3 requirementBLASTn
Singularity ≥ 1.3
Apptainer ≥ 1.3
Canu > v2.0
NextDenovo 3.1 blast详见往期
3.2 Singularity 如下
wget https://github.com/hpcng/singularity/releases/download/v3.7.2/singularity-3.7.2.tar.gz
tar -xzf singularity-3.7.2.tar.gz
cd singularity
./mconfig
cd builddir
make
sudo make install
3.3 Apptainer如下
Building & Installing from RPM
劝退没有root权限使用者,需要安装GO图形库
https://github.com/apptainer/apptainer/blob/main/INSTALL.md
make -C builddir rpm RPMPREFIX=/opt/apptainer
更换方式,一键安装
conda install conda-forge::apptainer
3.4 Canu同上
conda install -c bioconda canu

Blast安装及使用-Blast+2.14.0(bioinfomatics tools-001)

04 使用及常用命令行
运行 PMAT --help 查看程序的使用指南。用法: PMAT <command> <arguments>```______     ___           __        ____       _____________ 
|   __  \  |   \        /   |      / __ \     |_____   _____|
|  |__)  | | |\ \      / /| |     / /  \ \          | |      
|   ____/  | | \ \    / / | |    / /____\ \         | |      
|  |       | |  \ \  / /  | |   / /______\ \        | |      
|  |       | |   \ \/ /   | |  / /        \ \       | |      
|__|       |_|    \__/    |_| /_/          \_\      |_|      
```PMAT            一个用于植物线粒体基因组高效组装的工具包
版本           1.5.3
贡献者         Bi,C. 和 Han,F.
电子邮件       bichwei@njfu.edu.cn, hanfc@caf.ac.cn更多关于 PMAT 的信息,请访问 https://github.com/bichangwei/PMAT可选参数:
-h, --help     显示此帮助信息并退出
-v, --version  显示程序版本并退出命令:autoMito    一步完成线粒体基因组的de novo组装。该命令可以直接从原始测序数据生成主组装图。graphBuild  如果'autoMito'模式无法生成线粒体基因组组装图,您可以使用此命令手动选择种子进行组装。
4.1 autoMito
autoMito
运行 PMAT autoMito --help 查看使用指南。必需参数:-i INPUT, --input INPUT输入原始测序文件-o OUTPUT, --output OUTPUT输出目录-st SEQTYPE, --seqtype SEQTYPE测序平台 (ONT/CLR/HiFi)-g GENOMESIZE, --genomesize GENOMESIZE输入物种的基因组大小,例如 1G, 1000M可选参数:-h, --help            显示此帮助信息并退出-tk TASK, --task TASKall/p1/ 默认: allall : de novo 组装,包括对 ONT/CLR 数据的纠错,以及对 HiFi 数据不纠错p1  : 导入已纠错的 ONT/CLR 数据进行直接组装-tp TYPE, --type TYPEmt/pt/all 默认: mtmt   : 组装线粒体基因组pt   : 组装叶绿体基因组all  : 组装线粒体和叶绿体基因组-cs CORRECTSOFT, --correctsoft CORRECTSOFT使用 nextDenovo 或 Canu 进行纠错,默认: NextDenovo-cp CANU, --canu CANU请提供 Canu 的安装路径-np NEXTDENOVO, --nextDenovo NEXTDENOVO请提供 nextDenovo 的安装路径-cfg CORRECTCFG, --correctcfg CORRECTCFGnextDenovo 纠错的配置文件-fc FACTOR, --factor FACTOR对错误纠正的 ONT、CLR 或 HiFi 数据进行子集提取,采样比例因子为 0-1,默认: 1-sd SUBSEED, --subseed SUBSEED采样集随机数种子,默认: 6-bn BREAKNUM, --breaknum BREAKNUM用此参数分割长读数 (>30k),默认: 20000-ml MINOVERLAPLEN, --minoverlaplen MINOVERLAPLEN设置最小重叠长度,默认: 40-mi MINIDENTITY, --minidentity MINIDENTITY设置最小重叠相识度,默认: 90-cpu CPU              线程数,默认: 8-l MINLINK, --minLink MINLINK根据用户提供的最小链接深度进行过滤-m, --mem             将序列数据保留在内存中以加快 CPU 时间-v, --version         显示程序版本并退出注意事项:确保 BLASTn 已安装在 PATH 中。
-tk: 此参数有两个选项:“all”或“p1”。对于 ONT 或 CLR 原始数据,需要纠正读取错误并修剪原始数据。如果是已纠错的 ONT/CLR 数据,可以设置“p1”以跳过纠错步骤。对于 HiFi 数据,此参数可以忽略。
-cs: 对于 ONT 或 CLR 原始数据,用户应提供 -cs 参数以选择纠错软件,默认:Nextdenovo。
-cp: 使用 Canu 进行纠错时,用户需要使用 -cp 参数指定 Canu 的安装路径。当 Canu 已添加到 PATH 时,此参数可以忽略。
-np: 使用 NextDenovo 纠错时,用户需要使用 -np 参数指定 NextDenovo 的安装路径。此外,NextDenovo 纠错后需要使用 canu 修剪数据,因此需要使用 -cp 参数指定 Canu 的安装路径。当 NextDenovo 和 Canu 已添加到 PATH 时,此参数可以忽略。
-cfg: 使用 NextDenovo 纠错时,用户需要使用 -cfg 参数指定配置文件,建议检查 NextDenovo 的配置文件内容。同时建议在配置文件中为 correction_options 添加 -b 参数。
-fc: 此参数可用于随机选择测序数据的子集进行纠错和组装,默认:全部数据。
-ml: 用于组装的参数,默认设置为 40,推荐设置:40~200。
-mi: 用于组装的参数,默认设置为 90,推荐设置:90~98。
4.2 graphBuild
graphBuild
如果 PMAT 在 'autoMito' 模式下未能生成组装图,您可以使用此命令手动选择种子进行组装。运行 PMAT graphBuild --help 查看使用指南。必需参数:-c CONTIGGRAPH, --ContigGraph CONTIGGRAPHPMATContigGraph.txt:一个包含所有 Contig 之间连接信息的文件-a ALLCONTIGS, --AllContigs ALLCONTIGSPMATAllContigs.fna:一个包含所有 Contig 信息的文件-o OUTPUT, --output OUTPUT输出目录-gs GENOMESIZE, --genomesize GENOMESIZE输入物种的基因组大小,例如 1G, 1000M-rs READSIZE, --readsize READSIZE组装用的读取大小或文件,例如 5G 或 assembly_seq.cut20K.fasta可选参数:-h, --help            显示此帮助信息并退出-tp TYPE, --type TYPEmt/pt/all 默认: mtmt   : 组装线粒体基因组pt   : 组装叶绿体基因组all  : 组装线粒体和叶绿体基因组-cpu CPU              线程数,默认: 8-s SEEDS [SEEDS ...], --seeds SEEDS [SEEDS ...]用于扩展的 ContigID。多个 ContigID 应以空格分隔。例如: 1 312 356-l MINLINK, --minLink MINLINK根据用户提供的最小链接深度进行过滤-v, --version         显示程序版本并退出注意事项:确保 BLASTn 已安装在 PATH 中。
-c: 由 autoMito 命令生成的 PMATContigGraph.txt。
-a: 由 autoMito 命令生成的 PMATAllContigs.fna。
-gs: 物种的基因组大小。
-rs: 组装使用的数据量,或提供由 graphBuild 命令生成的 assembly_seq.cut20K.fasta。
-s: 手动选择用于扩展的种子,建议使用 3 个以上的种子。使用空格分隔不同的种子 ID,例如 1,312,356。
4.3 实例
示例集合
示例1下载一个模拟的拟南芥 HiFi 数据集:
```
wget https://github.com/bichangwei/PMAT/releases/download/v1.1.0/Arabidopsis_thaliana_550Mb.fa.gz
```
然后运行 autoMito 命令进行一键组装:
```
PMAT autoMito -i Arabidopsis_thaliana_550Mb.fa.gz -o ./test1 -st hifi -g 120m -m
```
然后使用 graphBuild 命令手动选择种子进行组装(用于 autoMito 命令无法自动获得 GFA 文件时):
```
# 根据 PMATContigGraph.txt 文件,手动选择 3 个或更多匹配线粒体基因组测序深度的 Contigs
PMAT graphBuild -c ./test1/assembly_result/PMATContigGraph.txt -a ./test1/assembly_result/PMATAllContigs.fna -gs 125m -rs ./test1/subsample/assembly_seq.cut20K.fasta -o ./test1_gfa -s 343 345 905 513 1344
```
PMAT 使用不同线程数的运行时间
8 CPUs: 13m25.342s; 16 CPUs: 9m29.853s; 32 CPUs: 8m42.429s; 64 CPUs: 7m57.279s示例2下载一个模拟的苹果 HiFi 数据集:
```
wget https://github.com/bichangwei/PMAT/releases/download/v1.1.0/Malus_domestica.540Mb.fasta.gz
```
然后运行 autoMito 命令进行一键组装:
```
PMAT autoMito -i Malus_domestica.540Mb.fasta.gz -o ./test3 -st hifi -g 703m -m
```
然后使用 graphBuild 命令手动选择种子进行组装(用于 autoMito 命令无法自动获得 GFA 文件时):
```
# 根据 PMATContigGraph.txt 文件,手动选择 3 个或更多匹配线粒体基因组测序深度的 Contigs
PMAT graphBuild -c ./test3/assembly_result/PMATContigGraph.txt -a ./test3/assembly_result/PMATAllContigs.fna -gs 225m -rs ./test3/subsample/assembly_seq.cut20K.fasta -o ./test3_gfa -s 1 2 15391
```
PMAT 使用不同线程数的运行时间
8 CPUs: 21m12.306s; 16 CPUs: 12m14.663s; 32 CPUs: 7m58.749s; 64 CPUs: 6m48.915s示例3使用 IBM Aspera 下载测试的普通豆 CLR 数据:
```
ascp -v -QT -l 400m -P33001 -k1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR291/006/SRR2912756/SRR2912756_subreads.fastq.gz .
```
然后运行 autoMito 命令进行一键组装(CLR):
```
PMAT autoMito -i SRR2912756_subreads.fastq.gz -o ./test_clr -st clr -g 540m -cs nextDenovo -np path/nextDenovo -cp path/canu -cfg nextdenovo.cfg -m
```示例4使用 IBM Aspera 下载测试的美国黑杨 ONT 数据:
```
ascp -v -QT -l 400m -P33001 -k1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR122/038/SRR12202038/SRR12202038_1.fastq.gz  .
```
然后运行 autoMito 命令进行一键组装(ONT):
```
PMAT autoMito -i SRR12202038_1.fastq.gz -o ./test_ont -st ont -g 430m -cs nextDenovo -np path/nextDenovo -cp path/canu -cfg nextdenovo.cfg -m
```结果文件
输出文件包括:
- */subsample/assembly_seq_subset.1.0.fasta, 组装用的子样数据
- */subsample/assembly_seq.cut20K.fasta, 组装用的修剪数据
- */assembly_result/PMATAllContigs.fna, 包含 Contig 序列的组装结果
- */assembly_result/PMATContigGraph.txt, 包含 Contig 链接关系的组装结果
- */assembly_result/PMAT_mt_raw.gfa, 线粒体基因组的初始组装图
- */assembly_result/PMAT_mt_master.gfa, 线粒体基因组的优化组装图
- */assembly_result/PMAT_pt_raw.gfa, 叶绿体基因组的初始组装图
- */assembly_result/PMAT_pt_master.gfa, 叶绿体基因组的优化组装图
 05 参考文献

Bi C, Shen F, Han F, Qu Y, Hou J, Xu K, Xu LA, He W, Wu Z, Yin T. PMAT: an efficient plant mitogenome assembly toolkit using low-coverage HiFi sequencing data. Hortic Res. 2024, 11(3):uhae023. doi: 10.1093/hr/uhae023.
Bi C, Qu Y, Hou J, Wu K, Ye N, and Yin T. Deciphering the multi-chromosomal mitochondrial genome of Populus simonii. Front. Plant Sci. 2022, 13:914635.doi:10.3389/fpls.2022.914635.

这篇关于PMAT安装及使用(Bioinformatics工具-021)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1034959

相关文章

Zookeeper安装和配置说明

一、Zookeeper的搭建方式 Zookeeper安装方式有三种,单机模式和集群模式以及伪集群模式。 ■ 单机模式:Zookeeper只运行在一台服务器上,适合测试环境; ■ 伪集群模式:就是在一台物理机上运行多个Zookeeper 实例; ■ 集群模式:Zookeeper运行于一个集群上,适合生产环境,这个计算机集群被称为一个“集合体”(ensemble) Zookeeper通过复制来实现

CentOS7安装配置mysql5.7 tar免安装版

一、CentOS7.4系统自带mariadb # 查看系统自带的Mariadb[root@localhost~]# rpm -qa|grep mariadbmariadb-libs-5.5.44-2.el7.centos.x86_64# 卸载系统自带的Mariadb[root@localhost ~]# rpm -e --nodeps mariadb-libs-5.5.44-2.el7

Centos7安装Mongodb4

1、下载源码包 curl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-4.2.1.tgz 2、解压 放到 /usr/local/ 目录下 tar -zxvf mongodb-linux-x86_64-rhel70-4.2.1.tgzmv mongodb-linux-x86_64-rhel70-4.2.1/

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

Centos7安装JDK1.8保姆版

工欲善其事,必先利其器。这句话同样适用于学习Java编程。在开始Java的学习旅程之前,我们必须首先配置好适合的开发环境。 通过事先准备好这些工具和配置,我们可以避免在学习过程中遇到因环境问题导致的代码异常或错误。一个稳定、高效的开发环境能够让我们更加专注于代码的学习和编写,提升学习效率,减少不必要的困扰和挫折感。因此,在学习Java之初,投入一些时间和精力来配置好开发环境是非常值得的。这将为我

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只