202310-宏基组学物种分析工具-MetaPhlAn4安装和使用方法-Anaconda3- centos9 stream

本文主要是介绍202310-宏基组学物种分析工具-MetaPhlAn4安装和使用方法-Anaconda3- centos9 stream,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

MetaPhlAn 4是一种基于DNA序列的微生物组分析工具,它能够从宏基因组测序数据中识别和分离微生物的组成。以下是安装和使用MetaPhlAn 4的步骤:

安装MetaPhlAn 4:

裸机环境,手动安装

1. 安装依赖项:

MetaPhlAn 4需要Python 3.7以上的版本(建议使用Anaconda环境),同时还需要安装Biopython、pandas和numpy等包。可以使用pip命令进行安装,例如:

pip install biopython pandas numpy

2. 下载MetaPhlAn 4程序:

从MetaPhlAn 4的官方网站(https://github.com/biobakery/MetaPhlAn)下载最新的MetaPhlAn 4程序,并解压缩到指定目录中。

数据库地址(建议手动下载,地址及文件见下方)

要配置MetaPhlAn4最新数据库,您可以按照以下步骤进行操作:

1. 下载最新的MetaPhlAn4数据库文件,可以在MetaPhlAn4官方网站上下载。

2. 解压缩下载的MetaPhlAn4数据库文件,得到一个包含多个文件的目录。

3. 打开MetaPhlAn4配置文件,通常为"metaphlan_database.cfg",可以在MetaPhlAn4的安装目录中找到。

4. 在配置文件中,找到"bowtie2db"和"mpa_pkl"这两个参数,并将它们的值分别改为MetaPhlAn4数据库目录下的"bowtie2"和"mpa"文件的路径。

5. 保存配置文件。

使用conda环境安装(推荐)

本示例使用anaconda3,

以下是在anaconda3中安装MetaPhlAn4的步骤:

步骤1:安装conda

如果您尚未安装conda,请使用以下命令在终端中安装:

到这里去找安装包吧,什么版本都有,这里下载linux64最新版

https://repo.anaconda.com/archive

###下载安装包
wget https://repo.anaconda.com/archive/Anaconda3-2023.09-0-Linux-x86_64.sh
###安装
sh Anaconda3-2023.09-0-Linux-x86_64.sh###先进去后会要让同意许可协议,注意太快可能错过跳出,到后面慢一点向下翻
#到最后询问是否同意时输入yes
##遇到按键太快跳过的话重新执行安装命令再次进入#在配置安装目录时要注意输入自己想要安装的目录

步骤2:创建conda环境

打开终端并输入以下命令,创建一个名为“metaphlan4”的conda环境:

#创建metaphlan4的conda环境
conda create -n metaphlan4 python=3.7

步骤3:激活conda环境

输入以下命令,激活“metaphlan4”环境:

#激活指定环境
conda activate metaphlan4

步骤4:安装MetaPhlAn4

使用以下命令安装MetaPhlAn4:

#在激活环境中安装metaphlan
conda install -c bioconda -c conda-forge metaphlan#需要一点时间,等待完成

步骤5:测试MetaPhlAn4

输入以下命令测试安装是否成功:

metaphlan --version

如果可以正确显示版本信息,则安装成功。

步骤6:配置MetaPhlAn数据库

默认情况下可以使用metaphlan --install命令可以安装数据库,但有时候下载速度慢,可能引起失败,建议手动下载最新数据库:

地址在这里:http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/

下载这几个文件:

http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/bowtie2_indexes/mpa_vOct22_CHOCOPhlAnSGB_202212_bt2.md5

http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/bowtie2_indexes/mpa_vOct22_CHOCOPhlAnSGB_202212_bt2.tar http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/mpa_vOct22_CHOCOPhlAnSGB_202212.md5

http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/mpa_vOct22_CHOCOPhlAnSGB_202212.tar

http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/mpa_vOct22_CHOCOPhlAnSGB_202212_marker_info.txt.bz2

http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/mpa_vOct22_CHOCOPhlAnSGB_202212_species.txt.bz2

http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/mpa_latest

下载完成后将所有下载文件放入下面目录(根据自己安装目录找ananconda3的位置,后面路径都一样):

 anaconda3/envs/mpa/lib/python3.7/site-packages/metaphlan/metaphlan_databases

后面第一次去运行metaphlan去注释你的序列的时候会自动建库

使用MetaPhlAn 4:

1. 准备输入文件:MetaPhlAn 4需要输入FASTQ或FASTA格式的文件。如果是PE读取,需要将两个序列文件合并为一个文件。

2. 运行MetaPhlAn 4:在终端中进入MetaPhlAn 4的安装目录,并运行以下命令:

python3 metaphlan --input_file example.fastq --output_file output.txt

其中,--input_file参数指定输入文件的路径和名称,--output_file参数指定输出文件的路径和名称。

3. 查看结果:MetaPhlAn 4的输出文件包含了每个微生物的相对丰度和物种注释信息。可以使用文本编辑器或者Excel等软件打开输出文件进行查看和分析。

conda环境下使用MetaPhlAn4

##激活conda环境
source activate metaphlan4#直接使用压缩包文件运行,建议使用nohup运行,因为运行时间比较长
#nohup
nohup metaphlan f1.fastq.gz,r2.fastq.gz --bowtie2out f1r2.bowtie2.bz2 --nproc 60 --input_type fastq >f1r2_mtphlan.txt 2>&1 &
#直接运行
metaphlan f1.fastq.gz,r2.fastq.gz --bowtie2out f1r2.bowtie2.bz2 --nproc 60 --input_type fastq -o f1r2_mtphlan.txt####其中 f1.fastq.gz和r2.fastq.gz分别为样品的双端序列的两个压缩文件,最终我们想要的是f1r2_mtphlan.txt

结果解释:

###前面几行已被注释,使用MetaPhlAn工具合并时会自动过滤掉
#anaconda3/envs/metaphlan4/bin/metaphlan 1.fastq,2.fastq --bowtie2out 1.bt2.bz2 --nproc 30 --input_type fastq -o 1.profiled.txt
#76553269 reads processed
#SampleID	Metaphlan_Analysis
#clade_name	NCBI_tax_id	relative_abundance	additional_species
k__Bacteria	2	99.92666	
k__Archaea	2157	0.07334	
k__Bacteria|p__Proteobacteria	2|1224	89.13284	
k__Bacteria|p__Actinobacteria	2|201174	8.93442	
k__Bacteria|p__Bacteroidetes	2|976	1.83546	

私房菜:

###使用merge_metaphlan_tables.py将所有样品的注释结果合并(需要激活metaphlan4的conda环境)
merge_metaphlan_tables.py *.txt > merged_abundance_table.txt###使用下面语句从合并表中提取物种种水平下的物种注释信息
grep -E '(s__)|(clade_name)' merged_abundance_table.txt |grep -v 't__'|sed 's/^.*s__//g'|awk '{$2=null;print}'|sed 's/\ \ /\ /g'|sed 's/\ /\t/g' > merged_abundance_species.txt
###使用下面语句从合并表中提取物种属水平下的物种注释信息
grep -E '(g__)|(clade_name)' merged_abundance_table.txt |grep -v 's__'|sed 's/^.*g__//g'|awk '{$2=null;print}'|sed 's/\ \ /\ /g'|sed 's/\ /\t/g' > merged_abundance_genus.txt
###使用下面语句从合并表中提取物种科水平下的物种注释信息
grep -E '(f__)|(clade_name)' merged_abundance_table.txt |grep -v 'g__'|sed 's/^.*f__//g'|awk '{$2=null;print}'|sed 's/\ \ /\ /g'|sed 's/\ /\t/g' > merged_abundance_family.txt
###使用下面语句从合并表中提取物种目水平下的物种注释信息
grep -E '(o__)|(clade_name)' merged_abundance_table.txt |grep -v 'f__'|sed 's/^.*o__//g'|awk '{$2=null;print}'|sed 's/\ \ /\ /g'|sed 's/\ /\t/g' > merged_abundance_order.txt
###使用下面语句从合并表中提取物种纲水平下的物种注释信息
grep -E '(c__)|(clade_name)' merged_abundance_table.txt |grep -v 'o__'|sed 's/^.*c__//g'|awk '{$2=null;print}'|sed 's/\ \ /\ /g'|sed 's/\ /\t/g' > merged_abundance_class.txt
###使用下面语句从合并表中提取物种门水平下的物种注释信息
grep -E '(p__)|(clade_name)' merged_abundance_table.txt |grep -v 'c__'|sed 's/^.*p__//g'|awk '{$2=null;print}'|sed 's/\ \ /\ /g'|sed 's/\ /\t/g' > merged_abundance_phylum.txt

注意事项:

1. MetaPhlAn 4需要消耗大量的计算资源,建议在具有足够内存和计算能力的计算机上运行。

2. MetaPhlAn 4的结果可能会受到样本质量、参考基因组库的完整性和准确性等多种因素的影响。可以根据需要选择合适的参考基因组库进行分析,以获得更准确的结果。

Metaphlan分析结果的使用建议:

1. 了解Metaphlan输出格式:Metaphlan输出文件包括两个文件,即<filename>.txt和<filename>.txt.bak。其中,<filename>.txt文件是包含分类结果和相对丰度值的文本文件,<filename>.txt.bak文件是二进制文件存储的序列信息。

2. 解释Metaphlan输出结果:Metaphlan输出文件提供了各个分类单元的相对丰度值,这些单元包括细菌、古菌、真菌和叶绿体等。通过观察这些相对丰度值,可以了解样本中各个分类单元的富集度和活跃度。

3. 与其他工具结合使用:Metaphlan结果可以与其他宏基因组分析工具结合使用,如PICRUSt、STAMP和LEfSe等,这些工具可以进一步分析样本中的生物学差异。

4. 结果可视化:Metaphlan的结果可以用不同的可视化工具展示,如Circos、R、STAMP和Phinch等。这些工具可以帮助用户更直观地理解样品之间的差异以及分类单元的富集度。

总之,Metaphlan是一个强大的宏基因组分析工具,可以帮助用户快速了解样品中的微生物组成。将其结果与其他工具结合使用,可以更深入地挖掘样品差异,为后续的实验设计提供重要参考。

这篇关于202310-宏基组学物种分析工具-MetaPhlAn4安装和使用方法-Anaconda3- centos9 stream的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/310817

相关文章

Java使用ANTLR4对Lua脚本语法校验详解

《Java使用ANTLR4对Lua脚本语法校验详解》ANTLR是一个强大的解析器生成器,用于读取、处理、执行或翻译结构化文本或二进制文件,下面就跟随小编一起看看Java如何使用ANTLR4对Lua脚本... 目录什么是ANTLR?第一个例子ANTLR4 的工作流程Lua脚本语法校验准备一个Lua Gramm

Java字符串操作技巧之语法、示例与应用场景分析

《Java字符串操作技巧之语法、示例与应用场景分析》在Java算法题和日常开发中,字符串处理是必备的核心技能,本文全面梳理Java中字符串的常用操作语法,结合代码示例、应用场景和避坑指南,可快速掌握字... 目录引言1. 基础操作1.1 创建字符串1.2 获取长度1.3 访问字符2. 字符串处理2.1 子字

Java Optional的使用技巧与最佳实践

《JavaOptional的使用技巧与最佳实践》在Java中,Optional是用于优雅处理null的容器类,其核心目标是显式提醒开发者处理空值场景,避免NullPointerExce... 目录一、Optional 的核心用途二、使用技巧与最佳实践三、常见误区与反模式四、替代方案与扩展五、总结在 Java

基于Java实现回调监听工具类

《基于Java实现回调监听工具类》这篇文章主要为大家详细介绍了如何基于Java实现一个回调监听工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录监听接口类 Listenable实际用法打印结果首先,会用到 函数式接口 Consumer, 通过这个可以解耦回调方法,下面先写一个

使用Java将DOCX文档解析为Markdown文档的代码实现

《使用Java将DOCX文档解析为Markdown文档的代码实现》在现代文档处理中,Markdown(MD)因其简洁的语法和良好的可读性,逐渐成为开发者、技术写作者和内容创作者的首选格式,然而,许多文... 目录引言1. 工具和库介绍2. 安装依赖库3. 使用Apache POI解析DOCX文档4. 将解析

Qt中QUndoView控件的具体使用

《Qt中QUndoView控件的具体使用》QUndoView是Qt框架中用于可视化显示QUndoStack内容的控件,本文主要介绍了Qt中QUndoView控件的具体使用,具有一定的参考价值,感兴趣的... 目录引言一、QUndoView 的用途二、工作原理三、 如何与 QUnDOStack 配合使用四、自

C++使用printf语句实现进制转换的示例代码

《C++使用printf语句实现进制转换的示例代码》在C语言中,printf函数可以直接实现部分进制转换功能,通过格式说明符(formatspecifier)快速输出不同进制的数值,下面给大家分享C+... 目录一、printf 原生支持的进制转换1. 十进制、八进制、十六进制转换2. 显示进制前缀3. 指

Python列表去重的4种核心方法与实战指南详解

《Python列表去重的4种核心方法与实战指南详解》在Python开发中,处理列表数据时经常需要去除重复元素,本文将详细介绍4种最实用的列表去重方法,有需要的小伙伴可以根据自己的需要进行选择... 目录方法1:集合(set)去重法(最快速)方法2:顺序遍历法(保持顺序)方法3:副本删除法(原地修改)方法4:

Python中判断对象是否为空的方法

《Python中判断对象是否为空的方法》在Python开发中,判断对象是否为“空”是高频操作,但看似简单的需求却暗藏玄机,从None到空容器,从零值到自定义对象的“假值”状态,不同场景下的“空”需要精... 目录一、python中的“空”值体系二、精准判定方法对比三、常见误区解析四、进阶处理技巧五、性能优化

如何在Mac上安装并配置JDK环境变量详细步骤

《如何在Mac上安装并配置JDK环境变量详细步骤》:本文主要介绍如何在Mac上安装并配置JDK环境变量详细步骤,包括下载JDK、安装JDK、配置环境变量、验证JDK配置以及可选地设置PowerSh... 目录步骤 1:下载JDK步骤 2:安装JDK步骤 3:配置环境变量1. 编辑~/.zshrc(对于zsh