PICRUSt2在微生物功能预测分析中的应用解读

2024-06-08 08:04

本文主要是介绍PICRUSt2在微生物功能预测分析中的应用解读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

谷禾健康

在这里插入图片描述

微生物组学研究现已超越微生物群落组成分析得到更广泛的使用。大量的人类微生物组研究证据表明,肠道微生物组功能变化炎症和免疫反应的影响起到关键的影响作用

16S rRNA分析是微生物组研究作为最常用便捷且具有成本效益的测量技术,用于分析微生物组的菌落组成,但标记基因测序无法直接提供群落功能组成的信息。于是开发了生物信息学工具,利用16S rRNA基因数据来预测微生物组功能

其中,PICRUSt2已成为最流行的功能概况预测工具之一,可生成整个群落通路丰度。“功能”通常指的是基因家族,如KEGG同源基因和酶分类号,可以预测任意的特性。

PICRUSt1 具有一定的局限性

微生物群落标记基因测序的一个局限性在于它无法提供有关采样群落功能组成的信息。PICRUSt1于2013年开发,可根据标记基因测序图谱预测细菌群落的功能潜力

PICRUSt (Phylogenetic Investigation of Communities by Reconstruction of Unobserved States) 的原理基于已测细菌基因组的16S rRNA全长序列,推断它们的共同祖先的基因(同源基因)功能谱,对Greengenes数据库中其它未测物种的基因功能谱进行推断,构建古菌和细菌域全谱系的基因功能预测谱,最后,将测序得到的菌群组成“映射”到数据库中,对菌群代谢功能进行预测

PICRUSt1是为从16S标记序列预测功能而开发的,已被广泛使用,但有一定的局限性。标准PICRUSt1工作流程要求输入序列只能根据Greengenes数据库的兼容版本进行有参比对而生成的OTU表。PICRUSt1使用的细菌参考数据库自2013年以来未进行更新,并且缺少成千上万个最近添加的基因家族

PICRUSt2 具有更准确更全的数据库

2018年推出了全新版本的PICRUSt,即PICRUSt2(https://github.com/picrust/picrust2) ,该方法在PICRUSt1原始方法上有所改进

具体而言, PICRUSt2包含一个更新的,更大的基因家族和参考基因组数据库,可与任何可操作的分类单位(OTU)筛选或去噪算法互操作,并能够进行表型预测

基准测试表明,PICRUSt2比PICRUSt和其他竞争方法总体上更准确。PICRUSt2还允许添加自定义参考数据库

PICRUSt2 方法的优势

PICRUSt1流程将预测限制为Greengenes参考数据库中的OTU,因此排除了其他16S rRNA基因测序数据集中的许多公开序列。PICRUSt2无需再以GreenGene注释的OTU表为输入,可以直接读取OTU的代表序列自动完成物种注释,并进一步根据物种丰度组成预测群落功能

•用于预测的参考基因组数据库扩大了10倍以上

•允许输出MetaCyc 本体预测,可与普通宏基因组学的结果比较

•从Castor R包中添加隐藏状态预测算法

•通路丰度的推断现在依赖于MinPath,这使得这些预测更加严格

PICRUSt2 的工作流程

在这里插入图片描述

Picrust2集成了现有的开放源代码工具,以预测环境采样的16S rRNA基因序列的基因组。PICRUSt2中的系统发生放置基于三个工具的输出:HMMER、EPA-ng、GAPPA,以将研究序列(即OTU和ASV)放置到参考树中。

使用的方法更快的R包castor用于核心隐藏状态预测功能。然后生成元基因组图谱,可以通过贡献序列对其进行分层。最后,基于元基因组图谱预测途径的丰度

默认情况下,输出文件包括对酶分类(EC)编号,KEGG直系同源物(KO)MetaCyc途径丰度的预测。

谷禾报告中针对性的添加了碳水化合物活性酶数据库(CAZy)肠道代谢模块(GMM)肠脑模块(GBM)。GMM和GBM是从KEGG的KO映射出来的。

PICRUSt2 结果说明

在这里插入图片描述

EC_metagenome_out/ 细菌群落酶(EC)功能的丰度预测结果

ECpred_metagenome_unstrat_descr.tsv 为包含基因名称的丰度表,结构同上

在这里插入图片描述

KO_metagenome_out/ KO(KEGG Orthology)功能基因注释结果

KOpred_metagenome_unstrat_descr.tsv 为包含基因名称的丰度表,第一列是以KO ID名称代表特定的功能基因,第二列是功能基因的描述

丰度计算由16S rRNA拷贝数标准化后的OTU丰度表推断得到。

在这里插入图片描述

KEGGpathways_out/ KEGG代谢通路注释结果

上述预测得到的以KO ID为名称的KO功能,实则代表了特定的功能基因,将这些功能基因映射到具体的KEGG代谢途径(KEGG pathway)中,并统计各途径在各样本中的丰度,获得该表。

KEGGpath_abun_unstrat_descr.tsv为包含代谢通路的丰度表

在这里插入图片描述

pathways_out/ 代谢通路pathway添加注释,基于METACYC数据库的注释结果

METACYCpath_abun_unstrat_descr.tsv为包含代谢通路的丰度表

在这里插入图片描述

GMMmodelout/ 菌群代谢产物模块预测结果,modules.tsv为丰度表

在这里插入图片描述

GBMmodelout/ 菌群神经递质代谢产物模块预测结果,modules.tsv为丰度表

在这里插入图片描述

CAZYout/ 菌群碳水化合物代谢CAZy预测结果,pred_metagenome_unstrat.tsv为丰度表

在这里插入图片描述

COG_metagenome_out/ COG预测结果

COGpred_metagenome_unstrat_descr.tsv 为丰度表

在这里插入图片描述

PFAM_metagenome_out/ PFAM功能域模块预测结果

pred_metagenome_unstrat.tsv为丰度表

TIGRFAM_metagenome_out/ TIGRFAM功能域模块预测结果

pred_metagenome_unstrat.tsv为丰度表

out.tre 所有OTU代表序列构建的系统发育树文件

Intermediate/ 一些中间文件

数据库简介

KEGG,全称Kyoto Encyclopedia of Genes and Genomes,是一个从分子水平信息,特别是基因组测序和其他高通量实验技术产生的大规模分子数据库,以了解细胞、有机体和生态系统等生物系统的高级功能和效用的数据库资源。

MetaCyc,全称Metabolic Pathways From all Domains of Life,一个庞大而全面的数据库,只包含非冗余且通过实验手段阐明过的代谢通路。里有参与初级和次级代谢的各种通路以及相关代谢物生物化学反应,酶和基因等信息,通过存储具有代表性的实验验证的代谢通路,来对所有生命的代谢过程进行分类。

CAZy, 全称为Carbohydrate-Active enZYmes Database,碳水化合物酶相关的专业数据库,内容包括能催化碳水化合物降解、修饰、以及生物合成的相关酶系家族。

其包含五个主要分类:糖苷水解酶(Glycoside Hydrolases, GHs)、糖基转移酶(GlycosylTransferases, GTs)、多糖裂解酶(Polysaccharide Lyases, PLs)、糖酯酶(Carbohydrate Esterases, CEs)和氧化还原酶(Auxiliary Activities, AAs)。

此外,还包含与碳水化合物结合结构域(Carbohydrate-Binding Modules, CBMs)。五大分类和一个结构域下,都分别建立了多个Family。

GHs:糖苷键的水解和/或重排

GTs:糖苷键的形成

PLs:糖苷键的非水解裂解

CEs:水解碳水化合物的酯类

AAs:与 CAZymes 协同作用的氧化还原酶

CBMs:与碳水化合物结合

★ METACYC与KEGG都可以用来微生物的代谢通路预测,那么两者有什么区别呢?

MetaCyc的代谢物信息相较于KEGG提供内容更多,除了基础的物质信息以外,还包括物质的化学性质(如:油水分配系数、拓扑极性表面积、标准吉布斯自由能等)。

KEGG在通路方面的检索方式比MetaCyc更简单一些,通过通路名称或一个代谢物即可检索到相关的通路,而MetaCyc除了通路名称外,还需要提供通路中包含的4个底物才能检索到对应的通路;另外,在通路的完整度上,KEGG中更加注重的是在所有物种中的通路汇总到一张图上,而MetaCyc更加注重的是不同物种中通路的差异化

KEGG的通路会覆盖的更全一些,而MetaCyc相对会少一些,但是MetaCyc可以补充部分KEGG通路上不全的部分,因此KEGG与MetaCyc可以相互补充,达到相得益彰的效果

// 提示

想要查询不同功能的细节,解释生物学现象等,可以从数据库官网上查询,例如:

  • KEGG数据库:

在这里插入图片描述

  • MetaCyc数据库官网:
https://metacyc.org/
  • CAZY数据库:
http://www.cazy.org/
  • COG数据库:
https://www.ncbi.nlm.nih.gov/COG/

KEGG通路层级汇总:

Picrust2输出KEGG只有KO,KO层级通常有7、8千的功能条目。缺少PICRUSt1中分类合并为一级、二级、三级的3级通路,这里我们重新整理KEGG的层级数据并实现此功能,合并后仅剩500多个条目,方便比较和描述。

生成的分类层级文件

Picrust2/KEGG.PathwayL1.raw.txt

Picrust2/KEGG.PathwayL2.raw.txt

Picrust2/KEGG.Pathway.raw.txt

KEGG官网页面上给出了所有pathway的名字及其隶属关系,分成三个级别。

一级分类:共7个,分别是Metabolism(代谢)、Genetic Information Processing(遗传信息处理)、Environmental Information Processing(环境信息处理)、Cellular Processes(细胞过程)、Organismal Systems(有机系统)、Human Diseases(人类疾病)和Drug Development(药物开发)。

在这里插入图片描述

二级分类:在一级分类下面的分类,例如一级分类Cellular Processes下面包括5个二级分类:Transport and catabolism、Cell growth and death、Cellular community – eukaryotes、Cellular community – eukaryotes和Cell motility。

三级分类:二级分类下面的分类,例如二级分类Cell motility下面包括3个三级分类:Bacterial chemotaxis、Flagellar assembly和Regulation of actin cytoskeleton。

在这里插入图片描述

富集分析的结果一般都是三级分类,因此使用二级分类对三级分类进行汇总,可以快速找到相关的通路。例如Cell growth and death(细胞生长与死亡)相关通路。

根据3级层级分类通路数据,做KEGG分类层级图

在这里插入图片描述

预测信息可视化

得到的上述菌群功能丰度表之后,可以参考OTU丰度表做类似可视化分析。例如相对丰度构成图主成分分析PCA图功能差异图等。

在这里插入图片描述

在这里插入图片描述

这篇关于PICRUSt2在微生物功能预测分析中的应用解读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1041607

相关文章

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

SpringBoot整合DeepSeek实现AI对话功能

《SpringBoot整合DeepSeek实现AI对话功能》本文介绍了如何在SpringBoot项目中整合DeepSeekAPI和本地私有化部署DeepSeekR1模型,通过SpringAI框架简化了... 目录Spring AI版本依赖整合DeepSeek API key整合本地化部署的DeepSeek

Python实现多路视频多窗口播放功能

《Python实现多路视频多窗口播放功能》这篇文章主要为大家详细介绍了Python实现多路视频多窗口播放功能的相关知识,文中的示例代码讲解详细,有需要的小伙伴可以跟随小编一起学习一下... 目录一、python实现多路视频播放功能二、代码实现三、打包代码实现总结一、python实现多路视频播放功能服务端开

MySQL中的MVCC底层原理解读

《MySQL中的MVCC底层原理解读》本文详细介绍了MySQL中的多版本并发控制(MVCC)机制,包括版本链、ReadView以及在不同事务隔离级别下MVCC的工作原理,通过一个具体的示例演示了在可重... 目录简介ReadView版本链演示过程总结简介MVCC(Multi-Version Concurr

关于Gateway路由匹配规则解读

《关于Gateway路由匹配规则解读》本文详细介绍了SpringCloudGateway的路由匹配规则,包括基本概念、常用属性、实际应用以及注意事项,路由匹配规则决定了请求如何被转发到目标服务,是Ga... 目录Gateway路由匹配规则一、基本概念二、常用属性三、实际应用四、注意事项总结Gateway路由

C#使用DeepSeek API实现自然语言处理,文本分类和情感分析

《C#使用DeepSeekAPI实现自然语言处理,文本分类和情感分析》在C#中使用DeepSeekAPI可以实现多种功能,例如自然语言处理、文本分类、情感分析等,本文主要为大家介绍了具体实现步骤,... 目录准备工作文本生成文本分类问答系统代码生成翻译功能文本摘要文本校对图像描述生成总结在C#中使用Deep

css实现图片旋转功能

《css实现图片旋转功能》:本文主要介绍了四种CSS变换效果:图片旋转90度、水平翻转、垂直翻转,并附带了相应的代码示例,详细内容请阅读本文,希望能对你有所帮助... 一 css实现图片旋转90度.icon{ -moz-transform:rotate(-90deg); -webkit-transfo

解读Redis秒杀优化方案(阻塞队列+基于Stream流的消息队列)

《解读Redis秒杀优化方案(阻塞队列+基于Stream流的消息队列)》该文章介绍了使用Redis的阻塞队列和Stream流的消息队列来优化秒杀系统的方案,通过将秒杀流程拆分为两条流水线,使用Redi... 目录Redis秒杀优化方案(阻塞队列+Stream流的消息队列)什么是消息队列?消费者组的工作方式每

5分钟获取deepseek api并搭建简易问答应用

《5分钟获取deepseekapi并搭建简易问答应用》本文主要介绍了5分钟获取deepseekapi并搭建简易问答应用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需... 目录1、获取api2、获取base_url和chat_model3、配置模型参数方法一:终端中临时将加