本文主要是介绍Bioinformatics | 凯斯西储大学张亮亮组发布PICRUSt2预测功能的分析和可视化R包ggpicrust2...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
ggpicrust2: 用于PICRUSt2预测功能的分析和可视化R包
ggpicrust2: an R package for PICRUSt2 predicted functional profile analysis and visualization
Article,2023-08,[IF = 5.8]
DOI:https://doi.org/10.1093/bioinformatics/btad470
原文链接:
https://academic.oup.com/bioinformatics/article/39/8/btad470/7234609
第一作者:杨晨 (Chen Yang)
通讯作者:张亮亮 (Liangliang Zhang)
合作作者:Jiahao Mai;Xuan Cao;Aaron Burberry;Fabio Cominelli
主要单位:
南方医科大学生物统计学系 (Department of Biostatistics, Southern Medical University, Guangzhou 510515, China)
美国辛辛那提大学数学科学系 (Department of Mathematical Sciences, University of Cincinnati, Cincinnati, 45221, USA)
美国凯斯西储大学医学院病理学系 (Department of Pathology, School of Medicine, Case Western Reserve University, Cleveland 44106, USA)
美国凯斯西储大学凯斯消化健康研究所 (Case Digestive Health Research Institute, Case Western Reserve University, Cleveland 44016, USA)
美国凯斯西储大学人口与定量健康科学系 (Department of Population and Quantitative Health Sciences, Case Western Reserve University, Cleveland 44106, USA)
- 摘要 -
微生物群落研究现在正在超越对样本中微生物分类群的组成分析。来自大型人类微生物群研究越来越多的证据表明,肠道微生物群落变化的功能性后果可能更具有研究其对炎症和免疫反应的影响的能力。虽然16S rRNA分析是最流行、成本效益高的方法来分析微生物组成,但标记基因测序无法直接提供有关存在于群落基因组中的功能性基因的信息。生物信息学工具已经被开发出来用于16S rRNA基因数据预测微生物群落功能。其中,PICRUSt2(通过重建未观察到的状态对群落进行系统发育调查)已成为最流行的功能概况预测工具之一,它生成了群落范围的通路丰度。然而,目前还没有最先进的推理工具可用于测试比较组之间的通路丰度差异。我们已经开发了一个R软件包ggpicrust2,用于分析从16S rRNA测序中获得的功能概况。这个强大的工具使研究人员能够进行广泛的差分丰度分析,并生成具有视觉吸引力的可视化效果,有效地突出显示功能信号。使用ggpicrust2,用户可以获得可发表的结果,并深入了解他们的微生物群落的功能性组成。
- 介绍 -
微生物群落标记基因测序的一个局限性是它不提供关于样品群落功能组成的信息。近年来,已经开发了几种方法来从16S rRNA序列数据预测功能,包括PICRUSt2、MicFunPred和PICRUSt等。这些方法的准确性和适用性取决于具体的研究问题和正在研究的微生物群落的特征。总体而言,这些方法极大地提高了我们理解微生物群落在各种环境中(从人类肠道到土壤和水生态系统)的功能角色的能力。在各种可用的工具中,PICRUSt2已成为备受青睐的预测功能概况的工具,因为它促进了在微生物群落中生成综合的通路丰度。PICRUSt2为研究人员提供了有价值的见解,以了解微生物群落的功能角色。
然而,学术界内对于推断和可视化由PICRUSt2生成的功能丰度输出的最佳方法仍需要达成共识。使用差异丰度(DA)方法确定组间功能和通路显著差异是分析中的关键步骤,因此选择适当的DA方法是学术讨论中相当重要的话题。在最初的PICRUSt2官方维基中推荐了STAMP工具用于分析和可视化。但STAMP自2015年以来一直没有更新,表明它可能无法整合差异丰度(DA)分析的最新进展,这对于系统地从PICRUSt2输出数据进行统计推断至关重要。此外,STAMP在macOS平台上存在安装难题,使其用户友好性降低并可能阻碍该领域的研究人员采用。最近对38个数据集的20种差异丰度方法进行的比较研究显示,STAMP支持的五种DA方法(包括ANOVA、Kruskal-Wallis H检验、t检验(方差相等)、Welch's t检验和White非参数检验)的性能相对较低。比较得出结论显示, AlDEx2和ANCOM-II在所有研究中产生了最一致的结果,并且与不同方法的结果最相符,但仍建议研究人员应该使用基于多种差异丰度方法的共识方法来确保可靠的生物解释。尽管存在几个支持多种先进差异丰度方法的平台或软件包,例如MicrobiomeAnalyst、MicrobiomeExplorer 和microbiomeMarker,但它们并不是专门为PICRUSt2功能预测的输出数据设计。由于PICRUSt2输出数据与16S rRNA基因数据的格式和特征之间的差异,上述平台或软件在导入PICRUSt2数据时常常遇到困难。虽然几乎所有的差异丰度方法都可以在R中使用,但每种方法都会增加数据导入和参数配置的负担,从而增加工作量和时间成本,降低效率。此外,这些R软件包通常缺乏可视化差异丰度结果和生成出版物质量图像的能力。因此,迫切需要开发一种用户友好的R软件包来分析PICRUSt2功能输出数据并使用各种差异丰度方法和可视化以填补空白。
- 主要内容 -
ggpicrust2 R包
ggpicrust2 R package
该包的一般工作流程如(图1)所示。ggpicrust2不仅允许最近开发的先进DA方法和结果可视化,而且可以转换PICRUSt2输出的KO丰度表转换为KEGG途径丰度表,这不能单独使用PICRUSt2。它还提供KO、EC、MetaCyc通路和KEGG通路的注释,并能够对KEGG通路进行分类。未来,ggpicrust2计划纳入更广泛的一系列功能预测工具,包括但不限于Tax4Fun2,以扩展其功能和实用性。此外,该软件包将集成其他方法在仿真比较中表现出色,确保持续改进并与该领域的最新进展保持一致。
图1 使用ggpicrust2R包的分析和可视化工作流程示例,分为两个子组件。
(A)分析:此组件涉及多个函数,包括compare_metagenome_results()、ko2kegg_abundance()、pathway_daa()、compare_daa_results()和pathway_annotation()。该组件的输入是PICRUSt2输出:KO/EC/MetaCyc途径丰度表。
(B)可视化:此组件包括pathway_pca()、pathway_heatmap()和pathway_errorbar()等函数。此组件的输入是分析组件以及原始丰度表或KEGG丰度表的结果。两个组件中的函数都用红线连接,以说明分析中所需的步骤,并用蓝线表示工作流中的可选步骤。这些功能之间的关系是灵活的,允许根据分析的特定需求进行调整使用。
数据输入
Data input
ggpicrust2建议采用PICRUSt2原始输出pred_metagenome_unstrat.tsv的数据格式,无需重新格式化,csv和txt都是可以接受的。此外,它能够支持已转换为模拟PICRUSt2输出格式的文件,确保各种数据源的兼容性和灵活性。
转化为KEGG途径丰度
Conversion to KEGG pathway abundance
EGGG Orthology (KO)是由京都基因和基因组百科全书(KEGG)数据库开发的一个分类系统。它使用分级结构根据酶催化的反应对酶进行分类。为了更好地了解通路在不同组中的作用并对通路进行分类,可以将KO丰度表转换为KEGG通路丰度。但是PICRUSt2从PICRUSt中删除了该函数。ko2kegg_bundance()可以帮助转换该表格。
先进的DA方法
Advanced DA methods
差异丰度(DA)分析在PICRUSt2下游分析中起着重要作用。pathway_daa()集成了几乎所有适用于预测功能组成的DA方法,其中不仅包括ANCOM和ANCOMBC,也包括ALDEx2、DEseq2、Maslin2、LinDA、edgeR、limma-voom、metagenomeSeq,在不同的基准评估中表现出不同程度的成功。
pathway_daa()提供了一种方便的方法来运行这些方法并比较结果。compare_daa_results()可用于比较使用不同方法获得的统计显著特征的一致性和不一致性。它创建一个报告,显示每个方法识别的常见和不同特征的数量,以及特征本身。这有助于研究人员选择最适合他们的数据集和研究问题的方法。
为了指导您为研究选择最合适的DA方法,补充(表S1)提供了各种DA方法的简要比较和描述,帮助研究人员根据数据集和研究问题的特点选择最佳方法。
KO、EC和通路的注释
Annotation of KO, EC, and pathway
pathway_annotation()可以从注释表中注释KO、EC、MetaCyc路径的说明。KO数据库是以功能直向同源物表示的分子功能的数据库。EC编号(酶委员会编号)是酶的数字分类方案,基于它们催化的化学反应,MetaCyc途径描述了生物体内小分子的生物化学转化。它可以将请求拉到在线KEGG数据库,以注释KEGG路径的路径名称(pathway_name)、路径描述(pathway_description)、路径类别(pathway_class)和路径映射(pathway_map)。该函数可用于注释PICRUSt2的输出文件或pathway_daa()的输出表。
可视化
Visualization
PICRUSt2的主流可视化是bar_plot、error_bar_plot、pca_plot、heatma_plot。pathway_errorbar可以显示组之间的相对丰度差异以及从DA结果导出的log2倍变化和p值。pathway_pca()可以通过主成分分析(pca)显示降维后的差异。pathway_heatmap()能够可视化PICRUSt2输出数据中的模式,这对于识别趋势或突出显示感兴趣的区域非常有用。
整合
Integration
ggpicrust()是pathway_daa()、pathway_anotation()、pathway_errorbar()和ko2kegg_bundance()的集成函数。该工具旨在为新进入该领域的人员提供整个数据分析过程的便利。然而,它也能够被专业分析师以模块化的方式使用,从而增加定制和控制。为了进一步支持用户并促进对软件包功能的理解,我们制定了一份详细的用户手册,作为补充材料提供。本文档包括分步安装说明、主要功能说明以及如何在学术研究中有效利用ggpicrust2包的指导。我们的目标是确保新手和有经验的研究人员都能轻松访问该软件包的高级功能并从中受益。
应用
Application
在使用PICRUSt2对C9orf72功能丧失小鼠的微生物组数据进行功能谱预测后,包括接受粪便移植和未接受粪便移植的小鼠,我们随后使用ggpicrust2进行的数据分析需要实施LinDA,这种方法实现KEGG通路的鉴定,证明了两组小鼠的促生存和促炎环境之间存在统计学上的显著差异。特别令人感兴趣的是主要参与亨廷顿舞蹈症发病机制(the pathogenesis of Huntington's disease)的途径ko05016,以及以与帕金森病相关而闻名的途径ko05012。这两种途径都与人类疾病和神经退行性疾病有关。对DA结果进行了细致的注释,并对输出进行可视化以进行后续分析。结果的视觉表示,提供了对这些途径在所研究条件中的参与的见解,如(图1)所示。
宏基因组结果比较
Comparison of Metagenome Results
Compare_metagenome_results()分析并比较了不同方法和宏基因组测序的功能预测。它接受宏基因组计数矩阵列表、相应的样本名称、DA方法、p值调整方法和DA参考组级别。该函数连接所有宏基因组计数矩阵,创建新的样本元数据,执行DA,并计算每对宏基因组之间的Spearman相关系数和相应的p值。
- 讨论 -
ggpicrust2,可在CRAN和https://github.com/cafferychen777/ggpicrust2获取,是一个明确为PICRUSt2预测功能组成开发的R包,用于对DA结果进行高级差异丰度(DA)分析和可视化。该软件包有效地解决了现有工具在方法和可视化方面的局限性,其集成和分布式设计满足了专业人士和初学者的需求。通过为分析和可视化DA结果提供无缝体验,ggpicrust2有可能显著提高涉及功能组成预测研究的质量和效率。ggpicrust2已被纳入PICRUSt2 wiki文档,反映出它在研究群落中越来越受到认可和采用。
- 数据可用性 -
可以通过以下链接访问示例数据集:https://github.com/cafferychen777/ggpicrust2_paper/tree/main/Dataset。此处提供的示例数据集源自Burberry A.等人(2020)在《自然》杂志上发表的一项研究。该研究的重点是鉴定与肌萎缩侧索硬化症(ALS)和额颞叶痴呆(FTD)模型中的促炎或促生存结果相关的细菌群落,具有自身免疫和全身和神经炎症特征。该数据集包括从C9orf72功能丧失小鼠的粪便样品中获得的细菌组成的16S rRNA测序图谱。如《Nature》论文所述,原始序列可以通过以下链接通过GEO存储库访问:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE147325。
参考文献
Chen Yang, Jiahao Mai, Xuan Cao, Aaron Burberry, Fabio Cominelli, Liangliang Zhang, ggpicrust2: an R package for PICRUSt2 predicted functional profile analysis and visualization, Bioinformatics, Volume 39, Issue 8, August 2023, btad470, https://doi.org/10.1093/bioinformatics/btad470
- 作者简介 -
第一作者
南方医科大学
杨晨
本科生(大四)
杨晨,南方医科大学一名即将升入大四的学生,主修生物统计学,GPA为3.95/4.00(班级前2%)。以优异的成绩获得了认可——获得了享有盛誉的中国教育部国家奖学金(全国排名前0.2%),并多次在同龄人中排名第一。在梅奥诊所陈军教授和凯斯西储大学张亮亮教授的指导下,研究重点是开发微生物组数据分析的统计和计算方法。作为Mayo Clinic的研究助理,为用于纵向数据分析的MicrobiomeStat R软件包做出了贡献,并创建了协作平台MicrobiomeGallery。在凯斯西储大学,是《生物信息学》接受的一篇论文的唯一第一作者,展示了ggpicrust2为微生物组功能分析开发了R软件包。还在全国模特比赛中多次获奖,展现了强大的量化能力。
通讯作者
凯斯西储大学
人口与定量健康科学系
张亮亮
助理教授
张亮亮,凯斯西储大学人口与定量健康科学系的助理教授。在德克萨斯大学MD安德森癌症中心生物统计学系完成了博士后培训。于2017年获得密歇根州立大学统计与概率系统计学博士学位。于2012年在苏州大学获得应用数学硕士学位,并于2009年在南京邮电大学获得统计学学士学位。研究兴趣包括图像数据分析的高维方法、微生物组和成分数据分析以及高维设置中的贝叶斯变量选择。
猜你喜欢
iMeta简介 高引文章 高颜值绘图imageGP 网络分析iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature
系列教程:微生物组入门 Biostar 微生物组 宏基因组
专业技能:学术图表 高分文章 生信宝典 不可或缺的人
一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索 Endnote
扩增子分析:图表解读 分析流程 统计绘图
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
点击阅读原文,跳转最新文章目录阅读
这篇关于Bioinformatics | 凯斯西储大学张亮亮组发布PICRUSt2预测功能的分析和可视化R包ggpicrust2...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!