iMeta | 新加坡城市污水处理厂中流式细胞仪分类群落和鸟枪法病毒宏基因组学的比较研究...

本文主要是介绍iMeta | 新加坡城市污水处理厂中流式细胞仪分类群落和鸟枪法病毒宏基因组学的比较研究...，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

点击蓝字关注我们

新加坡城市污水处理厂中流式细胞仪分类群落和鸟枪法病毒宏基因组学的比较研究

iMeta主页：http://www.imeta.science

研究论文

● 原文链接DOI: 10.1002/imt2.39

● 2022年7月28日，新加坡国立大学环境研究所Karina Yew-Hoong Gin团队在iMeta在线发表了题为“A comparative study of flow cytometry‐sorted communities and shotgun viral metagenomics in a Singapore municipal wastewater treatment plant”的文章。

● 本研究阐明了荧光激活细胞分选(FACS)和宏基因组学应用于DNA和RNA病毒的实际方案。这是第一次采用改良的Ludzack-Ettinger (MLE)工艺系统地分析城市污水处理厂的病毒宏基因组。将FACS与宏基因组学相结合，改善了某些罕见病毒物种的检测和基因组组装。总之，传统病毒宏基因组学和FACS耦合宏基因组学提供了互补的结果。

● 第一作者：顾晓琼

● 通讯作者：Karina Yew-Hoong Gin (ceeginyh@nus.edu.sg)

● 合作作者：Yi Yang、Feijian Mao、 Wei Lin Lee、 Federica Armas、 Fang You、David M. Needham、 Charmaine Ng、 Hongjie Chen、Franciscus Chandra

● 主要单位：新加坡国立大学土木与环境工程系、新加坡麻省理工学院研究与技术联盟、新加坡国立大学环境研究所、蒙特利湾水族馆研究所、海洋生态系统生物组织、麻省理工学院生物工程系

亮点

● 应用荧光激活细胞分选(FACS)和宏基因组学研究DNA和RNA病毒的方案

● 首次利用改进的Ludzack-Ettinger (MLE)工艺系统分析了城市污水处理厂的病毒宏基因组

● FACS与宏基因组学相结合改善了某些罕见病毒物种的检测和基因组组装

● 散装病毒宏基因组学和FACS偶联宏基因组学提供了互补的结果

摘要

在病毒宏基因组学中使用的传统或“批量”病毒富集和扩增方法在病毒多样性中引入了不可避免的偏差。这种偏差源于现有病毒富集方法的缺陷，且被极其丰富的病毒种群所掩盖。为了降低病毒多样性的复杂性和提高分辨率，我们开发了一种结合荧光激活细胞分选(FACS)和随机扩增的策略，并将其与批量宏基因组学进行了比较。采用改进的Ludzack-Ettinger (MLE)工艺作为处理方法，对来自城市污水处理厂的进水和出水样品进行了验证。我们发现，使用批量样本生成的MLE处理前后的DNA和RNA群落与使用FACS生成的相应的DNA和RNA群落大多不同。在MLE处理前，FACS鉴定出5个病毒家族和512个病毒注释片段重叠群（contigs）。在批量样品中高达43%的映射读数未检测到。与批量样本相比，核-细胞质大DNA病毒家族在FACS偶联亚群中富集程度更高。FACS偶联病毒捕获了一个与Anabaena噬菌体相关的单片段病毒基因组，这在批量样品或MLE处理后的FACS分类样品中是观察不到的。我们发现这些被组装成一个46 kbp的高质量基因组草图后的短宏基因组reads在一个MLE处理前的FACS注释的病毒组片段中具有高度显性(57.4%)。通过批量宏基因组学，我们证实了在一级沉降池和二级沉降池之间的病毒，Virgaviridae、Astroviridae、 Parvoviridae、Picobirnaviridae、Nodaviridae和Iridoviridae对MLE处理敏感。总之，批量宏基因组学和FACS耦合宏基因组学是互补的方法，能够更彻底地了解复杂环境样本中DNA和RNA病毒的群落结构，其中后者对于提高检测病毒特征的敏感性至关重要，否则通过批量病毒宏基因组学就会丢失这些特征。

全文解读

引言

病毒是生物圈中最常见的生物体。据估计，它们的丰度在沉积物、海洋和土壤中为10⁷ - 10⁹个病毒样颗粒(VLPs)/ml，在人类肠道中为10⁹ - 10¹²VLPs/g粪便。尽管病毒在环境中有着重要而广泛的位置，但由于病毒分离、培养和维系宿主-病毒系统方面的困难，我们对其生态学的了解十分有限。此外，缺乏通用的病毒遗传标记，如所有细菌共享的16S rRNA基因，也阻碍了对病毒多样性、系统发育和分类学的理解。二代测序平台和生物信息学的进步，使人们对解决以前未检测到的病毒群落（即所谓的 "病毒暗物质"）重新产生了兴趣。例如，它已成功用于分析污水处理厂（WWTP）中特定阶段（即原污水、污泥、产甲烷消化器等）的病毒群落结构。在污水样本中，DNA病毒粒以噬菌体为主，可能感染肠杆菌或乳酸球菌，而植物病毒(如帚状病毒科)则以RNA病毒粒为主。通过宏基因组学，在废水中也检测到了人类致病病毒和新出现的人畜共患病毒，如腺病毒科、星状病毒科、小核糖病毒科、萼病毒科、乳头瘤病毒科和肝病毒科等。

了解废水处理过程中微生物多样性和组成的动态变化是至关重要的，特别是在打算重新使用污水的情况下。然而，目前的生物信息学工作流程在病毒富集、扩增方面存在困难，病毒分类的敏感性和特异性较低，这些都阻碍了研究的进行。典型的病毒富集方法，如物理方法(0.22 μm滤膜)过滤，为了区分病毒，同时避免细菌污染。不幸的是，病毒粒子在大小和形状上是非常不均匀的。对于某些病毒(星状病毒科、小核糖核酸病毒科、环状病毒科)，它们可以小到20 ~ 30 nm，某些中等大小病毒(冠状病毒科、疱疹病毒科)的尺寸为110 ~ 150 nm；另外，核细胞质大DNA病毒(NCLDVs)的病毒粒子可达1 μm，通常称为巨型病毒。后者的基因组大小为0.1 – 2.77 million bp，通过0.22 μm过滤时很容易被去掉。尽管过滤步骤有可能损失巨型病毒，但由于不可避免的宿主污染，病毒基因组的重建进一步受到阻碍。事实上，形态不均匀的细菌可以通过0.22-μm的孔隙。此外，废水样品含有复杂的细菌和病毒的混合物，包括单链或双链RNA和DNA病毒。废水中的大多数研究仍然集中在双链DNA病毒上。另一方面，RNA病毒已受到越来越多的关注，因为大多数RNA病毒是人类、植物或昆虫致病体，对公共卫生具有重要意义。不依赖测序的单引物扩增(SISPA)方法已被用于研究RNA或DNA或两者。到目前为止，从复杂的水基质中纯化和分离完整的病毒种群仍然具有很高的挑战性。

除了上游的病毒富集过程外，下游的生物信息学分析也存在一些障碍，限制了病毒群落的鉴定和特征分析。环境样品中病毒的高度复杂性和多样性，特别是污水样品，常常导致测序深度不均匀，造成罕见病毒种类信号的丢失和低质量的复原病毒基因组。最近，流式细胞术与海洋样品中的病毒宏基因组学相结合，发现了有尾和非常大的病毒，这些病毒在常规病毒宏基因组学中可能被排除在外。单病毒分选有助于识别44个丰富的单扩增病毒基因组，这些基因组之前在海洋中未被识别。通过物理方法对病毒组分级，获得了更高的序列覆盖率和更优的病毒序列组合，分类预测的准确性也随之提高。据报道，需要2-10倍的序列覆盖率才能获得60%-95%的病毒基因组。所有这些结果表明，流式细胞术可能是改进基因组组装和注释或检测不同的低丰度病毒的可行工具，从而补充传统病毒宏基因组学的结果。

为了克服对低丰度病毒进行基因组组装或注释的挑战，我们利用流式细胞仪的荧光激活细胞分选（FACS）将废水病毒群分选为不同的FACS亚群。以某城市污水处理厂污水处理阶段的一级沉淀池(PST)和二级沉淀池(SST)出水为例，对上述方法进行了验证。使用Illumina Hiseq 2500平台进行二代测序，然后使用生物信息学分析来表征未分类的散装病毒组和FACS亚群，以识别使用传统病毒宏基因组学丢失的病毒特征。利用多样性指标，我们了解了各种样本处理方法是如何影响物种丰富度的，并比较了使用改良Ludzack-Ettinger (MLE)方法前后样本的差异，以确定易受MLE影响的病毒种群。总而言之，这项研究比较了某新加坡污水处理厂MLE前后样本的FACS宏基因组和传统病毒宏基因组，并证明了结合这两种方法可以提高病毒组覆盖率。

结果

FACS、扩增和测序统计分析

本研究的目的之一是探索来自宏基因组的RNA和DNA病毒组如何被FACS宏基因组补充。为了同时捕获DNA和RNA病毒，我们采用了两种策略。首先，我们使用SYBR Gold代替SYBR GREEN I对FACS亚群中的DNA和RNA病毒进行染色，SYBR GREEN I优先与dsDNA结合，与ssDNA和RNA的结合性能较低。其次，我们利用SISPA理论进行随机扩增，在病毒体和FACS亚群中扩增提取的核酸。将RNA和DNA病毒合并进行耦合处理和测序的优势在于它提供了一种快速方便的方法。

废水样品由PST和SST获得。SST在污水处理厂内经过了MLE处理。SYBR Gold染色后，基于它们的荧光和侧散射(SSC)信号(图1)，每个样品分别被分为4个和5个亚群(即PST, 1-4;SST, 1-5)。经过核酸提取、随机扩增和高通量测序，从每个文库(17.4–25.6 million)中获得21.4±2.71 million个高质量reads，平均每个文库(43.0%-69.6%)有52.6±8.4%的高质量reads映射到组装的contigs(表S2)。图S1描述了生物信息学工作流程。我们采用共组装策略，从11个样本中共获得了43,582个contig（N50值为1653bp）。对这些片段进行平行注释，将依赖数据库的方法（使用BLASTP比对NCBI非冗余蛋白数据库和NCBI病毒蛋白数据库，Megan LCA赋值，详情见方法）与不依赖数据库的算法VirFinder和依赖数据库的算法VirSorter进行比较。其中，4417个contigs在NCBI数据库中被注释为病毒，并发现了38个病毒类群。同时，通过应用VirFinder v1.1（score≥0.9，p < 0.01）和VirSorter（Cat 1和2，病毒组净化模式），预测出5514个contigs为病毒来源。VirFinder和VirSorter方法之间有215个注释的contigs重叠（图S2A），其中VirFinder提供了更多的病毒信号（VirFinder vs. VirSorter：4880 vs. 849）。在NCBI BLASTP和VirFinder/VirSorter之间，1395个注释的contigs是两者共有的，8536个contigs是独有的（图S2B）。

图1. 采样位置和FACS分类的亚种群

(A)新加坡污水处理厂的示意图。采样点用“Χ”表示。污水流入PST，有机和无机物沉淀到底部，作为废污泥被清除。PST废水被泵入不同的污水列进行生物处理，这是一个步进式MLE(缺氧-缺氧-缺氧)过程，然后再进入二级沉淀池(SST)。SST沉淀污泥被泵回初始MLE阶段作为活化混合液源进行生物处理。(B)利用流式细胞仪对PST废水样品P1-P4亚群(左图)和SST废水样品S1-S5亚群(右图)进行分选。基于绿色荧光和侧散射特征进行分组鉴别。EFF，废水出水;FACS，荧光激活细胞分选；INF，污水进水；MLE, Modified Ludzack-Ettinger；PST，一级沉淀池；WW，井。

在病毒组和FACS亚群中检测到的DNA和RNA病毒

在contigs分配之后，我们比较了病毒宏基因组与FACS亚群中确定的真核生物、细菌、古细菌和病毒相关contigs的相对丰度。相对丰度是根据隶属于某一特定分类的cotigs的reads数比率计算的。使用传统的病毒富集步骤（即聚乙二醇沉淀、氯仿纯化、0.22μm滤膜过滤和Amicon离心机）制备样品，以增加病毒的信噪比。另一方面，在没有事先进行病毒富集的情况下，对FACS样品进行了处理，以便能够捕获病毒以外的细菌和微生物。因此，与FACS亚群（68.3±14%；表S3）相比，宏基因组（富含病毒、PST和SST）包括较低丰度的注释细菌、古细菌和真核生物（31±0.18%）。PST和SST注释到ViralRefSeq数据库中已知序列的reads比例较高（分别为56.6%和48.3%），而FACS亚群（P1-P4和S1-S5）在没有传统病毒富集的情况下，比例较低（2.1 ± 0.6%；表S3）。

之后，我们从宏基因组和FACS亚群中识别并注释了2673种DNA和118种RNA病毒。118个contigs中有56个与植物相关的病毒，属于帚状病毒科（黄瓜绿色斑驳花叶病毒、烟草轻度绿色花叶病毒和辣椒轻度斑驳病毒），Tombusvirridae(甜瓜坏死斑病毒和玉米绿斑病毒)和Alphaflexiridae (马铃薯 x 病毒组，斯伦贝谢病毒X、火龙果病毒X、仙人掌病毒和接合仙人掌病毒X)。与人类相关病毒的contigs (人类腺病毒和人类天疱疮病毒）和crAssphage的contigs在PST和SST中被恢复，但在FACS亚群中没有检测到(表S7、图S10和S11）。

MLE处理后NCLDVs、某些人类病毒类群和crAssphage的相对丰度下降

接下来，我们重点研究了病毒宏基因组中被注释的病毒类群。病毒类群的相对丰度是根据每百万reads中每千碱基contigs的reads（RPKM）值来量化的。在被注释的PST病毒群中，67.2%的reads被注释为帚状病毒科、2.5%的为微小噬菌体科、2.1%的为肌病毒科、1.5%的为短尾噬菌体科和1.2%的长尾噬菌体科（图2）。帚状病毒科的高流行率（67.2%）与沙特阿拉伯的污水处理厂RNA病毒组（帚状病毒科占80%以上）、尼泊尔未经处理的污水病毒组（帚状病毒科占57%）和南加州的污水散装RNA病毒群（最丰富的病毒是病毒科）的调查结果相似。SST病毒组由的帚状病毒科（24.1%）、波多病毒科（1.6%）、西普病毒科（2.7%）和肌病毒科（1.0%；图2）组成。有趣的是，SST病毒组包含了大约68.4%的"其他病毒"（即未注释到科水平的contigs）组成，其中16.1%是Bufivirus UC1（图S3），一种从旧金山污水中检测到的病毒。

图 2.病毒在群体和FACS亚群体中的分布

(A) 11个库中RPKM标准化注释序列的分类学百分比。我们绘制了11个文库中最丰富的14个病毒家族，其余的病毒家族表示为“其他病毒家族”。在科水平上未注释到的contigs被表示为“其他病毒”。对于每个亚种群，大约有200万个粒子被分类并随后进行分析。每个样本中通过Megan LCA分配方法注释的病毒contig的数量在数据列上方显示。(B) PCoA分析：在contig水平上基于PST和已分类亚群(P1-P4;左)以及SST和亚群(S1-S5;右)。图上的位置是基于样品主轴和次轴上的样本分数。左- PCoA1，解释64.2%变异；PCoA2, 解释13.4%变异。右- PCoA11，解释43.7%变异；PCoA2, 解释16.8%变异。FACS，荧光激活细胞分选；LCA，最低共同祖先；PST，主沉淀池；RPKM，每百万reads中每千碱基contigs的reads；SST，二次沉淀池。

对比PST和SST污水中病毒类群的相对丰度，我们发现在污水处理厂的MLE过程中，有25个病毒类群减少了。帚状病毒科的百分比从67.2%下降到24.1%，而微小噬菌体科和肌病毒科分别从2.1%下降到0.9%和从1.5%下降到1.0%。在本研究中检测到了巨大病毒NCLDVs（如Mimiviridae、Phycodnaviridae、Poxiviridae、Iridoviridae和Marseilleviridae）。crAssphage（未分类的Podoviridae），已被确认为在人类粪便样本中普遍存在，在PST中被发现的比例为0.17%，在SST中急剧下降到0.00067%（图S3）。腺病毒科和星状病毒科的相对丰度急剧下降（图S10）。具体来说，腺病毒科和星状病毒科的所有contigs都隶属于人类腺病毒和人类星状病毒（98%-99%的一致性和99%的查询覆盖率，表S7）。Podoviridae、Siphoviridae、Circoviridae、Disctroviridae、Herpesviridae、Retroviridae和Caliciviridae的相对丰度在MLE过程后并没有下降，表明MLE过程没有有效地去除这些病毒。对于注释到类别的contigs，PST和SST的α多样性为2375和998种，Shannon指数为5.3和4.0（图S4和S5）。SST中较低的生物多样性表明，WWTP的MLE过程除去了大部分的病毒。

总样品和FACS分类样品之间的病毒组差异以及FACS亚群之间的病毒组差异

原接下来，我们测定了总病毒样本和FACS亚群病毒群落结构之间的不同程度。沿着主坐标分析（PCoA）的第一和第二轴，将病毒群落结构分为两个主要集群：一个由PST或SST样本代表，另一个由它们的亚群组成（图2B），并观察到显著差异（PERMANOVA，p=0.013， pseudo-F=5.3109，表S8）。在VirFinder和VirSorter contigs中也观察到类似的趋势(图S6)。

与PST和SST中检测到的2375个和998个种相比，分类亚群在P1-P4（170-277种）和S1-S5（181-337种；图S4，p＜0.05，Kruskal-Wallis检验）中数量较少。正如预期的那样，FACS对整个群落进行了分类，因此，与总病毒群相比，每个分类类别下的物种丰富度下降。有趣的是，P1-P4的α-多样性相对低于S1-S5（3.4-3.7 vs. 4.8-6.8，p < 0.05，双尾Mann-Whitney检验），表明P1-P4被某些片段所支配（>40%）。

因此，我们试图确定是什么主导了P1-P4病毒组。P1是具有最低SSC和绿色荧光信号的颗粒（图1B），主要是未分类的短尾噬菌体科（28.1%）和丝杆病毒科（14.9%）。对P1中短尾噬菌体科中含量最高的contig的进一步检查表明，该contig的基因在氨基酸水平上被注释为Anabaena噬菌体A-4L（1E-32，26%的同一性，29%的查询覆盖率，长度为10136bp，BLASTX，NCBInr），尽管在核苷酸水平上在当前NCBI nt数据库中没有比对出结果（表S5）。虽然这个contig无法在目前更新的NCBI nt数据库中进行注释，但它与最初从污水沉淀池中分离出来的Anabaena噬菌体共享功能基因。P2，在流式细胞仪中具有中等SSC和最低绿色荧光信号的颗粒，以丝杆病毒科为主（43.9%）。P2中最重要的contig完全隶属于（100%的核苷酸一致性和100%的查询覆盖率，长度为3427 bp）丝杆病毒科肠杆菌噬菌体M13，一个6.4kbp的ssDNA噬菌体（表S5）。这一结果与之前的一项研究一致，该研究显示约20%的已知噬菌体reads会感染原污水中的肠道细菌。P3，即在FCM中具有大的SSC和最低的绿色荧光信号的颗粒，主要是长尾噬菌体科（53.0%）和丝杆病毒科（10.4%）。P3中最重要的contig隶属于长尾噬菌体科，其中被注释为DNA连接酶的基因与假单胞菌噬菌体的关系最为密切（2E-10，56%一致性，13%查询覆盖度）。P4，即在FCM中具有中等SSC和中等绿色荧光信号的颗粒，主要是丝杆病毒科（27.1%）、Mimiviridae (19.6%), 乳头瘤病毒科(7.7%)和虹膜病毒科(5.4%)。从P1到P4，随着SSC和绿色荧光信号的增加，Mimiviridae的百分比从4%增加到19.6%，虹膜病毒科的百分比则从1.8%增加到5.4%。

与P1-P4的病毒分布相比（前14个最丰富的病毒家族的平均丰度标准差：5.5%），S1-S5的病毒科的相对丰度分布更均匀（平均丰度标准差：1.6%），除了丝杆病毒科在S3中占21.3%，丰度标准差为4.9%。与P1-P4（3.4-3.7；图S4）相比，病毒家族的均匀性与观察到的较高Shannon指数（4.8-6.8）相符。与P1-P4一样，S1-S5也有同样的趋势，随着SSC和绿色荧光信号的增加，Mimiviridae从4.6%增加到7.6%。另一个巨大的病毒科，Phycodnaviridae从S1的0.4%从增加到S5的3.0%。Virgaviridae在PST总样本中的比例从67.2%下降到P1 - P4亚群的0.01% ~ 3.2%，在S1 ~ S5亚群中的比例从24.1%下降到0.1% ~ 2.3%。

与总样本相比，在FACS分类的亚群中检测到更多的核细胞质大DNA病毒科

虽然总病毒组保留了较高的病毒信号，但许多研究表明，在富集过程中NCLDVs已经丢失。在这里，我们检测了NCLDVs在FACS亚群和总病毒组中的相对丰度。在科水平上，与PST和SST相比，大多数NCLDVs在分类的亚群体中丰富，包括Phycodnaviridae、Poxviridae、Iridoviridae、Nyamiviridae和Mimiviridae(图3)。有五个科（Tectiviridae、Sphaerolipoviridae、Ascoviridae、Nyamiviridae和Flaviviridae）在PST和SST中都没有检测到，但在其分类的子种群样本中被识别出来（图S7）。乳头瘤病毒科和异疱疹病毒科在SST中未被检测到，但在S1-S5中被确认（图S7）。Ascoviridae（直径为130 nm，长度为200-400 nm）和Nyamiviridae（直径为100-130 nm）属于NCLDVs。这些结果是可以预期的，因为0.22 μm滤膜的过滤导致总病毒宏基因组中巨型病毒采样不足。S1中检测到Tectiviridae (66 nm，顶端尖刺20 nm)，S5中检测到Flaviviridae (直径40 - 60 nm)， P3中检测到Totiviridae(直径40 nm)(表S4)。由于S5和P3中的颗粒具有较大的散射尺寸，在这些亚群中检测到的Totiviridae和Flaviviridae可能是由于过滤和离心不足导致的病毒颗粒的聚集。有趣的是，与PST和SST相比，帚状病毒科和Alphaflexiviridae在分类后的丰度有所下降，这可能是由于它们的杆状结构，造成分类困难。此外，RNA病毒很脆弱，可能分类效率低（图3）。

图 3. 在所有样本中鉴定出的病毒类群的基因组大小(log10转化kbp)、病毒粒子大小(nm)和归一化丰度(每百万reads每千碱基contig 的 log10(RPKM + 1)转化计数) (DNA病毒家族用绿色表示，RNA病毒家族用黄色表示，侧边栏注释)。行居中；单位方差缩放应用于行。行使用相关距离和平均连接进行聚类:22行和11列。病毒粒子大小从ViralZone网站获得：www.expasy/org/viralzone，瑞士生物信息学研究所。病毒家族的选择基于两个标准：(1)它们是丰富的(log10(RPKM + 1) > 1.22)和(2)它们在每个样本之间具有对比性差异(STD为log10(RPKM + 1) > 1.32)。阈值计算方法如下：对于每个病毒科，对11个样本的log10(RPKM + 1)值取平均值，并从38个病毒科中计算平均值的中位数

目标分类的病毒组捕获了与Anabaena噬菌体有关的contigs，否则它们会在总病毒宏基因组中丢失

病毒宏基因组学阻碍了通过批量病毒富集程序和下游生物信息学分析恢复某些病毒。据推测，靶向排序病毒组将捕获原本在正常病毒宏基因组中丢失的病毒。因此，我们提取并关注那些在PST和SST中没有reads的contigs。为了捕捉高分辨率的病毒关联片段，将病毒关联片段的RPKM矩阵汇总到其最低分类级别，并在分类的亚群中进行聚类（图S8）。大多数病毒序列与Caudovirales以及感染大肠杆菌、假单胞菌、Erwinia、芽孢杆菌、志贺氏菌、弧菌、梭状芽孢杆菌和聚球菌的噬菌体密切相关(图S8)。还检测到了与其他感染宿主（如变形虫、藻类、鸟类、鱼类、无脊椎动物和反刍动物）的病毒有最佳比对率的序列。值得注意的是，P1最丰富的contig k141_468300（10136bp，与Anabaena噬菌体A-4L最佳匹配，26%的同一性，29%的查询覆盖率，94669个reads，表S5）在P1注释的病毒组中占20%以上，但在S1-S5、PST和SST的reads较少（<10个映射读数；表S5和图S9）。MetaSPAdes被用作一种替代的组装技术，以产生更完整的病毒基因组。随后用metaSPAdes组装的P1产生了46,094 bp的基因组，有49个开放阅读框（ORFs），与MEGAHIT（10,136 bp；图4A）相比，病毒基因组广度恢复提高了4.5倍。我们把这个contig命名为P1_MAG1，它在VirSorter2中被确定为第1类和dsDNA噬菌体（最大得分0.927）。Anabaena噬菌体的信号被注释在大多数ORF上。根据透射电子显微镜（TEM）的测定，P1亚类样品中的病毒数量大约为50 nm（图4B）。虽然P1的测序深度较深，达到1136X，但PST（1.2X）和SST（0.04X）的测序深度较低，使得在总病毒组水平上组装和鉴定该草案基因组具有挑战性(图4B)。因此，对亚群体进行分类可以在FACS宏基因组水平上而不是在整体病毒组水平上发现和动态研究该草案基因组。我们还进行了稀疏曲线分析，查看我们的测序深度是否足以覆盖整个病毒群中潜在的低丰度物种。接近平稳的稀疏曲线表明，我们的测序深度能够充分覆盖PST和SST样本的稀有物种(图S5)。因此，尽管我们使用了可用的参考基因组进行了reads招募分析，但深度测序可能并不一定能通过批量病毒宏基因组恢复罕见的contigs。类似的研究结果表明，即使测序深度增加10倍，基因组重建覆盖率也没有明显改善。因此，将FACS -宏基因组学方法与病毒宏基因组学相结合，为我们提供了一种在复杂环境中改善基因组重建的新方法。

讨论

最近，FACS已成功应用于病毒基因组学和宏基因组学表征，以弥合不同生态系统特别是海水和人类肠道微生物组中病毒学培养和病毒宏基因组学之间的知识鸿沟. 在之前的一项研究中，研究人员能够从1毫升海水中对多达三个亚群(每个亚群5000个颗粒)的dsDNA病毒进行排序和测序，以发现巨型病毒和其他相关的未培养病毒。在本研究中，我们进一步通过使用SYBR Gold染料四路和五路分选和染色颗粒，然后随机扩增DNA和RNA，在城市废水样本中同时获得了每个亚群中的200万个颗粒。高数量的分选颗粒将反映出复杂废水样品以及散装病毒组中病毒组分布更深层次表征分辨率的提高，展示了更精确和高通量的生态调查（特别是在捕获稀有物种方面）。

在PST、SST和FACS亚群体样本中观察到病毒组组成的显著差异，并有几种可能的解释。首先，用于PST和SST样本的批量病毒富集方法比FACS -宏基因组学样本更有可能去除非病毒部分并保留更高的病毒部分。传统的病毒组富集涉及序列信号的背景损耗，这不可避免地会引入有偏的病毒体覆盖度，特别是对于巨型病毒的损失。此外，环境DNA的复杂性将抑制序列扩增，导致不精确的病毒鉴定和定量。其次，病毒形态、核酸类型和病毒粒子大小的差异可以通过大小分级和荧光信号影响分选效率。例如，帚状病毒科 (单链RNA，长300 nm，直径20-25 nm)可能由于其杆状形态，从PST(>60%)到FACS亚群急剧减少，这反过来改变了病毒体群落分布模式。这种情况适用于Alphaflexiviridae (单链RNA, 470-800 nm长，12-13 nm直径)，它在散装病毒宏基因组中比在FACS亚群中更丰富。这些结果表明，病毒的三维性质是决定丰度分布的主要因素。

宏基因组组装对于病毒组数据来说尤其具有挑战性，通常会导致碎片化组装，不能呈现全部的病毒群落组成。虽然存在不同的算法和基因组组装程序，但在本研究中，我们使用具有“meta”选项的SPAdes，能够成功地在FACS亚群中从头组装高质量的Anabaena噬菌体基因组草稿，而这些草稿在散装病毒中是不能检测到的。将粒子分为具有相似的病毒粒大小、基因组大小或核酸数量的亚群体，可以减少复杂环境群落中的病毒物种丰富度，增加序列覆盖率，并改善基因组组装。与复杂的PST和SST样本(1.26X和0.04X)相比，罕见病毒(如Anabaena噬菌体)的平均基因组深度(1136X)在一些亚群中增加了约900 - 28,400倍，从而实现了接近完整的基因组组装。通过对病毒组进行物理拆分，可以获得较高的覆盖率，从而实现更大的病毒序列的组装，从而提高分类预测的准确性。结合病毒组和FACS耦合的宏基因组学将提供更广泛的粒子覆盖率。然而，同样在本研究中，所有组装体中都存在一个可避免的挑战，即种群内的毒株异质性阻碍了病毒组装。

宏基因组作为一种不依赖培养的方法，已被用于研究病毒在污水处理的生物生态过程中的作用，而低丰度的病毒信号可能无法检测到或检测深度不均匀。对于靶向和已知的病毒靶点，一些研究人员使用靶向测序来提供高深度的基因组流行病学信息区域；而对于未知的病毒靶点，除了深度测序技术外，还应该考虑一些其他上游处理技术，如本研究所述，使用FACS技术结合宏基因组学来深入了解种群。在我们的研究中，在总病毒体水平上比较PST和SST时，不同病毒科的相对丰度表明，在污水处理厂中，帚状病毒科、Astroviridae、Parvoviridae、Picobirnaviridae、Nodaviridae和Iridoviridae对MLE处理的敏感性高于Podovirridae、Siphovirridae、Circovirridae、Disctrovirridae、Herpesvirridae、Retrovirridae和Calicivirridae。在MLE过程中，病毒颗粒可能附着在有机颗粒上，或通过生物絮凝被生物絮凝物吸收。沉降过程中的生物絮凝体和有机颗粒沉淀物导致排出物中的病毒减少。病毒之间的物理化学差异可能导致一些病毒类群比其他病毒类群被更大程度地清除。尽管这不是预期的目的和设计，但这一过程是不可避免的，并作为MLE与沉降过程一起出现的一个无意的但有意义的结果。在FACS细分病毒体水平上，P1中检测到的最丰富的与噬藻体相关的病毒contigs (Anabaena 噬菌体 A-4L)在S1-S5中丰度较低，这表明在MLE过程中小型噬藻体可能被清除。因此，散装病毒宏基因组学和FACS宏基因组学的研究结果互补，有助于在更高分辨率水平上理解生态系统动力学和废水处理过程的内在机制，特别是了解不同大小和绿色荧光信号下的病毒结构变化。FACS方法与本研究中使用的随机扩增方法相结合，提供了一种潜在的强大的新方法，可以选择性地富集和并从基因水平表征罕见和潜在的新型病毒。

局限性

虽然我们已经证明并描述了FACS在提高种群结构分辨率方面的效用，但我们的研究存在一些局限性。使用QIAmp病毒RNA迷你试剂盒提取样本中的基因组DNA和RNA。虽然在本研究中没有评估DNA病毒的回收率，但QIAamp病毒RNA迷你试剂盒已被普遍用于恢复DNA和RNA病毒病原体。此外，一项早期研究报告称，QIAamp RNA提取试剂盒在四种不同的商业试剂盒中均能很好地回收呼吸道临床样本中的DNA病毒(腺病毒)和RNA病毒(流感病毒A[包膜单链，分节段RNA病毒]，人冠状病毒OC43[包膜正链RNA病毒]和人偏肺病毒[包膜负链RNA病毒])。尽管如此，还需要进一步的研究更广泛的DNA和RNA病毒的提取效率，以指导提取试剂盒的选择。此外，FACS也有一定的局限性。在本研究中，Virgavirridae和Alphaflexivridae的RPKM在分选后有所下降，说明由于这两个RNA病毒科具有典型的杆状结构，因此FACS可能对病毒粒子结构和核酸类型存在偏向。进一步的研究应评估和优化FACS的特异性。如前文所述，PST中恢复了人星形病毒、腺病毒和crAssphage的contigs(表S7和图S10和图S11)；然而，在亚群体中未检测到它们。一个可能的原因可能是它们的尺寸较小(MS2, 27 nm；Qbeta, 28 nm；星状病毒(33nm)不会产生强烈的SYBR Gold信号。因此，可能无法从背景噪声中区分出这个小的ssRNA基因组。值得注意的是，微病毒科(30纳米，二十面体)在亚群体中被检测到(P1-P4和S1-S5中有24个contigs)，尽管大多数contigs被映射到总病毒样本中(PST和SST中有4418个contigs)。同样，在(P1-P4和S1-S5)亚群体中检测到一个属于圆环病毒科(17 nm，二十面体)的contig，而39个contig被映射到总病毒样本中。最近的研究表明，通过SSC筛选直径50-60 nm的lambda噬菌体是可行的。然而，在分类后的亚群体中，腺病毒(100nm)和crAssphage (头部大小76.5nm)的缺失值得特别关注，需要进一步研究。一种可能的解释可能是，在未经过0.22μm大小过滤的分类亚群中随机放大会降低病毒的信噪比。因此，在未来的研究中，我们建议在病毒粒子结构、病毒粒子大小、单链或双链病毒以及病毒聚集的基础上优化FACS。在随机扩增之前，可以采用一些简单有效的步骤，如DNase处理和大小过滤来提高病毒扩增的效果。可以开发更有效的的核酸染色染料，以提高检测特别小的病毒粒子尺寸的染色敏感性，特别是在临床环境中。此外，为了提高统计稳定性和过程控制，建议采用更大的样本量，包括没有任何预先病毒富集处理的进水和出水样品，以优化FACS方法，并调查病毒分类和系统中的功能。

结论

病毒在生物地球化学循环和微生物生态系统中发挥着重要作用。利用高分辨率方法，结合宏基因组测序和严格的病毒识别标准，评估病毒种群动态的模式和变化，可以改进对病毒的检测，特别是对公共卫生构成重大威胁的与人类有关的病毒。在这里，我们使用PST和SST样本，展示了结合FACS和宏基因组学在城市污水处理厂MLE前和MLE后阶段提供更全面的病毒了解方面的效用。我们将总病毒宏基因组学与FACS偶联宏基因组学进行了比较，发现后者产生的一组病毒与来自常规样本的病毒明显不同。值得注意的是，更多的NCLDVs和Anabaena噬菌体是通过FACS鉴定的，而不是通过批量病毒宏基因组学鉴定的。事实上，FACS能够恢复后者46 kbp的高质量单contig病毒基因组。此外，我们比较了MLE前和MLE后的大量样本，并确定了对MLE易感的病毒种群，特别是人类病毒和crAssphage，以及其他不易感的病毒(Podoviridae、Siphoviridae、Circoviridae、Disctroviridae、Herpesviridae、Retroviridae和Caliciviridae)。总的来说，这篇论文证明了FACS耦合宏基因组学如何通过提高复杂环境基质中病毒结构变化的分辨率来补充批量病毒宏基因组学。

方法

废水取样

从PST和SST污水中各采集了两个废水样本，采样量分别为5L和60L。采样工作于2017年6月7日在新加坡的一个污水处理厂进行，并在2小时内用两个高压灭菌过的无菌容器运送到实验室。WWTP系统的示意图以及PST和SST的功能详见图1A。

PST和SST废水样品中病毒的富集和纯化

在本研究中，对病毒的富集和纯化进行了一级和二级浓缩。在一级浓缩过程中，5 L PST和60 L SST样品立即用中空纤维过滤装置(Hemoflow Fresenius HF 80S)浓缩(0.1 g焦磷酸钠和20 μl Antiform ，1 L纳米纯水)洗脱缓冲液，最终体积为400 ml原液。在二级浓缩过程中，按照我们以前的操作，使用PEG沉淀（Sigma Aldrich）、氯仿（Sigma-Aldrich）处理、0.22μm无菌注射器尺寸过滤（Sartorius）和Amicon Ultra-15离心过滤（Merck Millipore；附件A）进一步浓缩200毫升的初级浓缩废水。浓缩后，在核酸提取前，使用RQ1 RNase‐free试剂盒（Promega）进行DNase处理。

荧光激活细胞分选

使用过滤网（孔径为60 nm；Sefar）对来自PST和SST的1mL原废水进行预过滤，以去除大颗粒。滤液用0.5%戊二醛（Sigma-Aldrich；最终浓度）在室温下固定2小时，然后在4℃下再固定15分钟，在液氮中速冻5分钟，最后储存在-80℃，直到分选。固定废水样品在冰上解冻，用三氨基甲烷乙二胺四乙酸缓冲液(pH 8.0，生物技术级)稀释100倍。稀释后的废水样品用DNase(工作浓度为0.1 U/μl，赛默飞)在37℃下处理30分钟，去除剩余的游离DNA，然后用SYBR Gold (1×终浓度，赛默飞)在80℃黑暗中染色10分钟，然后在室温下冷却5分钟，如前所述。病毒亚群的分选是由MoFlo Astrios EQ流式细胞仪（Beckman Coulter）进行的。废水样品在25 psi下进行分析和分选，基于SSC和绿色荧光信号(激发，488 nm;发射，513 nm)，异硫氰酸荧光素(FITC)的阈值设置为103。实验中使用0.5‐μm校准珠(赛默飞)作为阳性对照。在SSC和FITC信号的基础上，对PST样品的4个亚群和SST样品的5个亚群分别进行了四路和五路纯化模式分选（中止率<10%）。每个亚群的大约200万个颗粒被分拣到50毫升的试管中，进行病毒基因组提取和测序。所有分选物在相同条件下重新分析，每个亚群的纯度必须>95%（样品纯度=仍在亚群内的颗粒/所有颗粒×100）。

在应用于当前研究的样本之前，FACS方法已经用从当地污水处理厂收集的污水样本和从新加坡实龙岗水库分离出的嗜蓝藻病毒PA-SR01进行了验证。结果显示，该方法具有相对较高的精度，污水样品中五个亚群的相对STD范围为4.0%至11.5%，对嗜蓝细胞的相对STD范围为3.6%（表S1）。

核酸提取、随机扩增和测序

对PST、SST病毒富集样品和9个FACS亚群（P1-P4选自未处理的PST样品，S1-S5选自未处理的SST样品）进行裂解，并使用QIAmp Viral RNA mini试剂盒（Qiagen）提取DNA和RNA基因组。提取的RNA被反向转录为cDNA，DNA和cDNA都按照以前的随机扩增方案进行扩增，并做了少量修改。简单地说，随机扩增包括逆转录酶(RT)、二次合成和聚合酶链反应(PCR)扩增步骤。在RT步骤中，将5 μl提取的RNA与1 μl 40 pmol/μl引物A(5 '‐GTT TCC CAG TCA CGA TAN NNN NNN NN)和4 μl焦碳酸二乙酯(DEPC)‐处理过的水(Invitrogen)混合，在65 ℃下培养5 min, 4 ℃培养5 min。然后，在混合液中加入由4 μl 5× SuperScript III RT缓冲液(Invitrogen)、1 μl 10 mM脱氧核苷三磷酸盐(Promega)、1 μl RNAseOUT重组核糖核酸酶抑制剂(Invitrogen)、0.5 μl DEPC‐处理水、1.5 μl 0.1 M二硫苏糖醇(Invitrogen)和2 μl SuperScript III RT (Invitrogen)组成的10 μl母液。然后将混合物在42℃培养60 min。利用Sequenase (Affymetrix)执行cDNA合成。添加引物B(5′‐GTT TCC CAG TCA CGA TA)，随机扩增6 μl引物cDNA，在以下热环境下进行40次PCR扩增: 94°C 30 s, 40°C 30 s, 50°C 30 s, 72°C 60 s(附件B)。为确保核酸提取和随机扩增步骤无污染，在1%琼脂糖凝胶上进行阴性对照，以确认阴性对照通道内未检测到DNA信号。使用Wizard SV凝胶和PCR清除系统(Promega)对扩增材料进行纯化，并使用Qubit 3.0荧光仪(赛默飞)进行定量，以达到测序质量标准。

在新加坡环境生命科学工程中心共对11个样品(不包括阴性对照样品)进行了测序。使用Illumina TruSeq Nano DNA Library kit建库。按照前面描述的方法制备具有相应插入大小和接头的测序库。然后在Illumina Hiseq 2500测序仪上，以最终浓度为10 pM、读长为250 bp的双端（V2测序试剂）的快速模式，将这些文库汇集起来，在两个通道上进行测序（阴性对照文库除外）。

病毒的处理和定量

使用BBtools (v38.22，详细信息见https://jgi.doe.gov/dataand-tools/bbtools/)对序列进行质量过滤，以修剪接头、低质量reads和“引物B”序列，这些序列用于随机扩增过程和Phix读取。然后使用MEGAHIT（v1.1.2）对从总群和FACS亚群中产生的所有宏基因组reads进行联合组装，最小contig长度为1000bp。使用Prodigal（2.6.3，meta模式）提取ORFs。Bowtie2(v2.2.6)使用默认参数将reads映射到contigs。如前所述，使用Python脚本对等位基因组长度和宏基因组大小进行归一化，以计算RPKM。

病毒的分类

预测的ORFs首先使用默认参数（除了E-value为1E - 5）Diamond (v0.8.22.84)对NCBI非冗余蛋白数据库(2017年12月更新)进行BLASTP搜索。使用Megan 6通过LCA算法分配分类，阈值为1E‐5，bit score为50。一般来说，LCA算法将reads或contigs分配给反映序列保守程度的分类群。我们发现，在一些FACS亚群中，特别是那些具有较大尺寸的亚群，非病毒特征经常被污染 (例如，细菌和真核生物）。因此，采用一种硅方法，首先过滤掉隶属于细菌、真核生物和古细菌的contigs（BLASTP比对NCBI nr数据库，1E-5，Megan LCA分类）。剩余的contigs用BLASTP搜索，对照NCBI病毒RefSeq数据库（2017年12月更新）。同时，所有从MEGAHIT组装的contigs（>1 kb）也用VirFinder（V1.0.3,p < 0.01）和VirSorter（V1.0.3，Cat 1和2）按照以前的参数设置进行注释。此外，对于每个FACS亚群中最丰富的contigs（阈值设置：>3%已知病毒序列的reads），对NCBI nt和NCBI nr数据库进行BLASTN和BLASTX搜索，注释contig序列的核苷酸和蛋白质，E值设定为1E-5。为了注释与人类相关的contigs，所有组装的contigs都要对照人类病毒病原体数据库（https://www. ncbi.nlm.nih.gov/genomes/GenomesGroup.cgi，按宿主组过滤关键词 "人类"，2020年5月下载，有12181种完整的病毒RefSeq基因型）进行BLASTN搜索。截止查询覆盖率设置为60%，手动筛选75%的BLASTN一致性和注释结果，以删除非人类相关的病毒。

病毒α -多样性和β -多样性

在MacQIIME(版本1.9.1)中使用稀疏绝对读数矩阵(每个样品的每个contig对应的非归一化读数矩阵)计算α‐多样性和稀疏度曲线。为了计算与分类注释病毒相关的α -多样性指标(即“观察到的物种”和“Shannon多样性指数”)，选择相应的contigs，并将绝对读数矩阵细化到每个样本的124,811 读数(最小样品量)。同时，为了计算与VirFinder和VirSorter关联病毒相关的α‐多样性，从提纯矩阵中选择相应的contigs，绝对reads矩阵提纯到每个样本426,969 reads(最小样本容量)。

基于Bray-Curtis相似距离在PRIMERv7中进行PCoA分析。在PCoA分析之前，使用log10(x + 1)函数对分类附属contigs和VirFinder和VirSorter病毒的RPKM进行转换。采用PERMANOVA+对分选处理下的病毒群落组成进行多变量分析。

热图聚类

为了构建每个样本中确定的科和contigs丰度的热图，RPKM值使用log10(x+1)转换进行归一化，并使用ClustVis进行绘制。皮尔逊相关法被用来计算不同病毒科之间的距离矩阵。

P1亚群的病毒组分析

从总病毒宏基因组中读取的reads被映射到注释的病毒基因组中。MetaSPAdes (v3.15.3)由于其在不同组装程序上具有良好的病毒体组装性能，被用于组装P1中的reads。鉴于可用的随机存取存储器资源有限，我们对P1亚病毒组进行了子采样，测序深度为800万和400万正向和反向reads（相当于原始reads的36%和18%）。之后，在CheckV中运行过滤后的contigs，以评估宏基因组组装的病毒基因组的质量和完整性，并再次用VirSorter2确认。然后用DRAMv来识别和注释病毒contigs。总病毒宏基因组(PST和SST)和P1的reads被映射到注释的组装病毒基因组上。

P1亚群的透射电镜

使用100kDa分子量的超滤离心管（Amicon Ultra-15 Centrifugal Filter Units; Millipore）将分选的颗粒浓缩约100倍，然后在TEM下观察。为了准备TEM样品，将20微升浓缩的样品放在200目碳涂层的铜网上，10分钟后用滤纸从铜网的侧面吸去多余的液体。用20 μl三乙酸钆(1% wt/wt)负染网格1 min，用滤纸从网格一侧吸去多余的污渍。网格放置在黑暗中，在室温下完全干燥，然后在JOEL JEM‐2100F TEM下观察。

统计分析

使用GraphPad Prism 8.4.0版（GraphPad软件）进行Kruskal-Wallis检验和Mann-Whitney检验的统计学检验。

引文格式：

Xiaoqiong Gu, Yi Yang, Feijian Mao, Wei Lin Lee, Federica Armas, Fang You, David M. Needham, Charmaine Ng, Hongjie Chen, Franciscus Chandra, Karina Yew-Hoong Gin. 2022. “A comparative study of flow cytometry‐sorted communities and shotgun viral metagenomics in a Singapore municipal wastewater treatment plant.” iMeta 1, e39. https://doi.org/10.1002/imt2.39

顾晓琼（第一作者）

● 新加坡麻省理工科研技术学院

● 在Water Research、ESTL、AEM、mSystems等期刊合作发表论文20余篇，被引近千余次。研究重点是使用高通量测序数据（扩增子、全基因组学和宏基因组学）对人体肠道和环境微生物进行组学分析。通过生物信息学分析、数据挖掘，提出和解答肠道微生物和肠道疾病相关性的问题，转化临床应用科学成果；建立污水病毒的监测方法，是世界上最早成功检测污水中 SARS-CoV-2 的少数团队之一。相关科研成果报道在Straits Times和MIT Technology Review得到广泛关注。

Gin Yew-Hoong, Karina（通讯作者）

● 新加坡国立大学副教授

● 于 1988 年获得墨尔本大学土木工程学士学位，1991 年获得新加坡国立大学工学硕士学位，1996年获得麻省理工学院和伍兹霍尔海洋研究所联合颁发的理学博士学位。研究方向为水质、新兴污染物的归宿和迁移以及生态系统过程。她是Faculty of Engineering (NUS) (2017-2019)研究项目首席研究员，并获得了工程学院 (NUS) 院长奖 (2017-2019); The Environment in Asia Pacific Harbours的合著者，该书获得了联合国海洋地图集奖（2006 年）; Environment Innovation & Technology 的副主编（自 2021 年 12 月起）和 Journal of Hazardous Materials Letters 的编辑委员会成员。Scholar google文章引用10000余次，H指数51

更多推荐

（▼ 点击跳转）

高引文章 ▸▸▸▸

iMeta | 德国国家肿瘤中心顾祖光发表复杂热图(ComplexHeatmap)可视化方法

▸▸▸▸

iMeta | 浙大倪艳组MetOrigin实现代谢物溯源和肠道微生物组与代谢组整合分析

▸▸▸▸

iMeta | 高颜值绘图网站imageGP+视频教程合集

第1卷第1期

第1卷第2期

第1卷第3期

第1卷第4期

期刊简介

“iMeta” 是由威立、肠菌分会和本领域数百位华人科学家合作出版的开放获取期刊，主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表原创研究、方法和综述以促进宏基因组学、微生物组和生物信息学发展。目标是发表前10%(IF > 15)的高影响力论文。期刊特色包括视频投稿、可重复分析、图片打磨、青年编委、前3年免出版费、50万用户的社交媒体宣传等。2022年2月正式创刊发行！

联系我们

iMeta主页：http://www.imeta.science

出版社：https://onlinelibrary.wiley.com/journal/2770596x
投稿：https://mc.manuscriptcentral.com/imeta
邮箱：office@imeta.science

这篇关于iMeta | 新加坡城市污水处理厂中流式细胞仪分类群落和鸟枪法病毒宏基因组学的比较研究...的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！