16S 基础知识、分析工具和分析流程详解

本文主要是介绍16S 基础知识、分析工具和分析流程详解，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

工作中有个真理：如果你连自己所做的工作的来龙去脉都讲不清楚，那你是绝对不可能把这份工作做好的。

这适用于任何行业。如果你支支吾吾，讲不清楚，那么说难听点，你在混日子，没有静下心来工作。

检验标准：随时向别人解释你的工作，让别人提出尖锐的问题，看你是不是答不上来。

16S概念

什么是16S？S是什么意思？
16S分析是用来干嘛的？能分析什么？
16S大致的分析原理是什么？

有点生物学基础的会知道16S和核糖体有关，但大多数还是搞不清楚它们之间的关系。

先明确一些概念：

核糖体：Ribosome，由 RNA(rRNA）和蛋白质组成，配合 tRNA 来翻译 mRNA。核糖体按沉降系数来分类，S就是沉降系数，原核70S，真核80S。我们一般研究微生物，70S，由50S和30S两个亚基组成。再细分为 5S、16S、23S，我们的 16S 就是指核糖体的亚基的一个组分，16S rRNA。（记住，这是原核生物核糖体的一个组分）

16S rRNA：这并不是我们的研究对象，因为我们测序的不是它，而是它对应在DNA双链上的基因序列，

16S rDNA。可以这样理解，我们所说的16S 就是指 16S rDNA。

分子钟：即氨基酸在单位时间以同样的速度进行置换。16S 的进化具有良好的时钟性质，在结构与功能上具有高度的保守性，在大多数原核生物中rDNA都具有多个拷贝，5S、16S、23S rDNA的拷贝数相同。16S rDNA由于大小适中，约1.5Kb左右，既能体现不同菌属之间的差异，又能利用测序技术较容易地得到其序列，故被细菌学家和分类学家接受。（来源百度）

所以，16S测序的大致逻辑就是：

拿到一个样品，我们捕获其16S区域（引物PCR），然后测序，16S既然有极好的保守性，那就可以用于鉴别不同的物种（相当于一个物种的独一无二的条形码）（有很大一部分是鉴定不到物种的）。

分析逻辑就是聚类成OTU，然后注释（比对已知数据库），后续分析。

偶然看到一篇好的科普文，转载一下：来自伯豪生物

1、16S

通常所说的16S是指16S rDNA（或16S rRNA），16S rRNA 基因是编码原核生物核糖体小亚基的基因，长度约1542bp，包括9个可变区和10个保守区，保守区序列反映了物种间的亲缘关系，而可变区序列则能反映物种间的差异。

因16S rDNA分子大小适中，突变率小，故成为细菌系统发育和分类鉴定最常用的标签。

16S测序是指选择16S rDNA某个或某几个变异区域，选择通用引物对环境样本（肠道、土壤、水体等）微生物进行PCR扩增，然后对PCR产物进行高通量测序，并将得到的测序数据与已有的16S rDNA数据库进行比对分析，从而对环境群落多样性进行研究，核心是物种分析，包括微生物的种类，不同种类间的相对丰度，不同分组间的物种差异以及系统进化等。

16S rDNA序列结构

2、OTU

OTU即Operational Taxonomic Units的缩写（千万表手滑写成OUT，否则就OUT了），在系统发生学或群体遗传学研究中，为了便于进行分析，人为给某一个分类单元（品系，属，种、分组等）设置的同一标志。理论上一个OTU代表一个微生物物种。

通过测序获得的大量reads，如何才能转变为我们需要的物种信息呢？首先需要对这些reads进行归类（cluster），通常在97%的相似水平划分为不同的OTU，将OTU代表序列与相应的微生物数据库比对（Silva、RDP、Greengene等），得到每个样本所含的物种信息，进而进行后续生物信息统计分析。