java fit 16s,科学网—16s rRNA分析流程和工具的介绍 - 肖斌的博文

2023-12-28 04:20

本文主要是介绍java fit 16s,科学网—16s rRNA分析流程和工具的介绍 - 肖斌的博文,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

“split_libraries.py” 和“split_libraries_fastq.py”实现数据拆分和数据过滤的双重目的。Mothur利用“Trim.seqs”。不过QIIME和Mothur都不能直接处理sff文件(454下机产生的数据格式),不过可各自利用“process_sff.py”和Sffinfo将sff格式转换为FASTA和QUAL文件。

数据过滤考虑的参数有:minimum average quality score allowed in a read、maximum number of ambiguous bases allowed、minimum and maximum sequence length、maximum length of homopolymer allowed、maximum mismatches inprimer or barcode allowed、whether to truncate reverse primer, and so on.

(2)Denoise and chimera checking

16s建库的pcr过程、测序过程均会导致序列出现错误,在分析过程过程中需要有效排除这种错误。测序误差矫正常用的工具有Denoiser(implemented in QIIME)、AmpliconNoise、Acacia、Pre.cluster(implemented in Mothur)。嵌合体查找的工具有ChimeraSlayer、UCHIME、Persus、DECIPHER,ChimeraSlayer、UCHIME、Persus在mothur中均可调用。在这些工具中,存在有待于优化的问题(these different methods often disagree with one another on the list of identified chimeras,probably because of their different mechanisms or algorithms. More efforts are required to evaluate these methods and coordinate their inconsistencies in chimera identification.)

328d5170a2a19271a5e955cef593521f.png

在分析中有个关于古细菌序列的情况需要注意:a very small proportion of archaeal sequences may be generated for 16S rRNA gene amplicon datasets amplified with bacteria-specific primers. These unexpected sequences should be identified after denoising and chimeraremoval, and are advised to be discarded before subsequent data normalization.

(3)Data normalization

测序深度不理想和不均匀的话会对alpha多样性及beta多样性均有影响。Uneven sequencing depth can affect diversity estimates in a single sample (i.e.,alpha diversity), as well as comparisons across different samples (i.e., beta diversity), thus data normalization is required. 对于此问题有两种处理策略,分别是relative abundance and random sampling (i.e., rarefaction),in addition, z-score亦用于normalization的过程中。但不同的方法均会有缺点。

(4)Picking OTUs and representative sequences

OTU的界定主要根据序列的一致性进行,(The OTUs are picked based on sequence identity, and various identity cutoffs of 16S rRNA gene have been used for different taxonomic ranks. For example, identity cutoffs recommended by MEGAN are 99 % for species, 97 % for genus,95 % for family, and 90 % for order level, respectively)。OTU界定时选择的工具与算法对后期分析有很大影响(The OTU picking strategy and algorithms have significant effects in the downstream data interpretation. )根据分析过程中是否使用数据库,OTU界定的策略可分为de novo、closed reference和open reference。在  OTU界定中有很多聚类的方法,There are many clustering or alignment tools available for OTU picking, such as Uclust, cd-hit, BLAST, mothur, usearch, and prefix/suffix. These tools are implemented in QIIME. Among them, the mothur method contains three clustering algorithms to pick de novo OTUs, namely, nearest neighbor, furthest neighbor, or average neighbor. 当序列聚类好后,代表了一个OTU,接下来就是从这个OTU找到代表序列,一种做法是a representative sequence can be a random, the longest, the most abundant(as default in QIIME), 另一种操作方法是the first sequence in an OTU cluster.  还有一种策略是the distance method in mothur identifies the   sequence with the smallest maximum distance to the other sequences as the representative sequence.

(5)Taxonomic assignment

taxonomic assignment的策略有:(1)word match,如RDP classfier,(2)best hit,(3)Lowest Common Ancestor,如MEGAN、SINA Alignment Service.

(6)Phylogenetic analysis

Phylogenetic relationships一般可以用树来表示,phylogenetic relationships主要是通过序列比对来实现的,序列比对的工具有ClustalW, MUSCLE, Clustal Omega, Kalign, T-COFFEE, COBLAT和FastTree. 目前针对16s rRNA NGS数据的分析工具都可以实现,如MEGA,RAxML,MRBAYES,PhyML,TreeView,Clearcut,FitTree. 其中RAxMLand PhyML are the most widely used programs for maximum-likelihood phylogenetic analysis, probably because they are specifically designed and optimized for such purpose.

(7)Alpha- and beta-diversity analyses

alpha多样性有众多指标可以表示,在mothur中有Shannon, Berger-Parker,Simpson, Q statistic; observed richness, Chao1, ACE, and jackknife。而在QIIME中,有phylogenetic diversity (PD)-whole tree, chao1, and observed species.

还有一种物种丰度的比较方法:rarefaction curve. QIIME中主要用“single_rarefaction.py”、 “multiple_rarefaction.py”,在mothur中主要用“Rarefaction.single”和“Rarefaction.shared”.

beta多样性计算主要反映不同样本之间的差异度,several distance metrics, such as Unifrac, Bray-Curtis, Euclidean,Jaccard index, Yue & Clayton, and Morisita-Horn, have been often employed. beta多样性计算根据是否考虑OTU的相对丰度,可分为定量指数和定性指数。

(8)Statistical and network analysis

在Two-sample/group中,多考虑t-test。在其中需要注意,Particularly for independent two-samplet-test, independence and equal variances (which canbe tested by F-test, Levene’s test, etc.) of two populations arerequired. In the case of non-normal distribution of data sets,nonparametric two-sample tests robust to data non-normality,such as Wilcoxon signed-rank test, and Mann-Whitney U testare applicable for significance testing of difference betweengroup medians.

在Multiple-sample/group tests中,ANOVA。

(9)Clustering and classification

clustering可以分析样品之间的亲疏关系。classfication的策略用来对样品进行类别判定。

(10)Ordination analysis

在样本的相似度和距离计算完后,可以利用principal component analysis (PCA), principal coordinates analysis(PCoA, also known as metric multidimensional scaling), Nonmetric multidimensional scaling (NMDS), canonical correspondence analysis (CCA), linear discriminantanalysis (LDA), and redundancy analysis (RDA)等构建样本间的关系。

(11)Network-based modeling

与基因表达、代谢分子、蛋白等数据一起分析共表达网路或者共表达模式(co-occurrence and co-exclusion patterns)

参考文章:JuF,ZhangT.16srRNAgenehigh throughputsequencingdataminingofmicrobiotadiversityandinteractions,ApplMicrobiolBiotechnol.2015,99(10):4119-4129

这篇关于java fit 16s,科学网—16s rRNA分析流程和工具的介绍 - 肖斌的博文的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/545055

相关文章

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

JAVA系统中Spring Boot应用程序的配置文件application.yml使用详解

《JAVA系统中SpringBoot应用程序的配置文件application.yml使用详解》:本文主要介绍JAVA系统中SpringBoot应用程序的配置文件application.yml的... 目录文件路径文件内容解释1. Server 配置2. Spring 配置3. Logging 配置4. Ma

Java 字符数组转字符串的常用方法

《Java字符数组转字符串的常用方法》文章总结了在Java中将字符数组转换为字符串的几种常用方法,包括使用String构造函数、String.valueOf()方法、StringBuilder以及A... 目录1. 使用String构造函数1.1 基本转换方法1.2 注意事项2. 使用String.valu

基于Python开发电脑定时关机工具

《基于Python开发电脑定时关机工具》这篇文章主要为大家详细介绍了如何基于Python开发一个电脑定时关机工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 简介2. 运行效果3. 相关源码1. 简介这个程序就像一个“忠实的管家”,帮你按时关掉电脑,而且全程不需要你多做

java脚本使用不同版本jdk的说明介绍

《java脚本使用不同版本jdk的说明介绍》本文介绍了在Java中执行JavaScript脚本的几种方式,包括使用ScriptEngine、Nashorn和GraalVM,ScriptEngine适用... 目录Java脚本使用不同版本jdk的说明1.使用ScriptEngine执行javascript2.

Spring MVC如何设置响应

《SpringMVC如何设置响应》本文介绍了如何在Spring框架中设置响应,并通过不同的注解返回静态页面、HTML片段和JSON数据,此外,还讲解了如何设置响应的状态码和Header... 目录1. 返回静态页面1.1 Spring 默认扫描路径1.2 @RestController2. 返回 html2

Spring常见错误之Web嵌套对象校验失效解决办法

《Spring常见错误之Web嵌套对象校验失效解决办法》:本文主要介绍Spring常见错误之Web嵌套对象校验失效解决的相关资料,通过在Phone对象上添加@Valid注解,问题得以解决,需要的朋... 目录问题复现案例解析问题修正总结  问题复现当开发一个学籍管理系统时,我们会提供了一个 API 接口去

Java操作ElasticSearch的实例详解

《Java操作ElasticSearch的实例详解》Elasticsearch是一个分布式的搜索和分析引擎,广泛用于全文搜索、日志分析等场景,本文将介绍如何在Java应用中使用Elastics... 目录简介环境准备1. 安装 Elasticsearch2. 添加依赖连接 Elasticsearch1. 创

Spring核心思想之浅谈IoC容器与依赖倒置(DI)

《Spring核心思想之浅谈IoC容器与依赖倒置(DI)》文章介绍了Spring的IoC和DI机制,以及MyBatis的动态代理,通过注解和反射,Spring能够自动管理对象的创建和依赖注入,而MyB... 目录一、控制反转 IoC二、依赖倒置 DI1. 详细概念2. Spring 中 DI 的实现原理三、