转座子的鉴定

2024-02-29 19:50
文章标签 鉴定 转座子

本文主要是介绍转座子的鉴定,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.鉴定

将转座子鉴别和注释的方法分为3大类:

①从头算法;

②基于同源性的方法 ;

③联合算法。

其中,从头算法又包括基于基因组序列比对的方法、K—mer方法和基于结构特征的方法 ;

基于同源性的方法包括基于同源序列比对的方法和基于隐马尔柯夫模型(HMM)的方法。

不同的算法实现的目标有所不同,如从头算法主要是为了发现新的转座子 ,因此常用来在新测序的基因组中鉴别新的转座子 ,而多数基于同源性算法的软件主要被用来注释基因组中的转座子。

从头( De novo ) 算法
  • 从头算法鉴别转座子的原理是基于转座子的重复特征,该算法可在不借助任何转座子数据库的情况下查找到几乎所有类型的转座子。优点:算法主要用于发现新的、未注释的转座子家族, 对于高频出现的转座子鉴别尤其有效。缺点:计算量大。另外, 由于从头算法是基于用一个转座子的拷贝数来定义重复家族, 这样低拷贝数的转座子可能被忽略掉。根据算法原理的不同, 从头算法又包括基于基因组序列比对的方法、K-mer 方法和基于结构特征的方法。

  • 基于基因组序列比对的方法基于序列相似性,该方法利用 BLAST 等软件将基因组与基因组进行比对, 然后将双序列比对的结果转换成多序列比对, 最后用聚类方法将相关序列聚成家族,从而得到重复序列( 包括转座子) 家族。代表:RECON

  • K-mer 方法。 该类从头算法检索重复出现的定长 Kmer 种子( 序列短串) , 然后再将它扩展为更长的序列。代表:RepeatScout。软件首先在未知的基因组序列中计算出所有定长 K-mer 种子出现的频率, 再选择出最高频率的 K-mer 种子及其周围区域的序列, 一次一个碱基向两边扩展, 每次生成一条具有代表性 K-mer 重复家族的共有序列。然后调整已出现过的 K-mer 频率数, 再选择出包括调整过的最高频率 K-mer 及其周围区域序列, 扩展并产生共有序列,直到最高频率到达所设定的最小阈值结束, 这样就得到了这一基因组的转座子家族。RepeatScout与 RECON 相比, 所得到结果更加准确,而且敏感度和运行速度都有很大的提高。其他使用 K-mer 方法的软件还有RepeatFinder等。

  • 基于结构特征的算法。 转座子中 LTR 逆转录转座子、SINE、微型反向重复转座元件( MITE) 、Helitron 等都具有较明显的特征, 基于结构特征的算法可根据这些特征对这些转座子进行鉴别。代表:LTR_STRUC,LTR_FINDER,LTRharvest ,LTRdigest。LTR_finder 和 LTRharvest 是目前为止鉴定 LTR 最敏感的程序,但假阳性依然很高。

基于同源性的算法
  • 基于同源性的算法是将一条未知序列与已知的转座子序列或序列特征模型进行比较,从而鉴别转座子的一类方法。根据同源序列比较方法的不同, 基于同源性的方法又可分为基于同源序列比对的算法和基于 HMM 的算法 2 类。
  • 基于同源序列比对的算法。该类算法与从头算法中的基于基因组序列比对的方法都是使用 BLAST 等工具来发现序列相似性, 但与后者不同的是, 基于同源序列比对的方法是将未知序列与数据库中的转座子序列进行比较来鉴别转座子。转座子数据库可使用公共数据库 Repbase, 但现在自己物种的研究,基本都是通过当前的全基因组序列,训练重复序列集构建本地repeat library,再通过RepeatMasker注释重复序列。其中,与RepeatMasker配套的RepeatModeler,可以实现。
    代表:RepeatMasker。RepeatMasker 利用 BLAST 工具在转座子数据库(Repbase或者自己构建的repeat library)中比对查找已知的重复因子家族, 是目前基因组转座子注释最常用的软件。
  • 基于 HMM 的算法。中文论述见 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFD2013&filename=AHNY201308003&uniplatform=NZKPT&v=%25mmd2Fe0g9nSKUuUK1GjQz6eD4Op0avSl%25mmd2BYGyQTsPxiKcx27YQ9yw%25mmd2FVAPSWnHERxDx8gt
数据库
  • RepBase Update (https://www.girinst.org/repbase/update/) 是检索真核生物基因组中各类移动元件/转座元件共有序列集的最常用的数据库之一。数据库旨在给出每一类TE家族的共有序列和代表型元件类型。它将转座元件分为三类:DNA转座子,LTR逆转录转座子(Long Terminal Repeat Retrotransposons)和non-LTR逆转录转座子。
  • Dfam是一个较RepBase更“年轻”的真核生物TE-centric数据库,这个数据库更正式地定义了转座元件,并且将共有序列一样的转座元件形成一个“集合”,利用隐马尔可夫模型(hidden Markov models)来进行多序列比对(multiple sequence alignments)。
  • TREP,一个可用于研究植物和真菌中转座元件的数据库。这个存储库有两个子库,一个包含不同TE元件子类的共有序列(nrTREP),另一个包含单个插入的TE元件的完整序列(total_TREP);同时这个存储库中还有一个数据库是对那些插入序列进行蛋白预测的(PTREP)。
  • P-MITE是一个植物特有的数据库,其中MITErepdb主要包含共有序列信息,而MITEdb主要用于注释41种植物基因组中的各个微型倒置重复转座元件(miniature inverted repeat TE, MITE)。
  • RiTE是特别用于水稻及其相关物种基因组中重复元件研究的数据库,这个数据库中包含水稻基因组中全部转座元件的序列,共有序列以及单个转座子在参考基因组中的插入信息。
  • MASiVEdb数据库包含和RiTE差不多的信息,只是MASiVEdb包含更多的植物物种的转座子注释信息。
  • 还有一些数据库是对那些插入到基因组上各基因的编码区的转座元件做汇总,包括TranspoGene, HESAS, 以及LINE FUSION GENES。
  • RepeatExplorer database (REXdb):https://link.springer.com/article/10.1186/s13100-018-0144-1 REXdb根据来自于80个植物物种保守的多蛋白结构域,将Copia和Gypsy反转录转座子分别分为16个和14个谱系。
RepeatModeler,LTR_retriever
  • RepeatModeler 利用全基因组序列从头预测(de novo),训练重复序列集构建本地 repeat library。
    RepeatModeler1.0 核心组件是 RECON(de novo,基于基因组序列比对)和 RepatScout (de novo,基于 K-mer)。RepeatModeler2.0更新后加入了 LtrHarvest(de novo,基于结构),LTR_retriever(主要有LTR_FINDER,LTRharvest,都是 de novo 基于结构) 等,可以识别LTR的结构。

  • 公司的重复序列注释流程:使用RepeatModeler从头鉴定(都是 de novo,1.0基于基因组序列比对,基于 K-mer;2.0 基于基因组序列比对,基于 K-mer,基于结构)重复区域家族,生成repeat library。然后再用RepeatMasker(基于同源性)鉴别基因组上的重复区域。

  • 用 LTRharvest 和 LTRdigest 进行 LTR 基于结构 的从头预测( de novo,基于结构 )

  • 2017 年密歇根州立大学园艺系的 Shujun Ou 团队开发 LTR_retriever 平台用于 LTR 的鉴定,文章发表在 Plant Physiology 上。这是一款整合软件,以一或多个 LTR 预测软件鉴定 LTR 的结果作为输入文件,通过不同模块对 LTR 进行过滤和修正来对预测软件的预测结果进行整合和调整,得到非冗余精准且完整的物种特异 LTR 库,再使用 RepeatMasker 进行预测。

    LTR_retriever不是一个独立的工具,他的主要作用就是整合 LTRharvest, LTR_FINDER, MGEScan 3.0.0, LTR_STRUC, 和 LtrDetector的结果,过滤其中的假阳性LTR-RT,得到高质量的LTR-RT库。尽管LTR_retriever支持多个LTR工具的输入,但其实上LTRharverst和LTR_FINDER的结果就已经很不错了。目前推荐的是LTR_Finder(de novo,基于结构)和LTR_harvest(de novo,基于结构)组合鉴定,之后使用LTR_retreiver整合两者的结果。

EDTA, 全称是 Extensive de-novo TE Annotator, 一个综合性的流程工具,它整合了目前LTR预测工具结果(LTR_retriever,基于结构),TIR预测工具结果,MITE预测工具结果,Helitrons预测工具结果,从而构建出一高可信,非冗余的TE数据库,再通过 RepeatMasker(基于同源性) 注释重复序列。

EDTA的下载安装及使用方法参考 EDTA-github

2. 重复序列的校正和分类

常用的软件TEclass(Institute of Bioinformatics WWU Münster)、REPCLASS(http://wweb.uta.edu/faculty/cedric/repclass.htm)等

3. 基因组注释(重复序列的屏蔽)

重复序列库经过校正和分类以后, 就可以用于全基因组重复序列注释。这个过程被称为重复序列屏蔽, 鉴定为重复序列的核苷酸区域常用N或者X替 代。常用的软件有RepeatMakser(RepeatMasker Home Page和CENSOR(Submit sequence to CENSOR - GIRI)等, 详细的使用说明请参考。此过程在很大程度上依赖于重复序列库的质量 , 例如一致序列的准确性及分类的准确性等。


参考:
TE的鉴定 - 简书

GitHub - oushujun/EDTA: Extensive de-novo TE Annotator

基因组转座子鉴别与注释方法研究进展 - 中国知网

真核生物转座子的鉴定与分类

这篇关于转座子的鉴定的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/759882

相关文章

天然药物化学史话:“四大光谱”在天然产物结构鉴定中的应用-文献精读46

天然药物化学史话:“四大光谱”在天然产物结构鉴定中的应用,天然产物化学及其生物合成必备基础知识~ 摘要 天然产物化学研究在药物研发中起着非常重要的作用,结构研究又是天然产物化学研究中最重要的工作之一。在天然药物化学史话系列文章的基础上,对在天然产物结构研究中起绝对主导作用的“四大光谱”分析技术,即红外光谱、紫外光谱、质谱、核磁共振波谱在天然产物结构鉴定中的应用历史进行回顾与总结,并对其发展

Java编程基础之运行期类型鉴定

1、Class对象 为理解RTTI在Java里如何工作,首先必须了解类型信息在运行期是如何表示的。这时要用到一个名为“Class对象”的特殊形式的对象,其中包含了与类有关的信息(有时也把它叫作“元类”)。事实上,我们要用Class对象创建属于某个类的全部“常规”或“普通”对象。 对于作为程序一部分的每个类,它们都有一个Class对象。换言之,每次写一个新类时,同时也会创建一个Class对象(更恰当

项目文章 | Cell ReportsChIP-seq和RNA-seq联合鉴定伯克霍尔德氏菌毒性的重要调节因子

发表单位:中山大学深圳校区制药科学学院 发表日期:2024年5月14日 研究期刊:Cell Reports(IF: 8.8) 研究材料:伯克霍尔德氏菌 主要技术:ChIP-seq,EMSA,微尺度热泳分析,RNA-seq, RT-qPCR 近日,中山大学深圳校区制药科学学院邓音乐教授研究团队在Cell Reports上发表了题为“Regulation of Burkholderi

蓄电池MSDS报告办理 锂电池运输鉴定中英文报告申请

MSDS 指的是化学产品安全技术说明书 MSDS 报告一般是由工厂所出具的,但也逐渐的应用在各种贸易过程当中,在海运过程当中,相关的产品也需要提供 MSDS 认证报告,不过有些人对于 MSDS 认证所规定的内容不是很了解,接下来大家一起看一下吧。 MSDS 是化学产品生产商和进口商,用于查明化学品的相关特性,也是在一定程度上表明,该产品对使用者的健康可能会产生危害的一份文件,在一定程度上能够减少职

软件产品必须要进行鉴定测试吗?测试流程和作用简析

软件产品是现代社会中不可或缺的一部分,它们在商业、娱乐、科技等领域的应用广泛且深入。然而,我们是否关注过这些软件产品的鉴定测试呢?鉴定测试是什么?它的测试流程有哪些?又有什么作用呢?在本文中,我们将为您全面解析这些问题。 鉴定测试是指针对某一软件产品进行的系统性测试和评估,以确定其质量、性能和功能是否符合用户需求和预期目标。通过鉴定测试,对软件产品进行全面的评估和分析,从而找出其中的问题和潜在风

Aerial Cactus Identification(空中仙人掌鉴定)

Aerial Cactus Identification 空中仙人掌鉴定 二分类问题 方案一: import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)import os,cv2from IPython.display import Imagefrom keras.preprocessing impor

全系列直推160Ω高功率电阻品质鉴定

导体对电流的阻碍作用就叫该导体的电阻(resistance)。在物理学中,用电阻来表示导体对电流阻碍作用的大小。导体的电阻越大,表示导体对电流的阻碍作用越大。不同的导体,电阻一般不同,电阻是导体本身的一种性质。 功率测量用于测量电气设备消耗的功率,广泛应用于家用电器、照明设备、工业用机器等研究开发或生产线等领域中。本文重点介绍了几种功率测量的方法及其具体应用。 功率测量技术: 1.二极管检测功率

对一起产品质量鉴定诉讼案的分析和思考

一、引言   2012年颁布实施的《上海市产品质量条例》所确立的产品质量鉴定组织目录管理制度,是适应市场经济和推动政府职能转变的创新之举。该制度实施五年多来,在增强质量鉴定工作透明度、提高工作效率和化解质量纠纷等方面发挥了积极作用。本文分析的案件是近五年来第一起因质量鉴定行为而引发的行政诉讼案件。该案件判决的生效,充分表明目录管理制度得到了当事人和人民法院的肯定,但该案件在办理中涉及的鉴

聊聊功能安全软件工具鉴定

功能安全中对于软件工具是有要求的,需要进行分类,当该工具为TCL2或者TCL3时,需要额外的信息支持,常用的方式有以下两种: 工具通过功能安全认证自己做测试,开发说明书等(适用于自研的工具) 以下几类工具基本是需要做功能安全认证 编译器(这个很难自己鉴定,曾经跟南德讨论使用2个编译器做PIL做相互校验,南德也认可;但是到另外的机构就不认可了,所以还是老老实实的用商业的吧。同时又有一个坑,就是

房屋鉴定研究院报告系统

一、项目背景与意义 随着城市化进程的加速和房地产市场的蓬勃发展,房屋安全问题日益受到社会各界的广泛关注。房屋鉴定作为确保房屋安全的重要手段,对于保障人民群众生命财产安全、维护社会稳定具有重要意义。然而,传统的房屋鉴定方式存在诸多弊端,如鉴定流程繁琐、鉴定结果不准确、信息共享不畅等,严重制约了房屋鉴定工作的有效开展。因此,开发一套高效、准确、便捷的房屋鉴定研究院报告系统项目,具有重要的现实意义和应