PacBio的异构体测序(Iso-Seq)

2023-10-21 11:30
文章标签 iso seq 测序 pacbio 异构体

本文主要是介绍PacBio的异构体测序(Iso-Seq),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在真核生物中,大多数基因可以编码多个蛋白质,这是因为基因经过可变剪接,可产生多个转录异构体,从而大大增加了基因组的蛋白编码潜力。来自同一个基因的可变剪接异构体可能有着明显不同、甚至拮抗的作用。为了研究基因表达,研究人员利用新一代测序方法研究了生物体各个基因的片段,这种方法通常称为RNA测序(RNA-seq)。短读长RNA-seq的原理是将转录本异构体打断成较小的片段,然后利用生物信息学工具将其重新组装。由于组装错误的存在,RNA-seq很可能无法获得完整的转录本,因而难以准确表征异构体的多样性。

PacBio的异构体测序(Iso-Seq)采用长读取序列来测序长达10 kb的转录本异构体。无论是广泛研究还是靶向分析,这种转录本多样性的分析都揭示了可变转录的频率和类型等关键信息,改善了基因组注释和基因发掘。

Iso-seq方法

Iso-Seq无需打断RNA分子,直接对反转录的全长cDNA测序,可提供从5’端到3′ polyA尾巴、跨越整个转录本异构体的序列。Iso-Seq方法可提供选择性剪接外显子和转录起始位点的准确信息。对于长达10 kb的转录本,它还可提供聚腺苷酸化位点的信息,能够覆盖靶基因或整个转录组的全长异构体。

Iso-Seq的建库方案有如下三类:

  1. 整个库都是一个样品的全长转录组,不需要加barcode区分样品
  2. 不同样品的全长转录组,加上不同barcode ,可以放在一起进行建库测序
  3. 一些靶向获得的部分基因也可以进行全长转录组的测序
    1477318-20180906183550990-1609666064.png

Iso-seq分析

Pacbio sequel下机是bam格式的reads文件,它和reads比对到参考基因组上生成的bam文件,内容有差异,但格式一致。格式说明可参考(https://www.plob.org/article/11099.html)。

IsoSeq应用程序适用于分析SMRT测序技术生成的数据,能够对转录本和剪接变体进行功能鉴定。

Iso-Seq分析运行可选择从头开始(de novo)或基于参考序列的模式运行。
它包括三个主要步骤:

  • 分类:从PacBio系统(或SMRT Cell)运行中提取插入片段的序列;去除cDNA引物和poly-A;然后将插入片段的读取序列分成嵌合或非嵌合、全长或非全长的序列。
  • 聚类:利用迭代聚类和错误纠正(ICE)算法,根据分类的读取序列预测新发的转录本一致性异构体。
  • 映射:利用GMAP,将分类的读取序列和预测的一致性异构体与用户指定的参考序列进行比对。

1477318-20180906145532349-437647663.png

参考

  1. IsoSeq-3.0
  2. IsoSeq_SA3nUP
  3. IsoSeq3
  4. pacbio 三代全长转录组数据分析流程 Iso-Seq 3
  5. 生工全长转录组 Iso-seq
  6. 全长转录组测序Iso-seq
  7. 2017a

转载于:https://www.cnblogs.com/RyannBio/p/9598340.html

这篇关于PacBio的异构体测序(Iso-Seq)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/254092

相关文章

数据治理框架-ISO数据治理标准

引言 "数据治理"并不是一个新的概念,国内外有很多组织专注于数据治理理论和实践的研究。目前国际上,主要的数据治理框架有ISO数据治理标准、GDI数据治理框架、DAMA数据治理管理框架等。 ISO数据治理标准 改标准阐述了数据治理的标准、基本原则和数据治理模型,是一套完整的数据治理方法论。 ISO/IEC 38505标准的数据治理方法论的核心内容如下: 数据治理的目标:促进组织高效、合理地

DoIP-ISO 13400-1 道路车辆-基于互联网协议的诊断通信(DoIP)-第 1 部分:一般信息和用例定义 (1/2)

如下内容基于2011版本的 ISO 13400开展,内容较多,拆分为2篇,此篇为 1/2。 前言 ISO(国际标准化组织)是一个全球范围内的国际标准机构联合体(ISO 成员机构)。国际标准的制备工作通常通过 ISO 技术委员会进行。每个相关成员机构都有权在已建立的技术委员会中代表其利益。与 ISO 保持联系的国际组织、政府和非政府组织也参与这项工作。ISO 与国际电工委员会(IEC)在所有电气

使用seq_file

在《使用procfs》一文的源码示例中有说到proc文件系统每次读取的数据只能是1个页,如果超过则需多次读取,这样的话会增加读取次数,增多系统调用次数,影响了整体的效率,故而才有seq file序列文件的出现,该项功能使得内核对于大文件的读取更加容易。  对于seq file,其结构体定义在include/linux/seq_file.h文件中,内容如下: struct seq_file {

【0323】Postgres内核之 hash table sequentially search(seq_scan_tables、num_seq_scans)

0. seq scan tracking 我们在这里跟踪活跃的 hash_seq_search() 扫描。 需要这种机制是因为如果扫描正在进行时发生桶分裂(bucket split),它可能会访问两次相同的条目,甚至完全错过某些条目(如果它正在访问同一个分裂的桶中的条目)。因此,如果正在向表中插入数据,我们希望抑制桶分裂。 在当前的使用中,这种情况非常罕见,因此只需将分裂推迟到下一次插入即可。

相机拍摄时最重要的三个参数——光圈、快门、ISO

如果你对相机只有很少了解,那么看这篇文章再好不过啦,我结合很多资料,力图用最通俗易懂的方式进行讲解。 相机拍摄时最重要的3个参数就是——光圈、快门、ISO 次重要的参数有——焦距、景深、曝光   在介绍光圈、快门、ISO之前,必须先介绍曝光。曝光准确的照片:   过曝的照片:   欠曝的照片:   我们把一张完美曝光的照片理解成一桶刚刚装满的水,不

ISO/OSI七层模型和TCP/IP模型的关系

1. ISO/OSI的参考模型共有7层,由低层至高层分别为:物理层、数据链路层、网络层、传输层、会话层、表示层、     应用层。各层功能分别为: (1)物理层          提供建立、维护和拆除物理链路所需的机械、电气、功能和规程的特性;提供有关在传输介质上传输非结构的位流         及物理链路故障检测指示。在这一层,数据还没有被组织,仅作为原始的位流或电气电压处理,单位是比

c/c++: warning: ISO C90 forbids variable length array ‘a’

文章目录 介绍C99安全问题类似的alloca安全问题的防护 介绍 https://en.cppreference.com/w/c/language/array @item -Wvla @opindex Wvla @opindex Wno-vla Warn if a variable-length array is used in the code. @option{-Wno-v

2024.09.04【读书笔记】|如何使用Tombo进行Nanopore Direct RNA-seq(DRS)分析

文章目录 Tombo快速使用介绍模型介绍RNA修饰分析步骤特异性替代碱基检测(推荐)De novo canonical model comparison ONT全长转录组分析步骤疑难解答Minimap2在比对nanopore直接RNA-seq数据时的最佳实践和参数设置有哪些?featureCounts在进行RNA-seq定量分析时,如何选择最合适的参考基因组注释文件?Tombo序列重校正过程

杨树84K品种的单细胞测序发现转录因子PagMYB31的功能-文献精读44

Transcription factor PagMYB31 positively regulates cambium activity and negatively regulates xylem development in poplar 转录因子PagMYB31正向调控杨树84K品种的形成层活动,并负向调控木质部的发育。 同样有篇文献,二倍体毛白杨基因组~ 二倍体毛白杨(Populus