本文主要是介绍结合Illumina和PacBio SMRT测序技术对复杂植物基因组组装方法的探究,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
结合Illumina和PacBio SMRT测序技术对复杂植物基因组组装方法的探究
文献类型:学位论文
作者 | 王筱 |
学位类别 | 硕士 |
答辩日期 | 2015-04 |
授予单位 | 中国科学院研究生院 |
授予地点 | 北京 |
导师 | 王文 |
关键词 | 复杂基因组 基因组组装 Illumina Hiseq测序 PacBio测序 实时单分子 铁皮石斛 |
其他题名 | The exploration of complex plant genome assembly method combining with Illumina & PacBio SMRT sequen |
学位专业 | 生物工程 |
中文摘要 | 自1977年第一代sanger测序技术发展至今,已有四十多年时间,测序技术快速发展和变革,极大推动了生物领域及医学领域的快速发展。Sanger测序技术读长长,准确性高,但测序成本高,通量低,影响了其大规模应用。以Illumina公司的Hiseq技术为代表的二代技术的出现,大大降低了测序成本,在保证高准确性的同时大幅提高了测序速度,完成了多种动植物的基因组de novo组装。在复杂植物基因组中,往往存在高杂合、高重复等特点,而Hiseq Illumina测序技术并不能完全避免GC含量的影响,使得复杂基因组完整组装分析遇到巨大障碍。随着第三代实时单分子测序技术的开发,长度长的特性以及免去GC偏好型的特征,使其在基因组组装及相关挖掘方面产生巨大推进作用。本文以铁皮石斛和丹参为例,探讨了结合低覆盖度的PacBio SMRT数据对基因组de novo组装完整度的提升。 我们与吉林大学严亮博士合作,从技术角度探索了铁皮石斛复杂基因组的解析方法,得到contigN50=25.1kb,scaffoldN50 = 76.4kb的基因组草图,测序量合计覆盖超过了铁皮石斛基因组94%的序列,大约97.56%的蛋白质编码基因被功能注释。
同时,我们与昆明理工大学董扬教授合作,通过结合二代、三代测序方法,得到contigN50=82.8kb,scaffoldN50 = 122.4kb的丹参基因组草图。通过铁皮石斛和丹参复杂基因组组装分析,本文归纳出了一种完整的基于二代、三代基因组测序技术针对高杂合、高重复基因组的组装方法,显示出第三代测序技术在大型复杂基因组de novo组装中的应用前景。 |
英文摘要 | Since 1977, the first generation of sanger sequencing technology has been developmented for more than 40 years, the rapid development and revolution sequencing technology has also greatly accelerated biological and biomedical research dramatically. Sanger sequencing technology has the feature of read long and high accuracy, but the high cost and low flux affected its large-scale application. In the last few years, with the wide spread of the second generation sequencing technology which represented by the Illumina Hiseq technology,the cost of sequencing was greatly reduced and the high accuracy were also guaranteed at the same time. The de novo assembly of a variety of animal and plant genomes were proceeded. However, in complex plant genomes, it tend to have high heterozygosity and high repetition, and Hiseq Illumina sequencing technology cannot completely avoid the influence of GC content, making the analysis of complete genome assembly encountered great obstacles. The 3rd generation, SMRT sequencing technology, overcome the GC bias, long in read length, will lead great improvement in complex genome assembly. Here we take the Dendrobium officinale Kimura et for example, in collaboration with Dr. Liang Yan, combining with the second generation of Illumina HiSeq 2000 sequencing technology and the third generation of PacBio sequencing technology, from the point of view of technology to explore the Dendrobium officinale complex genome analysis method. Finally we get the draft genome with contigN50 = 25.1 kb,scaffoldN50 = 76.4 kb, the total amount of sequencing covers more than 94% of dendrobium genome sequence, the function annotates 97.56% of D. officinale protein-coding genes. Meanwhile, we also get the dra ft genome of Salvia miltiorrhiza with contigN50 = 82.8 kb, scaffoldN50 = 122.4 kb. By analyzing D. officinale complex genome assembly, this paper summarized a method for complex genome assembly based on second generation and third generation sequencing technology, which also shows the application prospect of the third generation sequencing technology in large complex genome assembly. |
语种 | 中文 |
源URL | [http://159.226.149.26:8080/handle/152453/10197] |
专题 | 昆明动物研究所_基因起源组_学位论文 |
推荐引用方式 GB/T 7714 | 王筱. 结合Illumina和PacBio SMRT测序技术对复杂植物基因组组装方法的探究[D]. 北京. 中国科学院研究生院. 2015. |
目录
-
摘要
-
第一章 前言
-
一、植物基因组
6-6页-
1 基因组的概念
6-6页 -
2 植物基因组简介
6-7页
-
-
二、测序技术概览
7-7页-
1 第一代测序技术
7-8页 -
2 第二代测序技术
8-11页 -
3 第三代PacBio实时单分子测序方法
11-14页
-
-
三、基因组从头组装策略概览
14-14页-
1 基于二代测序技术的主要基因组组装方法
14-15页 -
2 结合第三代测序技术的基因组组装方法
15-17页
-
-
-
第二章 材料与方法
-
一、材料与主要仪器设备
17-17页-
1 材料
17-17页 -
2 主要仪器与设备
17-17页
-
-
二、方法
17-17页-
1 样品的处理
17-17页 -
2 DNA制备
17-18页 -
3 铁皮石斛基因组Illumina文库构建
18-19页 -
4 第二代测序技未测序
19-20页 -
5 Hiseq2000测序序列和质量值生成
20-20页 -
6 Kmer分析基因组大小
20-20页 -
7 PacBio数据的生成
20-24页 -
8 结合三代数据的基因组组装
24-26页 -
9 基因注释
26-27页 -
10 基因组质量评估
27-27页 -
11 基因功能注释
27-27页 -
12 基因家族鉴定
27-28页
-
-
-
第三章 结果与讨论
-
一、铁皮石斛
28-28页-
1 样品的选择与总DNA提取
28-28页 -
2 基因测序与质量控制
28-30页 -
3 基因组调研结果
30-32页 -
4 石斛数据污染检测
32-37页 -
5 石斛品种Barcode鉴定
37-39页 -
6 GREEN品系二代数据统计
39-41页 -
7 基于二代数据的SOAP基因组组装
41-42页 -
8 三代数据纠错结果统计
42-44页 -
9 基于Pacbio三代数据的PBJelly补洞
44-46页 -
10 基因组组装质量评估
46-48页 -
11 基因注释
48-51页 -
12 基因功能注释
51-52页 -
13 铁皮石斛基因家族分析
52-55页
-
-
二、丹参
55-55页-
1 Kmer调研丹参基因组复杂度
55-55页 -
2 Miseq PE300结合小片段文库Hiseq测序数据Platanus组装
55-58页
-
-
这篇关于结合Illumina和PacBio SMRT测序技术对复杂植物基因组组装方法的探究的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!