初步组装的杂合基因组如何去冗余

2024-06-23 20:58

本文主要是介绍初步组装的杂合基因组如何去冗余,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

redundans的目标是辅助杂合基因组的组装,输入文件可以是组装的contig,测序文库以及额外的参考基因组,最后用于搭建出scaffold级别的纯合基因组组装结果。包括如下几个步骤:

  • 从头组装: 它会调用Platanus、SSPACE3进行组装
  • 去冗余: 从最初组装中去除冗余的序列
  • scaffolding: 利用双端测序将contig进行搭接
  • gap closing: 即填补scaffold中的N序列

对于我们三代组装的结果而言,我们只需要去冗余这一步即可。

软件安装

这一步一定要保证你的电脑上装了ZLIB库,不然就需要去修改BWA和LAST的Makefile, 手动添加"CFLAGS"和"LDFLAGS", 你或许不行。

git clone --recursive https://github.com/lpryszcz/redundans.git
cd redundans && bin/.compile.sh

结果输出"done"才算是成功.如果还需要作图,则需要安装 matplotlib numpy

pip install matplotlib numpy

最好用下面这行命令测试下。

./redundans.py -v -i test/*_?.fq.gz -f test/contigs.fa -o test/run1

软件的使用

这个软件就是在安装的时候让我折腾了下,使用倒是非常的方便,去冗余主要调整的参数就是相似度和重叠(overlap)度 默认相似度参数--identity 0.51,重叠比例是--overlap 0.80 越大越严格。

此外,如果你用-i参数提供了二代测序数据,redundans还会默认搭scaffold和补洞,但我只需要用到它的去冗余步骤, 另外的两步我不要,所以还要添加--noscaffolding--nogapclosing跳过这两步。

ident=0.55
ovl=0.80
contig=contig.fa
threads=10
redundans.py -v -f ${contig} -o ident_${ident}_ovl_${ovl} -t ${threads} \--log ident_${ident}_ovl_${ovl}.log \--identity ${ident} --overlap ${ovl} \--noscaffolding --nogapclosing

上面代码运行时如果不小心中断了,加上--resume就能断点重跑了。

参考资料

  • https://github.com/lpryszcz/redundans
  • Redundans: an assembly pipeline for highly heterozygous genomes

这篇关于初步组装的杂合基因组如何去冗余的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1088255

相关文章

JavaWeb 学习笔记 spring+jdbc整合开发初步

JdbcTemplate类是Spring的核心类之一,可以在org.springframework.jdbc.core中找到它。JdbcTemplate类在内部已经处理数据库的建立和释放,可以避免一些常见的错误。JdbcTemplate类可直接通过数据源的应用实例化,然后在服务中使用,也可在xml配置中作为JavaBean应用给服务使用直接上一个实例步骤1.xml配置 <?xml version

【从0实现React18】 (三) 初探reconciler 带你初步探寻React的核心逻辑

Reconciler 使React核心逻辑所在的模块,中文名叫协调器,协调(reconciler)就是diff算法的意思 reconciler有什么用? 在前端框架出现之前,通常会使用 jQuery 这样的库来开发页面。jQuery 是一个过程驱动的库,开发者需要直接调用浏览器的宿主环境 API,例如 DOM 操作等。这意味着开发者需要手动管理页面状态和交互,通过执行一系列的操作来更新页面。

Java参数传递造成参数值改变的情况--值传递和引用传递的初步理解

值传递 值传递,像int,float之类的简单类型进行的是值传递 [java]  view plain copy print ? public static void main(String[] args) {       int i = 900;       System.out.println(i);          changeInt(i);       S

redis初步认识(一)

文章目录 概述安装编译 string数据结构基础命令应用对象存储累加器 list结构基础命令应用栈(先进后出FILO)队列 HASH基础命令存储结构应用存储对象 小结 概述 redis 是一个远程字典服务;当然,redis是内存数据库,kv数据库,最基础的数据结构有(string, list, hash, set, zset)几种。 安装编译 在ubuntu云服务器上安

简化基因组的测序方法

RAD-Seq(restriction site-associated DNA sequencing)最开始指的是2008年发表在PLOS ONE上“Rapid SNP discovery and genetic mapping using sequenced RAD markers"提出的方法,目前该文章的引用已经达到1200+,现在指代的是一系列基于限制性内切酶的测序技术。同样在概念上被引申的

「BioNano系列」光学图谱混合组装应该怎么做?

评估从头组装结果 Bionano从头组装出光学图谱CMAP可以和参考序列的CMAP进行比对,通过Access上可视化检查参考基因组的组装质量,比较两者间的不同。 这里所用的CMAP图谱来自于一篇发表在NC的拟南芥的基因组文章(原本计划用他们的bnx文件介绍从头组装,但是通讯作者根本不搭理我), 光学图谱的下载方式为: wget https://submit.ncbi.nlm.nih.gov

「BioNano系列」如何从头组装出一个Bionano图谱

官方并没有一个很详细的文档描述Bionano的从头组装流程的具体过程,所以我只能根据自己实际项目进行介绍: 流程 AutoNoise + SplitBNX: 这一步会将bnx和参考的cmap文件进行比对,估算出噪声系数,然后把bnx进行拆分便与后续比对Pairwse: 这一步进行molecules之间的两两比较,寻找overlap, 结果存放在"align"文件夹下Asse

「杂谈」Nanopore组装的拟南芥基因组效果如何?

使用的数据来自于一篇发在NC的拟南芥的基因组文章,文章用了minimap/miniasm 进行组装,然后用racon和Pilon进行polish, 最后拼接处62 contigs 且N50 = 12.3 Mb。 wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR217/003/ERR2173373/ERR2173373.fastq.gzseqkit seqk

StringTie在注释基因组时的注意事项

在利用RNA-seq注释基因组时,有一个问题就是,我将不同组织来源的转录组数据和参考基因组比对之后,那下一步是1)先将这三个比对结果进行合并,然后用StringTie进行预测,还是2)用StringTie分别进行预测,然后用StringTie的merge模式进行合并? 这个问题的提出,是我采取第二种方式时,发现合并后的基因数减少,觉得哪里不太对劲,于是用IGV检查了不同分析策略的结果, 结论如

NECAT: Nanopore数据的高效组装工具

NECAT是肖传乐老师团队开发的一个针对Nanopore数据组装的软件,目前该工具尚未发表,除了https://github.com/xiaochuanle/NECAT有软件的介绍外,暂时没有中文资料介绍NECAT的使用。 太长不看的结论: Nanopore的组装推荐用下NECAT。组装之后是先用MEDAKA做一遍三代polish,然后用NextPolish默认参数做二代polish。 这篇将