初步组装的杂合基因组如何去冗余

2024-06-23 20:58

本文主要是介绍初步组装的杂合基因组如何去冗余,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

redundans的目标是辅助杂合基因组的组装,输入文件可以是组装的contig,测序文库以及额外的参考基因组,最后用于搭建出scaffold级别的纯合基因组组装结果。包括如下几个步骤:

  • 从头组装: 它会调用Platanus、SSPACE3进行组装
  • 去冗余: 从最初组装中去除冗余的序列
  • scaffolding: 利用双端测序将contig进行搭接
  • gap closing: 即填补scaffold中的N序列

对于我们三代组装的结果而言,我们只需要去冗余这一步即可。

软件安装

这一步一定要保证你的电脑上装了ZLIB库,不然就需要去修改BWA和LAST的Makefile, 手动添加"CFLAGS"和"LDFLAGS", 你或许不行。

git clone --recursive https://github.com/lpryszcz/redundans.git
cd redundans && bin/.compile.sh

结果输出"done"才算是成功.如果还需要作图,则需要安装 matplotlib numpy

pip install matplotlib numpy

最好用下面这行命令测试下。

./redundans.py -v -i test/*_?.fq.gz -f test/contigs.fa -o test/run1

软件的使用

这个软件就是在安装的时候让我折腾了下,使用倒是非常的方便,去冗余主要调整的参数就是相似度和重叠(overlap)度 默认相似度参数--identity 0.51,重叠比例是--overlap 0.80 越大越严格。

此外,如果你用-i参数提供了二代测序数据,redundans还会默认搭scaffold和补洞,但我只需要用到它的去冗余步骤, 另外的两步我不要,所以还要添加--noscaffolding--nogapclosing跳过这两步。

ident=0.55
ovl=0.80
contig=contig.fa
threads=10
redundans.py -v -f ${contig} -o ident_${ident}_ovl_${ovl} -t ${threads} \--log ident_${ident}_ovl_${ovl}.log \--identity ${ident} --overlap ${ovl} \--noscaffolding --nogapclosing

上面代码运行时如果不小心中断了,加上--resume就能断点重跑了。

参考资料

  • https://github.com/lpryszcz/redundans
  • Redundans: an assembly pipeline for highly heterozygous genomes

这篇关于初步组装的杂合基因组如何去冗余的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1088255

相关文章

校验码:奇偶校验,CRC循环冗余校验,海明校验码

文章目录 奇偶校验码CRC循环冗余校验码海明校验码 奇偶校验码 码距:任何一种编码都由许多码字构成,任意两个码字之间最少变化的二进制位数就称为数据检验码的码距。 奇偶校验码的编码方法是:由若干位有效信息(如一个字节),再加上一个二进制位(校验位)组成校验码。 奇校验:整个校验码中1的个数为奇数 偶校验:整个校验码中1的个数为偶数 奇偶校验,可检测1位(奇数位)的错误,不可纠错。

初步学习Android的感想

之前在学习java语言的时候就经常听说过Android这门语言,那时候感觉Android有些神秘感,再加上Android是用来开发移动设备的一门语言,所以一直对Android抱有一种兴奋的心情。 在我开始接触 Android之后,感觉超好玩,因为可以在自己的手机设备上开发一些我喜欢的小应用,再想想之前说学习Android应该会很难,但是如果你真的接触了,而且有JAVA的功底,我想学习Androi

初步了解VTK装配体

VTK还不太了解,根据资料, vtk.vtkAssembly 是 VTK库中的一个重要类,允许通过将多个vtkActor对象组合在一起来创建复杂的3D模型。 import vtkimport mathfrom vtk.util.colors import *filenames = ["cylinder.stl","sphere.stl","torus.stl"]dt = 1.0renW

2024.09.07【读书笔记】| SMRTLink工具对PB组装疑难解答

在使用SMRT Link的pb_assembly_hifi命令进行组装分析时,可以参考以下步骤和信息: 使用pbcromwell show-workflow-details pb_assembly_hifi命令查看该工作流的详细信息。这将帮助你了解所需的输入参数和可选输入参数。 根据工作流的要求,你需要准备相应的输入文件。例如,对于单样本基因组组装,需要CCS(连续测序)的fastq文件路径作

Weka的初步介绍

Weka无疑是数据挖掘入门的最好工具,初学者可以直接使用图形界面了解数据挖掘的相关算法(如何使用网上有很多教程,可以参考 http://download.csdn.net/detail/u013422712/8649239)。     进阶阶段就必须学会使用和了解Weka的源码,这会在接下去的文章中写道。

Maven的初步使用以及命令行工具

在写本文的时候先来说明一下maven依赖的各种范围的意思 compile(编译范围) compile 是默认的范围;如果没有提供一个范围,那该依赖的范围就是编译范围。编译范围依赖在所有的classpath 中可用,同时它们也会被打包。 provided(已提供范围)provided 依赖只有在当JDK 或者一个容器已提供该依赖之后才使用。例如,如果你开发了一个web 应用,你可能在编译cl

基于LangChain+LLM的相关技术研究及初步实践

01 概述 大模型概述 大模型是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。大模型的设计目的是为了提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用,包括自然语言处理、计算机视觉、语音识别和推荐系统等。大模型通过训练海量数据来学习复杂的模式和特征,具有更强大的泛化能力,可以对未见过的数据

掌握 Redis 数据冗余:主从服务器的角色与职责

掌握 Redis 数据冗余:主从服务器的角色与职责 一 . 什么是主从复制1.1 主从复制是什么 ?1.2 什么是主从模式1.3 主从复制能够解决的问题 二 . 配置主从复制2.1 启动多个 redis-server2.2 配置主从模式2.3 查看主从结构信息2.4 断开 / 临时修改主从结构 三 . 主从复制的补充内容3.1 安全性、只读、传输延时安全性只读传输延迟 3.2 主从复制的拓扑

Mybaites初步认知

Mybaties中映射语句是最强大的地方。ResultMap是其中最重要,最强大的元素。 一个Mybaties以一个SqlSessionFactory实例为中心,通过配置类SqlSessionFactoryBuilder创建SqlSessionFactory. SqlSessionFactory作用域为application,在整个应用程序中始终存在,获取sqlsession实例。(SqlSe

2024数学建模国赛选题建议及初步思路来啦!

大家好呀,全国大学生数学建模竞赛今天下午开赛啦,在这里先带来初步的选题建议及思路。 目前团队正在写B题和C题完整论文,后续还会持续更新哈,大家三连关注一下防止迷路。 精力有限,以下只是简略的图文版初步思路,更详细的视频版完整讲解请移步: 2024数学建模国赛选题建议及A、B、C题思路_哔哩哔哩_bilibili 首先是主基调: 本次国赛推荐大家选择B或C题目。A题目只建议数理基础很扎