「BioNano系列」光学图谱混合组装应该怎么做?

2024-06-23 20:48

本文主要是介绍「BioNano系列」光学图谱混合组装应该怎么做?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

评估从头组装结果

Bionano从头组装出光学图谱CMAP可以和参考序列的CMAP进行比对,通过Access上可视化检查参考基因组的组装质量,比较两者间的不同。

这里所用的CMAP图谱来自于一篇发表在NC的拟南芥的基因组文章(原本计划用他们的bnx文件介绍从头组装,但是通讯作者根本不搭理我),

光学图谱的下载方式为:

wget https://submit.ncbi.nlm.nih.gov/ft/byid/w4jcevedkbs-mac-74_bng_contigs2017.cmap

我通过Canu以原始错误率0.5纠错后直接以纠错后错误率0.144进行组装, 得到的物理图谱, 可通过百度网盘(链接:https://pan.baidu.com/s/1PGYvCE0Ku65vwNQ3cEscKA 提取码:88us )进行下载。

分析代码如下:

#模拟酶切
perl /opt/biosoft/Solve3.3_10252018/Pipeline/10252018/fa2cmap_multi_color.pl -i R05C0144.fa -e BspQI 1
# 两个图谱比较
python /opt/biosoft/Solve3.3_10252018/Pipeline/10252018/runCharacterize.py \-t /opt/biosoft/Solve3.3_10252018/RefAligner/7915.7989rel/RefAligner \-q kbs-mac-74_bng_contigs2017.cmap -r R05C0144_BSPQI_0kb_0labels.cmap \-p /opt/biosoft/Solve3.3_10252018/Pipeline/10252018 \-a /opt/biosoft/Solve3.3_10252018/RefAligner/7915.7989rel/optArguments_nonhaplotype_noES_irys.xml \-n 10

运行之后会在当前目录下生成一个"alignref"文件夹, 将其中的"q.cmap","r.cmap",".xmap"下载到本地,上传到access中进行可视化

2013053-017b5e6c70b64be8.png
组装肉眼评估

上图中,箭头指示的部分可能就是光学图谱能用于锚定其他contig的部分,这就是下一节光学图谱辅助组装的原理。

光学图谱辅助组装

NGM(Next-Generation Mapping) Scaffold 流程:

  1. 为序列数据产生 in silico 图谱
  2. 将序列和Bionano基因组图谱进行比较,找到两者之间的冲突并尝试解决
  3. 将不冲突的图谱合并成 hybrid scafold
  4. 在序列图谱和hybrid scaffold之间形成联配
  5. 得到scaffold的AGP和FASTA文件

整个流程和Bionano Access完美整合,为使用者提供了方便的操作界面,用于对scafflod结果进行可视化。流程的脚本在"/opt/biosoft/Solve3.3_10252018/HybridScaffold/10252018"

单酶系统

流程控制脚本为: Solve3.3_版本日期HybridScaffold/版本日期/hybridScaffold.pl, 他接受输入文件,输出运行过程中的信息,产生输出文件,最后得到结果描述。

有四个必须文件: FASTA格式组装结果,CMAP格式的Bionano 基因组图谱组装,XML格式的配置文件, RefAligner.

perl hybridScaffold.pl -n FASTA格式序列 (必须)-b BIonano CMAP文件 (必须)-c  Merge 的XML配置文件 (必须)-r RefAligner运行工具路径 (必须)-o 输出文件夹 (必须)-B conflict filter level genome maps; 1,2 or3, 决定如何处理冲突,1表示不过滤,2表示在冲突处分割contig,3表示删除冲突的contig,没有-M时一定要加入-N conflict filter level for sequences; 1,2 or 3, 决定如何处理冲突,1表示不过滤,2表示在冲突处分割contig,3表示删除冲突的contig,没有-M时一定要加入-f 是否覆盖之前的输出-x 分别进行hybrid scaffold 和 genome map的相互比对-y 为输入的genome maps生成嵌合质量分-M 输入手工解决过冲突的文件-m: 如果使用了-x或-y参数,则需要输入Bionano molecules的BNX文件-p 从头组装流程的文件路径,如果使用了-x或, -y 选项,就需要加入这一项-q 从头组装流程的XML配置文件,如果使用了-x或, -y 选项,就需要加入这一项-e 从头组装时的噪音参数, .errbin或err文件-v 输出流程版本信息

明确一点: -c 要求的XML文件真的不是无脑用,需要修改其中fasta2cmap的enzyme部分

实际运行案例:

cp /opt/biosoft/Solve3.3_10252018/HybridScaffold/10252018/hybridScaffold_config.xml .
# 用vim修改hybridScaffold_config.xml中的enzyme
perl /opt/biosoft/Solve3.3_10252018/HybridScaffold/10252018/hybridScaffold.pl \-n R05C0144.fa \-b kbs-mac-74_bng_contigs2017.cmap \-c hybridScaffold_config.xml \-r /opt/biosoft/Solve3.3_10252018/RefAligner/7915.7989rel/RefAligner \-o R05C0144 \-B 2 -N 2 \-f 

运行过程中会输出scaffold N50等一些参数。N50仅仅提升了1.1M,估计是作者bionano数据不够多。

组装的FASTA在"R05C0144/agp_fasta"文件下,而"R05C0144/hybridScaffold_archive.tar.gz"可以上传到Access查看组装效果, 下图就是一个典型的混合组装

2013053-27911b5648ebbd3b.png
典型的混合组装结果

当然具体分为哪几步,以及每一步调用的脚本如下所示:

第一步: 将FASTA转成CMAP格式,

2013053-e69587528c953296.png
Step 1

用到一个perl脚本, fa2cmap_multi_color.pl, 通过对基因组序列进行模式搜索寻找可能的酶切位点,默认输出在"fa2cmap"文件夹下

第二步: 识别并解决冲突。

2013053-b8b75f5f4afbc48d.png
Step 2

冲突可能来自于真实的等位基因,或者时组装错误,最终的结果就是在联配中出现过多无法比对上的标记(labels). Hybrid Scaffold流程会先用RefAligner将第一步得到的cmp去跟Bionano基因组图谱比,然后用AssignAlignType.pl识别冲突交界处。输入文件为RefAligner运行后得到的XMAP和CMAP文件,以及原始序列和原始Bionano基因组图谱。统计每个联配中比对和未必对标记数,根据XML配置文件中"assignAlignType.max_overhang" 参数设置最大可以容忍的无法联配的标记数。最后会输出"assginAlignType.xmap"(列出冲突位置),以及"assignAlignType_r.cmap"(无冲突序列), "assignAlignType_q.cmap"(无冲突图谱)。更重要的是"conflicts.txt",记录着每个可能的位置。

之后流程用cut_conflicts.pl解决不一致的位置, 输出"conflicts_cut_status.txt", 可以手工编辑,有监督的进行处理。

第三步: 合并两者的组装结果,形成Hybrid scaffold

2013053-0266016d7aa20f80.png
Step 3

这一步用MergeNGS_BN.pl脚本完成,它会调用RefAligner进行迭代两两配对合并,输入文件是下面的其中一个

  • 原始输入
  • 冲突解决后的组装(cut_conflicts.pl输出结果)
  • 没有冲突的组装(AssignAlignType.pl的结果)

每一种输入都是一种选项,我们可以尝试不同的输入,最后进行比较。

第四步: 将序列图图谱和基因组图谱比对到hybrid scaffold

2013053-731aaa0d99720619.png
Step 4

第五步: 生成hybrid scaffold表征的AGP和FASTA文件

2013053-b5c827e30acb4bd9.png
Step 5

一些注意事项:

  • Bionano很难处理Hi-C数据引起的基因组中朝向/排序的错误。所以先Bionano混合组装,然后才是Hi-C
  • 覆盖度: 至少50X,NLRS随着覆盖度提高并不会有明显增强图谱连续性,DLS(例如DLE0-1) 100X以上的覆盖度能够明显提高某些植物和东西的图谱连续性。
  • 当前的Hybrid Scaffold 流程无法很好处理单倍体信息,所以上一步的从头组装一定要是nonhaplotype.

这篇关于「BioNano系列」光学图谱混合组装应该怎么做?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1088241

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

W外链微信推广短连接怎么做?

制作微信推广链接的难点分析 一、内容创作难度 制作微信推广链接时,首先需要创作有吸引力的内容。这不仅要求内容本身有趣、有价值,还要能够激起人们的分享欲望。对于许多企业和个人来说,尤其是那些缺乏创意和写作能力的人来说,这是制作微信推广链接的一大难点。 二、精准定位难度 微信用户群体庞大,不同用户的需求和兴趣各异。因此,制作推广链接时需要精准定位目标受众,以便更有效地吸引他们点击并分享链接

电脑桌面文件删除了怎么找回来?别急,快速恢复攻略在此

在日常使用电脑的过程中,我们经常会遇到这样的情况:一不小心,桌面上的某个重要文件被删除了。这时,大多数人可能会感到惊慌失措,不知所措。 其实,不必过于担心,因为有很多方法可以帮助我们找回被删除的桌面文件。下面,就让我们一起来了解一下这些恢复桌面文件的方法吧。 一、使用撤销操作 如果我们刚刚删除了桌面上的文件,并且还没有进行其他操作,那么可以尝试使用撤销操作来恢复文件。在键盘上同时按下“C

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨削加工的精度。 转速范围 宽广的转速范围意味着平衡机能够处理更多种类的磨轮,适应不同的工作条件和规格要求。 振动监测能力 振动监测能力是评估平衡机性能的重要因素。通过传感器实时监

webm怎么转换成mp4?这几种方法超多人在用!

webm怎么转换成mp4?WebM作为一种新兴的视频编码格式,近年来逐渐进入大众视野,其背后承载着诸多优势,但同时也伴随着不容忽视的局限性,首要挑战在于其兼容性边界,尽管WebM已广泛适应于众多网站与软件平台,但在特定应用环境或老旧设备上,其兼容难题依旧凸显,为用户体验带来不便,再者,WebM格式的非普适性也体现在编辑流程上,由于它并非行业内的通用标准,编辑过程中可能会遭遇格式不兼容的障碍,导致操

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

怎么让1台电脑共享给7人同时流畅设计

在当今的创意设计与数字内容生产领域,图形工作站以其强大的计算能力、专业的图形处理能力和稳定的系统性能,成为了众多设计师、动画师、视频编辑师等创意工作者的必备工具。 设计团队面临资源有限,比如只有一台高性能电脑时,如何高效地让七人同时流畅地进行设计工作,便成为了一个亟待解决的问题。 一、硬件升级与配置 1.高性能处理器(CPU):选择多核、高线程的处理器,例如Intel的至强系列或AMD的Ry

cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个?

跨平台系列 cross-plateform 跨平台应用程序-01-概览 cross-plateform 跨平台应用程序-02-有哪些主流技术栈? cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个? cross-plateform 跨平台应用程序-04-React Native 介绍 cross-plateform 跨平台应用程序-05-Flutte