「Bionano系列」下机数据的BNX文件到底说了什么

2024-06-23 20:48
文章标签 bionano bnx 系列 到底 数据

本文主要是介绍「Bionano系列」下机数据的BNX文件到底说了什么,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近我拿到了一批Bionano数据,用关键字 “Bionano+组装” 进行检索时,并没有发现任何的教程,所以这应是中文网络世界里第一个Bionano数据分析系列

Bionano技术简单来说,就是给分子加上荧光标记,然后拍照,所以最原始的下机数据就是TIFF格式,但是用户拿到的一般都是经AutoDetect/IrysView 转换过的BNX格式。这篇文章主要就是讲讲BNX格式的具体含义。

根据Bionano的30038号文件,即"BNX File Format Specification Sheet"的定义,

The Bionano Genomics® BNX file is a raw data view of molecule and label information and quality scores per channel identified during a run. BNX v1.3 supports one or two label channels (colors).

BNX记录的是在泳道中每个单分子原始信息,包括分子中的标记信息和每个泳道的质量得分

单分子荧光标记

类似于SAM/VCF这类格式,BNX也分为两个部分,元信息行和数据行。

元信息行中比较容易理解的行是下面几个,基本不需要解释

容易理解的信息行

后面的"#rh" 和" Run Data" 会稍微复杂一些。但是"rh"其实是Required Headers的缩写,记录的是"Run Data"中一定要有的列, 而"Run Data"每一行表示的是不同的队列(corhart)或者称之为泳道。我会着重看以下几个记录

  • SNRFilterType: 信噪比的过滤类型,如果有这一列,就表示你后续就不用做SNR Filter
  • MinMoleculeLength: 所允许的最短的分子长度
  • MinLabelSNR:所允许的最低标记的SNR

下面的"0h",“1h”,“Qh”, “QX11”,“QX12” 需要结合数据行才能理解。首先要明确一点,对于单酶系统(Label Channels: 1),每个分子都会对应4个数据行。

对应关系

“0h” 记录的是每个分子中简要信息,例如分子的长度(length), 信噪比(SNR), 标记的数目(NumberofLabels), 其中"0f"则是告诉程序它将要解析的数据格式是什么。

“1h” 记录的是每个标记的位置信息,对应"0h"中的NumberofLabels。标记间的相对位置信息就是后续进行组装和比对的基础,如下图所示。

光学图谱组装

“Qh” 中的QualityScoreID对应"QX11",“QX12”,而QualityScores[N]表示会记录N个质量分数。"QX11"记录的每个标签的信噪比(SNR), "QX12"则是记录信号强度,这两者正相关。 同样"Qf"则是告诉程序它将要解析的数据格式是什么。

信噪比和信号强度的关系

介绍完数据格式后,你会有一个问题,如何评判数据的好坏呢?以及如何进行数据质量控制?

我们可以根据以下质标评估数据的好坏:

  • 标记密度(Label Density): 一般NRLS为 8-15 Labels/100Kb, DLS 为 10-25 Labels/100Kb
  • 分子量 N50:评估总体分子的长度
  • 假阳性(FP): 原本没有标记的地方识别出信号
  • 假阴性(FN): 原本应该有标记的地方却没有信号
  • 比对率(Mapping Rate): 有多少分子能够回贴到基因组上。

那么这些评估信息如何获取呢?请期待后续的更新

这篇关于「Bionano系列」下机数据的BNX文件到底说了什么的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1088238

相关文章

【服务器运维】MySQL数据存储至数据盘

查看磁盘及分区 [root@MySQL tmp]# fdisk -lDisk /dev/sda: 21.5 GB, 21474836480 bytes255 heads, 63 sectors/track, 2610 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytesSector size (logical/physical)

SQL Server中,查询数据库中有多少个表,以及数据库其余类型数据统计查询

sqlserver查询数据库中有多少个表 sql server 数表:select count(1) from sysobjects where xtype='U'数视图:select count(1) from sysobjects where xtype='V'数存储过程select count(1) from sysobjects where xtype='P' SE

JavaWeb系列二十: jQuery的DOM操作 下

jQuery的DOM操作 CSS-DOM操作多选框案例页面加载完毕触发方法作业布置jQuery获取选中复选框的值jQuery控制checkbox被选中jQuery控制(全选/全不选/反选)jQuery动态添加删除用户 CSS-DOM操作 获取和设置元素的样式属性: css()获取和设置元素透明度: opacity属性获取和设置元素高度, 宽度: height(), widt

数据时代的数字企业

1.写在前面 讨论数据治理在数字企业中的影响和必要性,并介绍数据治理的核心内容和实践方法。作者强调了数据质量、数据安全、数据隐私和数据合规等方面是数据治理的核心内容,并介绍了具体的实践措施和案例分析。企业需要重视这些方面以实现数字化转型和业务增长。 数字化转型行业小伙伴可以加入我的星球,初衷成为各位数字化转型参考库,星球内容每周更新 个人工作经验资料全部放在这里,包含数据治理、数据要

如何在Java中处理JSON数据?

如何在Java中处理JSON数据? 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们将探讨在Java中如何处理JSON数据。JSON(JavaScript Object Notation)作为一种轻量级的数据交换格式,在现代应用程序中被广泛使用。Java通过多种库和API提供了处理JSON的能力,我们将深入了解其用法和最佳

C语言入门系列:探秘二级指针与多级指针的奇妙世界

文章目录 一,指针的回忆杀1,指针的概念2,指针的声明和赋值3,指针的使用3.1 直接给指针变量赋值3.2 通过*运算符读写指针指向的内存3.2.1 读3.2.2 写 二,二级指针详解1,定义2,示例说明3,二级指针与一级指针、普通变量的关系3.1,与一级指针的关系3.2,与普通变量的关系,示例说明 4,二级指针的常见用途5,二级指针扩展到多级指针 小结 C语言的学习之旅中,二级

两个基因相关性CPTAC蛋白组数据

目录 蛋白数据下载 ①蛋白数据下载 1,TCGA-选择泛癌数据  2,TCGA-TCPA 3,CPTAC(非TCGA) ②蛋白相关性分析 1,数据整理 2,蛋白相关性分析 PCAS在线分析 蛋白数据下载 CPTAC蛋白组学数据库介绍及数据下载分析 – 王进的个人网站 (jingege.wang) ①蛋白数据下载 可以下载泛癌蛋白数据:UCSC Xena (xena

PAT-1039 到底买不买(20)(字符串的使用)

题目描述 小红想买些珠子做一串自己喜欢的珠串。卖珠子的摊主有很多串五颜六色的珠串,但是不肯把任何一串拆散了卖。于是小红要你帮忙判断一下,某串珠子里是否包含了全部自己想要的珠子?如果是,那么告诉她有多少多余的珠子;如果不是,那么告诉她缺了多少珠子。为方便起见,我们用[0-9]、[a-z]、[A-Z]范围内的字符来表示颜色。例如,YrR8RrY是小红想做的珠串;那么ppRYYGrrYBR2258可以

JavaWeb系列六: 动态WEB开发核心(Servlet) 上

韩老师学生 官网文档为什么会出现Servlet什么是ServletServlet在JavaWeb项目位置Servlet基本使用Servlet开发方式说明快速入门- 手动开发 servlet浏览器请求Servlet UML分析Servlet生命周期GET和POST请求分发处理通过继承HttpServlet开发ServletIDEA配置ServletServlet注意事项和细节 Servlet注

中国341城市生态系统服务价值数据集(2000-2020年)

生态系统服务反映了人类直接或者间接从自然生态系统中获得的各种惠益,对支撑和维持人类生存和福祉起着重要基础作用。目前针对全国城市尺度的生态系统服务价值的长期评估还相对较少。我们在Xie等(2017)的静态生态系统服务当量因子表基础上,选取净初级生产力,降水量,生物迁移阻力,土壤侵蚀度和道路密度五个变量,对生态系统供给服务、调节服务、支持服务和文化服务共4大类和11小类的当量因子进行了时空调整,计算了