本文主要是介绍soap比对结果文件说明,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
前言
更多内容,请访问我的 个人博客。
soap 是 华大基因 开发的一款短序列比对软件(软件主页)。不过很可惜,这个网址已经没人维护了。
由于我现在承接了一个古老的项目(2012年的),项目中就是用的soap比对,因此这里整理了网上对该比对软件的结果文件介绍。
soap格式文件可以用纯文本编辑器打开,部分内容如下所示:
CL100152537L1C001R001_82 TTATAAATAAAACTCCCATCTCCCTGGGACAGAGC FFEGGEFGDGGGFGFGGFGGGFGGF;@BAFF;E@E 18 a 35 + chr8 89537925 0 35M 35
CL100152537L1C001R001_100 AGAAAACACTCCCTCAGGGAAGTGCCAGCCCTCCT >8@F?DGFGGEGGFGB7?7FAAF>GF9BBGFGGGF 1 a 35 + chr11 65819516 1 G->15A2 35M 15G19
...
从左至右,依次表示:
- 编号:read的编号。
- read序列:如果read比对上参考序列的负链,会被反向互补为正链。
- 质量值:序列的质量值,和序列顺序一致,如果read反向互补,质量值也会随着改变。
- 比对次数:比对上的次数。没有比对上的read将被忽略。
- a/b:pair-end比对的标记, 表示read属于来自哪个文件。
- 长度:read长度,如果是容缺失的比对,长度将是加上缺失片断的长度。
- +/-:比对上参考序列的正链或负链。
- 染色体名称:参考序列的染色体名称。
- 位点:第一个碱基在染色体上的位置,从1开始。
- 错配的个数:默认为0。
- 错配的详细信息:
G->15A2
意思是一个错配,在参考序列的位置是的位置+15(从0开始),在参考序列上是G,read上是A,质量值是2。 - 比对上的数目:
35M
意思是35个碱基比对上了。 - 对比的细节:
15G19
意思是前15个比对上了,第16(参考序列上位置+16)个是错配,后面19个还是比对上了。
这篇关于soap比对结果文件说明的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!