本文主要是介绍seq2HLA:利用RNA_seq数据进行HLA分型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
欢迎关注"生信修炼手册"!
对于不同的HLA Allel来说,exon2和exon3 序列的差异性尤为明显,很多的HLA 分型软件都会根据这部分序列,整理出HLA Allel序列参考数据库。
seq2HLA也采用了类似的策略,通过HLA不同Allel的exon2和exon3的序列,整理了一份HLA参考数据库,通过将RNA_seq的reads与该数据库比对,确定HLA分型结果,原理示意图如下
迭代两次,每次挑选出覆盖度最高的Allel 作为分型结果。
seq2HLA采用python和R进行开发,安装过程较为简单,直接下载源代码即可,安装过程如下
git clone https://github.com/TRON-Bioinformatics/seq2HLA
cd seq2HLA/
用法如下:
python seq2HLA.py -1 R1.fastq -2 R2.fastq -r test -p 10
-1
和-2
参数分别指定输入的R1和R2端的fastq格式的序列; -r
参数指定输出文件名称的前缀,-p
指定线程数,主要是bowtie比对时的线程。
输出文件非常多,详细列表如下
test.ambiguity
test-ClassI-class.bowtielog
test-ClassI-class.expression
test-ClassI-class.HLAgenotype2digits
test-ClassI-class.HLAgenotype4digits
test-ClassII.bowtielog
test-ClassII.expression
test-ClassII.HLAgenotype2digits
test-ClassII.HLAgenotype4digits
test-ClassI-nonclass.bowtielog
test-ClassI-nonclass.expression
test-ClassI-nonclass.HLAgenotype2digits
test-ClassI-nonclass.HLAgenotype4digits
我们主要关注后缀为HLAgenotype4digits
的结果文件,可以看到,同时体用了HLA Clas I 和 Class II 两种类型基因的分型结果。以HLA I型基因的4位分型结果为例,文件内容如下
#Locus Allele 1 Confidence Allele 2 Confidence
A A*02:65 0.008687167 A*02:65 NA
B B*39:05' 0.3821314 B*13:48 0.09848174
C C*08:02' NA C*08:02 NA
对于HlA I型基因,给出了A, B, C 三个基因的分型结果,每个基因给出了两个Allel, 对于每个Allel, 会给出对应的打分值。
扫描关注微信号,更多精彩内容等着你!
这篇关于seq2HLA:利用RNA_seq数据进行HLA分型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!