HLAminer:根据NGS数据确定HLA分型结果

2023-10-12 02:50

本文主要是介绍HLAminer:根据NGS数据确定HLA分型结果,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

欢迎关注"生信修炼手册"

PCR-SBT方法是世界卫生组织WHO推崇的HLA 分型的金标准,其实就是指的直接测序,无论是WGS, WES, RNA_seq 数据都可以。近几年来涌现了很多的软件,支持从NGS测序数据直接确定HLA Allel, HLAminer 就是其中之一。

官网如下:

https://github.com/warrenlr/HLAminer

安装过程如下:

wget https://github.com/warrenlr/HLAminer/releases/download/v1.3.1/HLAminer-1.3.1.tar.gz
tar xzvf HLAminer-1.3.1.tar.gz
cd HLAminer-1.3.1/HLAminer_v1.3.1/

下载解压即可,软件目录结构如下:

├── bin
├── database
├── database_bwamem
├── docs
└── test-demo

bin目录下就是所有的可执行脚本,database目录下是所有的数据库文件,包含HLA CDS序列,HLA 基因序列,不同HLA Allel共享的蛋白结构域文件,在database目录下还有对应的bash脚本,可以用于更新数据库。

该软件的架构如下:

HLAminer有两种策略可供选择:基于目的片段组装的HPTASR和基于序列比对的HPRA。 在bin目录下,封装了一系列的bash脚本,可以简化软件的调用。

1. 基于目的片段组装 HPTASR

基于组装的算法精确度高,但是运行速度是它的劣势,对应的bash脚本前缀为HPTASR, 包括以下4个脚本

  • HPTASRwgs_classI.sh

  • HPTASRwgs_classI-II.sh

  • HPTASRrnaseq_classI.sh

  • HPTASRrnaseq_classI-II.sh

wgs代表全基因组数据,rnaseq代表转录组数据; class Iclass II分别对应HLA I型和II 型基因,根据测序数据的类型和预测的HLA基因的类型,选择对应的bash脚本就可以了。

这些脚本都会读取一个名为patient.fof的配置文件,内容示意如下

rd1.fq
rd2.fq

里面保存的是每个样本R1端和R2端fastq文件的路径。这些bash脚本实际是把多个步骤放在一起了,实际运行时可以根据需要进行修改,

HPTASRrnaseq_classI.sh内容如下

###Run TASR
echo "Running TASR..."
#TASR Default is -k 15 for recruiting reads. You may increase k, as long as k < L/2 where L is the minimum shotgun read length
../bin/TASR -f patient.fof -m 20 -k 20 -s ../database/HLA_ABC_CDS.fasta -i 1 -b TASRhla -w 1
###Restrict 200nt+ contigs
cat TASRhla.contigs |perl -ne 'if(/size(\d+)/){if($1>=200){$flag=1;print;}else{$flag=0;}}else{print if($flag);}' > TASRhla200.contigs
###Create a [NCBI] blastable database
echo "Formatting blastable database..."
../bin/formatdb -p F -i TASRhla200.contigs
###Align HLA contigs to references
echo "Aligning TASR contigs to HLA references..."
../bin/parseXMLblast.pl -c ncbiBlastConfigO.txt -d ../database/HLA_ABC_CDS.fasta -i TASRhla200.contigs -o 0 -a 1 > tig_vs_hla-ncbi.coord
###Align HLA references to contigs
echo "Aligning HLA references to TASR contigs (go have a coffee, it may take a while)..."
../bin/parseXMLblast.pl -c ncbiBlastConfigO.txt -i ../database/HLA_ABC_CDS.fasta -d TASRhla200.contigs -o 0 > hla_vs_tig-ncbi.coord
###Predict HLA alleles
echo "Predicting HLA alleles..."
../bin/HLAminer.pl -b tig_vs_hla-ncbi.coord -r hla_vs_tig-ncbi.coord -c TASRhla200.contigs -h ../database/HLA_ABC_CDS.fasta

输出结果的文件名为HLAminer_HPTASR.csv,当多个样本同时运行时,由于生成的中间文件名字相同,为了保证顺利并行,必须在不同的文件夹下运行。

2. 基于序列比对 HPRA

基于序列比对的算法,运行速度块,但是精确度较差,对应的bash脚本前缀为HPRA, 包括以下脚本

  • HPRArnaseq_classI.sh

  • HPRArnaseq_classI_SE.sh

  • HPRArnaseq_classI-II.sh

  • HPRArnaseq_classI-II_SE.sh

  • HPRArnaseq_pacbioSEclassI.sh

  • HPRAwgs_classI.sh

  • HPRAwgs_classI_SE.sh

  • HPRAwgs_classI-II.sh

  • HPRAwgs_classI-II_SE.sh

脚本中不同文字的含义和HPTASR相同,以HPRArnaseq_classI.sh为例,分析步骤如下

bwa 比对:

bwa mem -a ../database_bwamem/HLA_ABC_CDS.fasta rd1.fq rd2.fq > TEST_vs_HLA.sam

分型:

perl ../bin/HLAminer.pl -a TEST_vs_HLA.sam -h ../database/HLA_ABC_CDS.fasta -p ../database/hla_nom_p.txt

输出文件为HLAminer_HPRA.csv

两种算法虽然输出文件的名称不同,但是内容是一致的,示例如下

HLA-A Prediction #1 - A*26
A*26:33,3555.00,2.66e-63,625.8
HLA-B Prediction #1 - B*55
B*55:29,2960.00,2.36e-54,536.3

对于每个HLA 基因,会给出对应的分析结果。HLAminer通常能够给出2位或者4位的分型结果。

扫描关注微信号,更多精彩内容等着你!

这篇关于HLAminer:根据NGS数据确定HLA分型结果的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/192707

相关文章

Rust中的BoxT之堆上的数据与递归类型详解

《Rust中的BoxT之堆上的数据与递归类型详解》本文介绍了Rust中的BoxT类型,包括其在堆与栈之间的内存分配,性能优势,以及如何利用BoxT来实现递归类型和处理大小未知类型,通过BoxT,Rus... 目录1. Box<T> 的基础知识1.1 堆与栈的分工1.2 性能优势2.1 递归类型的问题2.2

Python使用Pandas对比两列数据取最大值的五种方法

《Python使用Pandas对比两列数据取最大值的五种方法》本文主要介绍使用Pandas对比两列数据取最大值的五种方法,包括使用max方法、apply方法结合lambda函数、函数、clip方法、w... 目录引言一、使用max方法二、使用apply方法结合lambda函数三、使用np.maximum函数

Redis的数据过期策略和数据淘汰策略

《Redis的数据过期策略和数据淘汰策略》本文主要介绍了Redis的数据过期策略和数据淘汰策略,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录一、数据过期策略1、惰性删除2、定期删除二、数据淘汰策略1、数据淘汰策略概念2、8种数据淘汰策略

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

Python给Excel写入数据的四种方法小结

《Python给Excel写入数据的四种方法小结》本文主要介绍了Python给Excel写入数据的四种方法小结,包含openpyxl库、xlsxwriter库、pandas库和win32com库,具有... 目录1. 使用 openpyxl 库2. 使用 xlsxwriter 库3. 使用 pandas 库

SpringBoot定制JSON响应数据的实现

《SpringBoot定制JSON响应数据的实现》本文主要介绍了SpringBoot定制JSON响应数据的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们... 目录前言一、如何使用@jsonView这个注解?二、应用场景三、实战案例注解方式编程方式总结 前言

使用Python在Excel中创建和取消数据分组

《使用Python在Excel中创建和取消数据分组》Excel中的分组是一种通过添加层级结构将相邻行或列组织在一起的功能,当分组完成后,用户可以通过折叠或展开数据组来简化数据视图,这篇博客将介绍如何使... 目录引言使用工具python在Excel中创建行和列分组Python在Excel中创建嵌套分组Pyt

在Rust中要用Struct和Enum组织数据的原因解析

《在Rust中要用Struct和Enum组织数据的原因解析》在Rust中,Struct和Enum是组织数据的核心工具,Struct用于将相关字段封装为单一实体,便于管理和扩展,Enum用于明确定义所有... 目录为什么在Rust中要用Struct和Enum组织数据?一、使用struct组织数据:将相关字段绑

在Mysql环境下对数据进行增删改查的操作方法

《在Mysql环境下对数据进行增删改查的操作方法》本文介绍了在MySQL环境下对数据进行增删改查的基本操作,包括插入数据、修改数据、删除数据、数据查询(基本查询、连接查询、聚合函数查询、子查询)等,并... 目录一、插入数据:二、修改数据:三、删除数据:1、delete from 表名;2、truncate

Java实现Elasticsearch查询当前索引全部数据的完整代码

《Java实现Elasticsearch查询当前索引全部数据的完整代码》:本文主要介绍如何在Java中实现查询Elasticsearch索引中指定条件下的全部数据,通过设置滚动查询参数(scrol... 目录需求背景通常情况Java 实现查询 Elasticsearch 全部数据写在最后需求背景通常情况下