Sentieon | 应用教程: 使用DNAscope对HiFi长读长数据进行胚系变异检测分析

本文主要是介绍Sentieon | 应用教程: 使用DNAscope对HiFi长读长数据进行胚系变异检测分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

介绍

本文描述了使用Sentieon® DNAscope进行PacBio® HiFi数据胚系突变检测。PacBio® HiFi技术产⽣质量值超过Q20的高质量长读段,平均长度在10-25kb之间。准确的长读段可以对短读段和高噪音长读段方法无法检测的基因组重复区域进行精准的变异检测。
Sentieon® DNAscope能利用PacBio® HiFi数据高质量、长读长的优势,使用经过校准的机器学习模型进行快速、精准的变异检测。针对HiFi数据的DNAscope流程输入比对后的HiFi数据,并输出VCF格式变异检测结果。

本流程的使用需要使用202010.03或更新版本的Sentieon软件和可从Sentieon®获取的相关脚本。本流程需要Python版本>2.7或>3.3,bcftools版本为1.10及以上。Pythonbcftoolsbedtools需要在用户环境变量中。

输入数据要求

比对后数据

本流程的输入使用pbmm2minimap2比对后的PacBio® HiFi数据。使⽤pbmm2比对推荐使用-c 0 -y 70 --preset HIFI参数。这些设置关闭了pbmm2传统的比对⼀致性过滤,转而使用间隔压缩序列过滤并使用PacBio®推荐的HiFi数据比对设置。使用minimap2比对推荐使用-x map-hifi参数。该设置为minimap2针对HiFi数据的推荐设置。

参考基因组

DNAscope将根据高质量参考基因组对样本进行变异检测。除了参考基因组外,由samtools生成的基因组索引文件(.fai)也是必须的。我们建议使用没有补丁序列的参考基因组。

PacBio® HiFi数据Sentieon® DNAscope流程

流程概览

本流程会进行两轮变异调用,然后将两轮结果合并到⼀起生成最终的结果。具体步骤如下:

  • 本流程在第⼀轮调用中会检测样本中的变异位点;
  • 利⽤第⼀轮检出的SNV和长读长信息进行定相;
  • 第⼆轮调用:
    在定相区,从每个单倍型中分别进行变异调用;
    在非定相区,使用更准确的⼆倍体模型进行变异调用;
  • 将第⼀轮和第⼆轮的变异位点合并生成最终结果;
  • 通过提供的MHC bed⽂件,对MHC区域进行特殊处理,进⼀步提高变异检测准确性;本流程所需的DNAscope机器学习模型可从https://github.com/Sentieon/sentieon-models获取。

运行流程

通过⼀个包含多个单⼀Sentieon命令的脚本即可运行HiFi数据DNAscope流程。⼀行命令即可完成变异检测并运用机器学习模型。HiFi数据比对文件可以是用pbmm2比对和建立索引后的bam或cram⽂件。

dnascope_HiFi.sh [-h] -r REFERENCE -i HIFI_BAM -m MODEL [-d dbSNP] [-B MHC_INTERVAL] [-b
INTERVAL] [-t NUMBER_THREADS] [-h] [--] VARIANT_VCF

HiFi数据Sentieon® DNAscope流程必选参数如下:
-r REFERENCE:参考基因组fasta文件路径。请确保使用的参考基因组⽂件与比对阶段使用的⼀致。
-i HIFI_BAM:比对后的BAM文件路径。
-m MODEL:DNAscope HiFi模型⽂件。
HiFi数据Sentieon® DNAscope流程可选参数如下:
-d dbSNP:dbSNP数据库VCF文件路径。仅需⼀个文件。该文件将用于变异检测结果中位点refSNP ID的注释。
-B MHC_INTERVAL:MHC区间文件,BED格式。该文件将用于MHC区域变异检测的特殊处理。
-b INTERVAL:区间文件,BED格式。该文件将限制变异检测在该区间。
-t NUMBER_THREADS:并行线程数。该参数可选,默认使用计算机所有线程。
-h:打印帮助信息。
HiFi数据Sentieon® DNAscope流程位置参数如下:
VARIANT_VCF:变异检测输出文件名。本流程会输出bgzip压缩的VCF文件及其索引文件。

流程输出文件

本流程会输出⼀个以VCF4.2格式标准的bgzip压缩文件(.vcf.gz)及其索引文件(.vcf.gz.tbi)。

其他注意事项

目前,该流程仅推荐应用于⼆倍体样本。对于包含⼆倍体和单倍体的样本,应使⽤-b INTERVAL参数将变异检测限定到⼆倍体染⾊体。

Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

在这里插入图片描述
Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。

截至2023年3月份,Sentieon已经在全球范围内为1300+用户提供服务,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过700篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。

软件试用:https://www.insvast.com/sentieon

这篇关于Sentieon | 应用教程: 使用DNAscope对HiFi长读长数据进行胚系变异检测分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/169059

相关文章

Python使用getopt处理命令行参数示例解析(最佳实践)

《Python使用getopt处理命令行参数示例解析(最佳实践)》getopt模块是Python标准库中一个简单但强大的命令行参数处理工具,它特别适合那些需要快速实现基本命令行参数解析的场景,或者需要... 目录为什么需要处理命令行参数?getopt模块基础实际应用示例与其他参数处理方式的比较常见问http

C 语言中enum枚举的定义和使用小结

《C语言中enum枚举的定义和使用小结》在C语言里,enum(枚举)是一种用户自定义的数据类型,它能够让你创建一组具名的整数常量,下面我会从定义、使用、特性等方面详细介绍enum,感兴趣的朋友一起看... 目录1、引言2、基本定义3、定义枚举变量4、自定义枚举常量的值5、枚举与switch语句结合使用6、枚

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

Java中的Lambda表达式及其应用小结

《Java中的Lambda表达式及其应用小结》Java中的Lambda表达式是一项极具创新性的特性,它使得Java代码更加简洁和高效,尤其是在集合操作和并行处理方面,:本文主要介绍Java中的La... 目录前言1. 什么是Lambda表达式?2. Lambda表达式的基本语法例子1:最简单的Lambda表

使用Python实现图像LBP特征提取的操作方法

《使用Python实现图像LBP特征提取的操作方法》LBP特征叫做局部二值模式,常用于纹理特征提取,并在纹理分类中具有较强的区分能力,本文给大家介绍了如何使用Python实现图像LBP特征提取的操作方... 目录一、LBP特征介绍二、LBP特征描述三、一些改进版本的LBP1.圆形LBP算子2.旋转不变的LB

Maven的使用和配置国内源的保姆级教程

《Maven的使用和配置国内源的保姆级教程》Maven是⼀个项目管理工具,基于POM(ProjectObjectModel,项目对象模型)的概念,Maven可以通过一小段描述信息来管理项目的构建,报告... 目录1. 什么是Maven?2.创建⼀个Maven项目3.Maven 核心功能4.使用Maven H

Python中__init__方法使用的深度解析

《Python中__init__方法使用的深度解析》在Python的面向对象编程(OOP)体系中,__init__方法如同建造房屋时的奠基仪式——它定义了对象诞生时的初始状态,下面我们就来深入了解下_... 目录一、__init__的基因图谱二、初始化过程的魔法时刻继承链中的初始化顺序self参数的奥秘默认

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》:本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么,可以干什么?3、Spr

Java程序进程起来了但是不打印日志的原因分析

《Java程序进程起来了但是不打印日志的原因分析》:本文主要介绍Java程序进程起来了但是不打印日志的原因分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java程序进程起来了但是不打印日志的原因1、日志配置问题2、日志文件权限问题3、日志文件路径问题4、程序