Sentieon | 应用教程: 使用DNAscope对HiFi长读长数据进行胚系变异检测分析

本文主要是介绍Sentieon | 应用教程: 使用DNAscope对HiFi长读长数据进行胚系变异检测分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

介绍

本文描述了使用Sentieon® DNAscope进行PacBio® HiFi数据胚系突变检测。PacBio® HiFi技术产⽣质量值超过Q20的高质量长读段,平均长度在10-25kb之间。准确的长读段可以对短读段和高噪音长读段方法无法检测的基因组重复区域进行精准的变异检测。
Sentieon® DNAscope能利用PacBio® HiFi数据高质量、长读长的优势,使用经过校准的机器学习模型进行快速、精准的变异检测。针对HiFi数据的DNAscope流程输入比对后的HiFi数据,并输出VCF格式变异检测结果。

本流程的使用需要使用202010.03或更新版本的Sentieon软件和可从Sentieon®获取的相关脚本。本流程需要Python版本>2.7或>3.3,bcftools版本为1.10及以上。Pythonbcftoolsbedtools需要在用户环境变量中。

输入数据要求

比对后数据

本流程的输入使用pbmm2minimap2比对后的PacBio® HiFi数据。使⽤pbmm2比对推荐使用-c 0 -y 70 --preset HIFI参数。这些设置关闭了pbmm2传统的比对⼀致性过滤,转而使用间隔压缩序列过滤并使用PacBio®推荐的HiFi数据比对设置。使用minimap2比对推荐使用-x map-hifi参数。该设置为minimap2针对HiFi数据的推荐设置。

参考基因组

DNAscope将根据高质量参考基因组对样本进行变异检测。除了参考基因组外,由samtools生成的基因组索引文件(.fai)也是必须的。我们建议使用没有补丁序列的参考基因组。

PacBio® HiFi数据Sentieon® DNAscope流程

流程概览

本流程会进行两轮变异调用,然后将两轮结果合并到⼀起生成最终的结果。具体步骤如下:

  • 本流程在第⼀轮调用中会检测样本中的变异位点;
  • 利⽤第⼀轮检出的SNV和长读长信息进行定相;
  • 第⼆轮调用:
    在定相区,从每个单倍型中分别进行变异调用;
    在非定相区,使用更准确的⼆倍体模型进行变异调用;
  • 将第⼀轮和第⼆轮的变异位点合并生成最终结果;
  • 通过提供的MHC bed⽂件,对MHC区域进行特殊处理,进⼀步提高变异检测准确性;本流程所需的DNAscope机器学习模型可从https://github.com/Sentieon/sentieon-models获取。

运行流程

通过⼀个包含多个单⼀Sentieon命令的脚本即可运行HiFi数据DNAscope流程。⼀行命令即可完成变异检测并运用机器学习模型。HiFi数据比对文件可以是用pbmm2比对和建立索引后的bam或cram⽂件。

dnascope_HiFi.sh [-h] -r REFERENCE -i HIFI_BAM -m MODEL [-d dbSNP] [-B MHC_INTERVAL] [-b
INTERVAL] [-t NUMBER_THREADS] [-h] [--] VARIANT_VCF

HiFi数据Sentieon® DNAscope流程必选参数如下:
-r REFERENCE:参考基因组fasta文件路径。请确保使用的参考基因组⽂件与比对阶段使用的⼀致。
-i HIFI_BAM:比对后的BAM文件路径。
-m MODEL:DNAscope HiFi模型⽂件。
HiFi数据Sentieon® DNAscope流程可选参数如下:
-d dbSNP:dbSNP数据库VCF文件路径。仅需⼀个文件。该文件将用于变异检测结果中位点refSNP ID的注释。
-B MHC_INTERVAL:MHC区间文件,BED格式。该文件将用于MHC区域变异检测的特殊处理。
-b INTERVAL:区间文件,BED格式。该文件将限制变异检测在该区间。
-t NUMBER_THREADS:并行线程数。该参数可选,默认使用计算机所有线程。
-h:打印帮助信息。
HiFi数据Sentieon® DNAscope流程位置参数如下:
VARIANT_VCF:变异检测输出文件名。本流程会输出bgzip压缩的VCF文件及其索引文件。

流程输出文件

本流程会输出⼀个以VCF4.2格式标准的bgzip压缩文件(.vcf.gz)及其索引文件(.vcf.gz.tbi)。

其他注意事项

目前,该流程仅推荐应用于⼆倍体样本。对于包含⼆倍体和单倍体的样本,应使⽤-b INTERVAL参数将变异检测限定到⼆倍体染⾊体。

Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

在这里插入图片描述
Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。

截至2023年3月份,Sentieon已经在全球范围内为1300+用户提供服务,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过700篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。

软件试用:https://www.insvast.com/sentieon

这篇关于Sentieon | 应用教程: 使用DNAscope对HiFi长读长数据进行胚系变异检测分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/169059

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数