sambamba — samtools 的高效平替工具

2024-02-24 03:52

本文主要是介绍sambamba — samtools 的高效平替工具,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

sambamba — samtools 的高效平替工具

sambamba 是一个 BAM 文件处理工具。

sambamba
sambamba

它使用了 D 语言的多线程和异步 IO 特性,实现了高效的并行化处理。sambamba 可以在多核 CPU 上同时运行多个任务,利用硬盘和内存的带宽,提高了处理速度。sambamba 还使用了一些优化算法和数据结构,比如快速排序,哈希表,位图等,减少了内存占用和磁盘读写。

sambamba 支持 samtools 和 picard 的大部分功能,而且速度更快,内存占用更少,操作更简单。sambamba 不仅可以对 BAM 文件进行排序、索引、过滤、统计、标记重复等常见的操作,还可以进行一些特殊的功能,比如区域过滤,标记重复序列,检测结构变异等。sambamba 还支持多种输入和输出格式,比如 CRAM、SAM、BED、VCF 等,让我们可以灵活地处理各种数据类型。

此外,sambamba 还弥补了 samtools 无法对超过 512Mb 长度的染色体建立 bam 文件索引的缺陷,例如:

$ samtools index -b test.sort.bam test.sort.bam.bai
[E::hts_idx_check_range] Region 536870922..536871063 cannot be stored in a bai index. Try using a csi index[E::sam_index] Read 'E00548:269:HV7NVCCXY:3:2117:26494:57301' with ref_name='chr1H', ref_length=558535432, flags=81, pos=536870923 cannot be indexed
samtools index: failed to create index for "Atlas.sort.bam": Numerical result out of range

错误信息表明区域 536870922..536871063 无法存储在 .bai 索引中,并建议尝试使用 .csi 索引。但是 GATK 等一些生信工具不支持 .csi 格式的索引文件。sambamba 能够给最大参考序列长度的 bam 文件构建 bai 索引。

https://lomereiter.github.io/sambamba/docs/sambamba-markdup.html

安装方式

使用 conda 安装

conda install -c bioconda sambamba
/opt/miniconda3/bin/sambamba

安装日期:23/12/25

安装版本:1.0.0

源码安装

从 https://github.com/biod/sambamba/releases/tag/v1.0.1 下载安装包。

wget -c https://github.com/biod/sambamba/archive/refs/tags/v1.0.1.tar.gz
tar -zxvf sambamba-1.0.1.tar.gz
cd sambamba-1.0.1
make

这个时候可能会报错

which: no ldmd2 in (/opt/miniconda3/condabin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin)
python3 ./gen_ldc_version_info.py  > utils/ldc_version_info_.d
make: *** [utils/ldc_version_info_.d] Error 1

系统无法在给定的路径中找到 ldmd2 命令。ldmd2 是 D 语言编译器 LDC 的一部分。这个错误通常表明 LDC 没有被正确安装,或者其安装位置没有被加入到系统的环境变量 PATH 中。

LDC 编译器的 Github 存储库提供二进制版本。Sambamba 当前首选的版本是 LDC - LLVM D 编译器(>= 1.6.1)。从 https://github.com/ldc-developers/ldc/releases/ 安装 LDC:

wget https://github.com/ldc-developers/ldc/releases/download/v1.35.0/ldc2-1.6.1-linux-x86_64.tar.xz
tar xvJf ldc2-1.35.0-linux-x86_64.tar.xz
export PATH=/app/sambamba-1.0.1/ldc2-1.35.0-linux-x86_64/bin:$PATH
export LIBRARY_PATH=/app/sambamba-1.0.1/ldc2-1.35.0-linux-x86_64/lib

再安装 sambamba

make
cd bin
echo "export PATH=`pwd`:$PATH" >>~/.bashrc
source ~/.bashrc

或者直接使用预编译版本

wget https://github.com/biod/sambamba/releases/download/v1.0.1/sambamba-1.0.1-linux-amd64-static.gz
gzip -d sambamba-1.0.1-linux-amd64-static.gz
chmod 755 sambamba-1.0.1-linux-amd64-static
mkdir sambamba-1.0.1
mv sambamba-1.0.1-linux-amd64-static sambamba-1.0.1/
ln -s /app/sambamba-1.0.1/sambamba-1.0.1-linux-amd64-static /usr/local/bin/sambamba

使用方式

安装完成后直接运行看一下 sambamba 功能:

$ /opt/miniconda3/bin/sambamba
                                                                                                                                                    
sambamba 1.0.0                                                                                                                                      
 by Artem Tarasov and Pjotr Prins (C) 2012-2022                                                                                                     
    LDC 1.28.1 / DMD v2.098.1 / LLVM12.0.0 / bootstrap LDC - the LLVM D compiler (1.28.1)                                                           
                                                                                                                                                    
                                                                                                                                                    
Usage: sambamba [command] [args...]                                                                                                                 
                                                                                                                                                    
  Available commands:                                                                                                                               
                                                                                                                                                    
    view        view contents and convert from one format                                                                                           
                to another (SAM/BAM/JSON/UNPACK)                                                                                                    
    index       build index (BAI)                                                                                                                   
    merge       merge files (BAM)                                                                                                                   
    sort        sort file (BAM)
    slice       slice file (BAM using BED)
    markdup     mark or remove duplicates (BAM)
    subsample   subsample (BAM)
    flagstat    output statistics (BAM)
    depth       output statistics (BAM)
    validate    simple validator (BAM)

  No longer recommended:

    mpileup     parallel execution of samtools (BAM)

To get help on a particular command, call it without args.

Global options

    -q          quiet mode (do not show banner)

For bug reports and feature requests see

       https://github.com/biod/

sambamba 的主要功能如下:

  • sort: 对 SAM/BAM 文件进行排序,可以按照位置或者名称排序,支持多线程和压缩。
  • index: 对 BAM 文件建立索引,可以加速后续的查看和切片操作。
  • view: 查看 SAM/BAM 文件的内容,可以指定输出格式和过滤条件,也可以查看参考序列的信息。
  • merge: 合并多个 BAM 文件,可以自动处理 header 和压缩级别。
  • flagstat: 统计 BAM 文件中的 reads 的标志位,可以显示 QC 通过和失败的 reads 数目,以及各种配对情况和重复情况。
  • markdup: 标记或者移除 BAM 文件中的重复 reads,可以设置临时文件目录和压缩级别,使用 Picard 算法。
  • slice: 提取 BAM 文件中的某个区域,可以指定输出格式和过滤条件。
  • subsample: 对 BAM 文件进行子采样。子采样是指从原始数据中随机选择一部分数据,以便在保留原始数据特征的同时减少数据量,可以提高计算效率。
  • depth: 输出统计信息(BAM)
  • validate: 简单验证器(BAM)
  • mpileup 变异检测(不推荐)

flagstat — 统计

从 read flags 中提取和输出统计信息

统计信息第一行是过质量控制(QC-passed)和未通过质量控制(QC-failed)的 read 数量,然后分别对通过和未通过的 read 进行统计

index — 建索引

sambamba index test.sort.bam test.sort.bam.bai

depth — 覆盖度统计

用于计算 BAM 文件中指定区域覆盖深度,这个工具在玩法上显著优于 samtools。

 sambamba depth region|window|base [options] input.bam [input2.bam [...]]

优势在于该工具有三种模式:baseregionwindow,每种模式的名称表示以其作为单位输出统计数据:

公共选项

  • -F, --filter=FILTER: 设置对比对的自定义过滤条件。默认值是 'mapping_quality > 0 and not duplicate and not failed_quality_control',这意味着只计算那些映射质量大于0、非重复、质量控制通过的read
  • -o: 指定输出文件名,默认输出到标准输出
  • -t: 设定线程
  • -c, --min-coverage=MINCOVERAGE: 设置输出的最小平均覆盖深度,默认为0(region/window模式)或1(base模式)。只有平均覆盖度达到这个阈值的区域才会被报告
  • -C, --max-coverage=MAXCOVERAGE: 设置输出的最大平均覆盖深度。这有助于识别和排除异常高覆盖的区域
  • -q, --min-base-quality=QUAL: 不计算低于此质量值的碱基。这有助于提高覆盖深度计算的准确性
  • --combined: 输出所有样本的组合统计。通常用于比较多个样本的覆盖深度
  • -a, --annotate: 添加额外的列来标记是否满足给定的标准,而不是跳过不满足条件的记录
  • -m, --fix-mate-overlaps: 检测配对读取的重叠部分,并在每个碱基的基础上处理它们;这有助于更准确地计算覆盖度

base 模式特定选项

  • -L, --regions=FILENAME|REGION

    (可选)指定感兴趣区域的列表或单个区域的形式(例如 chr:beg-end)。通常用于分析特定基因或区域的覆盖深度。

region 模式特定选项

  • -L, --regions=FILENAME|REGION

    (必要)与上面的 base 模式选项相同,但必需。

  • -T, --cov-threshold=COVTHRESHOLD

    提供一个或多个覆盖度阈值,对于每个阈值,会添加一个额外的列,显示区域中覆盖度超过此值的碱基的百分比。

这个模式是最有用的,结合它我们可以输出染色体上的碱基覆盖深度及占比。

window 模式特定选项

  • -w, --window-size=WINDOWSIZE: 窗口的宽度,以碱基对(bp)为单位(必需);这定义了计算覆盖度的窗口大小
  • --overlap=OVERLAP: 连续窗口之间的重叠,以碱基对(bp)为单位(默认是0);这可以帮助平滑覆盖度的变化
  • -T, --cov-threshold=COVTHRESHOLD: 与 'region' 子命令中的含义相同,表示覆盖度的阈值

结果会生成一个文本文件,列出了每个染色体上每个碱基位置的覆盖度。

slice 拆分 bam 文件

sambamba slice input.bam chr1H:10000-20000 > output.bam

markdup — 去重

sambamba markdup OPTIONS <input.bam> <output.bam>
sambamba markdup -t 4 --tmpdir=./tmp/ ./test.bam  ./test.markdup.bam 2>>log/sambamba_markdup_log.txt

-t:线程数

-r:表示删除重复,默认仅标记不删除

--tmpdir=TMPDIR:指定临时文件的目录

--overflow-list-size=OVERFLOW_LIST_SIZE:增加大小会减少创建的临时文件的数量。

如果出现 Too many open files 报错,需要通过使用 ulimit -n 8000 或添加 --overflow-list-size=600000 来解决

扫码关注微信公众号【生信F3】获取文章完整内容,分享生物信息学最新知识。 ShengXinF3_QRcode

本文由 mdnice 多平台发布

这篇关于sambamba — samtools 的高效平替工具的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/740879

相关文章

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

【C++高阶】C++类型转换全攻略:深入理解并高效应用

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C++ “ 登神长阶 ” 🤡往期回顾🤡:C++ 智能指针 🌹🌹期待您的关注 🌹🌹 ❀C++的类型转换 📒1. C语言中的类型转换📚2. C++强制类型转换⛰️static_cast🌞reinterpret_cast⭐const_cast🍁dynamic_cast 📜3. C++强制类型转换的原因📝

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

超强的截图工具:PixPin

你是否还在为寻找一款功能强大、操作简便的截图工具而烦恼?市面上那么多工具,常常让人无从选择。今天,想给大家安利一款神器——PixPin,一款真正解放双手的截图工具。 想象一下,你只需要按下快捷键就能轻松完成多种截图任务,还能快速编辑、标注甚至保存多种格式的图片。这款工具能满足这些需求吗? PixPin不仅支持全屏、窗口、区域截图等基础功能,它还可以进行延时截图,让你捕捉到每个关键画面。不仅如此

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

利用命令模式构建高效的手游后端架构

在现代手游开发中,后端架构的设计对于支持高并发、快速迭代和复杂游戏逻辑至关重要。命令模式作为一种行为设计模式,可以有效地解耦请求的发起者与接收者,提升系统的可维护性和扩展性。本文将深入探讨如何利用命令模式构建一个强大且灵活的手游后端架构。 1. 命令模式的概念与优势 命令模式通过将请求封装为对象,使得请求的发起者和接收者之间的耦合度降低。这种模式的主要优势包括: 解耦请求发起者与处理者

PR曲线——一个更敏感的性能评估工具

在不均衡数据集的情况下,精确率-召回率(Precision-Recall, PR)曲线是一种非常有用的工具,因为它提供了比传统的ROC曲线更准确的性能评估。以下是PR曲线在不均衡数据情况下的一些作用: 关注少数类:在不均衡数据集中,少数类的样本数量远少于多数类。PR曲线通过关注少数类(通常是正类)的性能来弥补这一点,因为它直接评估模型在识别正类方面的能力。 精确率与召回率的平衡:精确率(Pr