生信软件15 - 生信NGS数据分析强大的工具集ngs-bits

2024-04-04 18:12

本文主要是介绍生信软件15 - 生信NGS数据分析强大的工具集ngs-bits,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ngs-bits - Short-read sequencing tools - 短reasd测序工具

一个强大的工具集,安装后直接使用。

# conda安装指定版本, 安装高版本失败,故采用2021_09版本
conda install ngs-bits=2021_09 -y# 测试安装是否成功,成功则显示下列内容
ReadQC

ReadQC

软件说明文档markown

# 参考github
https://github.com/imgag/ngs-bits

SampleGender - 样本性别判断实例

	Determines the gender of a sample from the BAM/CRAM file.Mandatory parameters:-in <filelist>      Input BAM/CRAM file(s).-method <enum>      Method selection: Read distribution on X and Y chromosome (xy), fraction of heterozygous variants on X chromosome (hetx), or coverage of SRY gene (sry).Valid: 'xy,hetx,sry'Optional parameters:-out <file>         Output TSV file - one line per input BAM/CRAM file. If unset, writes to STDOUT.Default value: ''-max_female <float> Maximum Y/X ratio for female (method xy).Default value: '0.06'-min_male <float>   Minimum Y/X ratio for male (method xy).Default value: '0.09'-min_female <float> Minimum heterozygous SNP fraction for female (method hetx).Default value: '0.25'-max_male <float>   Maximum heterozygous SNP fraction for male (method hetx).Default value: '0.05'-sry_cov <float>    Minimum average coverage of SRY gene for males (method sry).Default value: '20'-build <enum>       Genome build used to generate the input (methods hetx and sry).Default value: 'hg38'Valid: 'hg19,hg38'-ref <file>         Reference genome for CRAM support (mandatory if CRAM is used).Default value: ''Special parameters:--help              Shows this help and exits.--version           Prints version and exits.--changelog         Prints changeloge and exits.--tdx               Writes a Tool Definition Xml file. The file name is the application name with the suffix '.tdx'.

使用方法

# 创建idx
samtools index sample.sorted.bam# 基于xy染色体 reads数量
SampleGender -in sample.sorted.bam -method xy
# female

SampleGender  -xy

# 基于x染色体上杂合位点的比例
SampleGender -in sample.sorted.bam -method hetx

SampleGender  -hetx

# 基于Y染色体sry基因的覆盖度
SampleGender -in sample.sorted.bam -method sry

SampleGender  - sry

其他工具介绍

主要工具

SeqPurge - A highly-sensitive adapter trimmer for paired-end short-read data.
Seqtek-一种用于双端短读数据的高灵敏度适配器微调器。SampleSimilarity - Calculates pairwise sample similarity metrics from VCF/BAM files.
SampleSimilarity-计算VCF/BAM文件中的成对样本相似性度量。SampleGender - Determines sample gender based on a BAM file.
SampleGender-根据BAM文件确定样本性别。SampleAncestry - Estimates the ancestry of a sample based on variants.
Samplestry-基于变量估计样本的祖先。CnvHunter - CNV detection from targeted resequencing data using non-matched control samples.
CnvHunter-使用非匹配对照样品从靶向重测序数据中检测CNV。RohHunter - ROH detection based on a variant list annotated with AF values.
RohHunter-基于标注AF值的变体列表的ROH检测。UpdHunter - UPD detection from trio variant data.
UpdHunter-从三个变体数据中检测UPD。

质量控制工具

ReadQC - Quality control tool for FASTQ files.
ReadQC-FASTQ文件的质量控制工具。MappingQC - Quality control tool for a BAM file.
MappingQC-BAM文件的质量控制工具。VariantQC - Quality control tool for a VCF file.
VariantQC-VCF文件的质量控制工具。SomaticQC - Quality control tool for tumor-normal pairs( 肿瘤-正常配对的质量控制工具)TrioMaternalContamination - Detects maternal contamination of a child using SNPs from parents.
TrioMaternalContamination-使用父母的SNP检测儿童的母体污染。RnaQC - Calculates QC metrics for RNA samples.
RnaQC-计算RNA样本的QC指标。

BAM工具

BamClipOverlap - (Soft-)Clips paired-end reads that overlap.
BamClipOverlap-(Soft-)剪辑重叠的双端读取。BamDownsample - Downsamples a BAM file to the given percentage of reads.
BamDownsample-将BAM文件下采样到给定的读取百分比。BamFilter - Filters a BAM file by multiple criteria.
BamFilter-按多个条件过滤BAM文件。BamHighCoverage - Determines high-coverage regions in a BAM file.
BamHighCoverage-确定BAM文件中的高覆盖率区域。BamToFastq - Converts a BAM file to FASTQ files (paired-end only).
BamToFastq-将BAM文件转换为FASTQ文件(仅适用于双端)。

BED工具

BedAdd - Merges regions from several BED files.
BedAdd-合并多个BED文件中的区域。BedAnnotateFromBed - Annotates BED file regions with information from a second BED file.
BedAnnotateFromBed-使用来自第二个BED文件的信息注释BED文件区域。BedAnnotateGC - Annnotates the regions in a BED file with GC content.
BedAnnotateGC-用GC内容在BED文件中Annotates区域。BedAnnotateGenes - Annotates BED file regions with gene names (needs - 用基因名称注释BED文件区域(需要 NGSD)BedChunk - Splits regions in a BED file to chunks of a desired size.
BedChunk-将BED文件中的区域拆分为所需大小的块。BedCoverage - Annotates the regions in a BED file with the average coverage in one or several BAM files.
BedCoverage-使用一个或多个BAM文件中的平均覆盖率注释BED文件中的区域。BedExtend - Extends the regions in a BED file by n bases.
BedExtend-将BED文件中的区域扩展n个碱基。BedGeneOverlapBedGeneOverlap的 - Calculates how much of each overlapping gene is covered (needs - 计算每个重叠基因的覆盖量(需要 NGSD).BedHighCoverage - Detects high-coverage regions from a BAM file.
BedHighCoverage-从BAM文件中检测高覆盖率区域。BedInfo - Prints summary information about a BED file.
BedInfo-打印有关BED文件的摘要信息。BedIntersect - Intersects two BED files.
BedIntersect-使两个BED文件相交。BedLiftOver - Lift-over of regions in a BED file to a different genome build.
BedLiftOver-将BED文件中的区域转移到不同的基因组构建。BedLowCoverage - Calcualtes regions of low coverage based on a input BED and BAM file.
BedLowCoverage-基于输入BED和BAM文件计算低覆盖率区域。BedMerge - Merges overlapping regions in a BED file.
BedMerge-合并BED文件中的重叠区域。BedReadCount - Annoates the regions in a BED file with the read count from a BAM file.
BedReadCount-使用BAM文件中的读取计数注释BED文件中的区域。BedShrink - Shrinks the regions in a BED file by n bases.
BedShrink-将BED文件中的区域收缩n个碱基。BedSort - Sorts the regions in a BED file
BedSort-对BED文件中的区域进行排序BedSubtract - Subracts one BED file from another BED file.
从一个BED文件中减去另一个BED文件。BedToFasta - Converts BED file to a FASTA file (based on the reference genome).
BedToFasta-将BED文件转换为FASTA文件(基于参考基因组)。

FASTQ工具

FastqAddBarcode - Adds sequences from separate FASTQ as barcodes to read IDs.
FastqAddBarcode-将来自单独FASTQ的序列作为条形码添加到读取ID。FastqConvert - Converts the quality scores from Illumina 1.5 offset to Sanger/Illumina 1.8 offset.
FastqConvert-将质量分数从Illumina 1.5偏移调整为桑格/Illumina 1.8偏移。FastqConcat - Concatinates several FASTQ files into one output FASTQ file.
FastqConcat-将多个FASTQ文件合并为一个输出FASTQ文件。FastqDownsample - Downsamples paired-end FASTQ files.
FastqDownsample-对双端FASTQ文件进行下采样。FastqExtract - Extracts reads from a FASTQ file according to an ID list.
FastqExtract-根据ID列表从FASTQ文件中提取读取。FastqExtractBarcode - Moves molecular barcodes of reads to a separate file.
FastqExtractBarcode-将读取的分子条形码移动到单独的文件中。FastqExtractUMI - Moves unique moleculare identifier from read sequence to read ID.
FastqExtractUMI-将唯一分子标识符从读取序列移动到读取ID。FastqFormat - Determines the quality score offset of a FASTQ file.
FastqFormat-确定FASTQ文件的质量分数偏移。FastqList - Lists read IDs and base counts.
FastqList-列出读取ID和碱基计数。FastqMidParser - Counts the number of occurances of each MID/index/barcode in a FASTQ file.
FastqMidParser-计算FASTQ文件中每个MID/索引/条形码的出现次数。FastqToFasta - Converts FASTQ to FASTA format.
FastqToFasta-将FASTQ转换为FASTA格式。FastqTrim - Trims start/end bases from the reads in a FASTQ file.
FastqTrim-从FASTQ文件中的读段修剪起始/结束碱基。

VCF工具

VcfAdd - Appends variants from a VCF file to another VCF file.
VcfAdd-将变量从一个VCF文件转换到另一个VCF文件。VcfAnnotateConsequence - Adds transcript-specific consequence predictions to a VCF file (similar to Ensembl VEP).
VcfAnnotateConsequence-将转录本特定的结果预测添加到VCF文件(类似于Ensembl VEP)。VcfAnnotateFromBed - Annotates the INFO column of a VCF with data from a BED file.
VcfAnnotateFromBed-使用来自BED文件的数据注释VCF的INFO列。VcfAnnotateFromBigWig - Annotates the INFO column of a VCF with data from a BED file.
VcfAnnotateFromBigWig-使用来自BED文件的数据注释VCF的INFO列。VcfAnnotateFromVcf - Annotates a VCF file with data from one or more source VCF files.
VcfAnnotateFromVcf-使用来自一个或多个源VCF文件的数据注释VCF文件。VcfAnnotateHexplorer - Annotates a VCF with Hexplorer and HBond scores.
VcfAnnotateHexplorer-使用Hexplorer和HBOND分数注释VCF。VcfAnnotateMaxEntScan - Annotates a VCF file with MaxEntScan scores.
VcfAnnotateMaxEntScan-使用MaxEntScan分数注释VCF文件。VcfBreakMulti - Breaks multi-allelic variants into several lines, making sure that allele-specific INFO/SAMPLE fields are still valid.
VcfBreakMulti-将多等位基因变体分成几行,确保等位基因特定的INFO/SAMPLE字段仍然有效。VcfCalculatePRS - Calculates the Polgenic Risk Score(s) for a sample.
VcfCalculatePRS-计算样本的Polgenic风险评分。VcfCheck - Checks a VCF file for errors.
VcfCheck-检查VCF文件的错误。VcfExtractSamples - Extract one or several samples from a VCF file.
VcfExtractSamples-从VCF文件中提取一个或多个样本。VcfFilter - Filters a VCF based on the given criteria.
VcfFilter-根据给定条件过滤VCF。VcfLeftNormalize - Normalizes all variants and shifts indels to the left in a VCF file.
VcfLeftNormalize-规范化所有变量,并将VCF文件中的indel向左移动。VcfSort - Sorts variant lists according to chromosomal position.
VcfSort-根据染色体位置对变体列表进行排序。VcfStreamSort - Sorts entries of a VCF file according to genomic position using a stream.
VcfStreamSort-使用流根据基因组位置对VCF文件的条目进行排序。VcfSubstract - Substracts the variants in a VCF from a second VCF.
从第二个VCF中减去VCF中的变量。VcfToBed - Converts a VCF file to a BED file.
VcfToBed-将VCF文件转换为BED文件。VcfToBedpe - Converts a VCF file containing structural variants to BEDPE format.
VcfToBedpe-将包含结构变体的VCF文件转换为BEDPE格式。VcfToTsv - Converts a VCF file to a tab-separated text file.
将VCF文件转换为制表符分隔的文本文件。

SV工具(结构变异工具)

BedpeAnnotateFromBed - Annotates a BEDPE file with information from a BED file.
BedpeAnnotateFromBed-使用来自BED文件的信息注释BEDPE文件。BedpeFilter - Filters a BEDPE file by region.
BedpeFilter-按区域过滤BEDPE文件。BedpeGeneAnnotation - Annotates a BEDPE file with gene information from the NGSD (needs - 用NGSD中的基因信息注释BEDPE文件(需要 NGSD).).
BedpeSort - Sort a BEDPE file according to chromosomal position.BedpeSort-根据染色体位置对BEDPE文件进行排序。
BedpeToBed - Converts a BEDPE file into BED file.BedpeToBed-将BEDPE文件转换为BED文件。SvFilterAnnotations - Filter a structural variant list in BEDPE format based on variant annotations.
SvFilterAnnotations-基于变量注释过滤BEDPE格式的结构变量列表。

基因处理工具

GenePrioritization: Performs gene prioritization based on list of known disease genes and a PPI graph (see also GraphStringDb).
GenePrioritization:基于已知疾病基因列表和PPI图执行基因优先级排序(参见GraphStringDb)。GraphStringDb: Creates simple representation of String-DB interaction graph.
GraphStringDb:创建String-DB交互图的简单表示。GenesToApproved - Replaces gene symbols by approved symbols using the HGNC database(needs - 使用HGNC数据库将基因符号替换为批准的符号(需要 NGSD).GenesToBed创世记 - Converts a text file with gene names to a BED file (needs - 将包含基因名称的文本文件复制到BED文件(需要 NGSD).)GenesToTranscripts基因转转录 - Converts a text file with gene names to transcript names (needs - 将带有基因名称的文本文件转换为转录名称(需要 NGSD).)NGSDExportGenesNGSD出口基因 - Lists genes from NGSD (needs - 列出NGSD中的基因(需要 NGSD).).TranscriptsToBed - Converts a text file with transcript names to a BED file (needs - 将带有成绩单名称的文本文件复制到BED文件(需要 NGSD).).

表型处理工具

PhenotypesToGenes表型到基因 - Converts a phenotype list to a list of matching genes (needs - 将表型列表转换为匹配基因列表(需要 NGSD).).PhenotypeSubtree表型子树 - Returns all sub-phenotype of a given phenotype (needs - 返回给定表型的所有子表型(需要 NGSD).).

生信软件文章推荐

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

生信软件3 - mapping比对bam文件质量评估工具 qualimap

生信软件4 - 拷贝数变异CNV分析软件 WisecondorX

生信软件5 - RIdeogram包绘制染色体密度图

生信软件6 - bcftools查找指定区域的变异位点信息

生信软件7 - 多线程并行运行Linux效率工具Parallel

生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计

生信软件9 - 多公共数据库数据下载软件Kingfisher

生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa

生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV

生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )

生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计

生信软件14 - bcftools提取和注释VCF文件关键信息

更多内容请关注公众号【生信与基因组学】,定期更新生信算法和编程、基因组学、统计学、分子生物学、临床检测和深度学习等内容。

这篇关于生信软件15 - 生信NGS数据分析强大的工具集ngs-bits的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/876493

相关文章

探索Elastic Search:强大的开源搜索引擎,详解及使用

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 引入 全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选,相信大家多多少少的都听说过它。它可以快速地储存、搜索和分析海量数据。就连维基百科、Stack Overflow、

电子盖章怎么做_电子盖章软件

使用e-章宝(易友EU3000智能盖章软件)进行电子盖章的步骤如下: 一、准备阶段 软件获取: 访问e-章宝(易友EU3000智能盖章软件)的官方网站或相关渠道,下载并安装软件。账户注册与登录: 首次使用需注册账户,并根据指引完成注册流程。注册完成后,使用用户名和密码登录软件。 二、电子盖章操作 文档导入: 在e-章宝软件中,点击“添加”按钮,导入待盖章的PDF文件。支持批量导入多个文件,

小红书商家电话采集软件使用指南

使用小红书商家电话采集软件可以提高商家电话的采集效率,以下是使用指南及附带代码。 步骤一:安装Python和相关库 首先,确保你的电脑已经安装了Python运行环境(建议安装Python3版本)。安装完成后,同样需要安装一些相关的库,如requests、beautifulsoup4等。在命令行窗口中输入以下命令进行安装: pip install requestspip install bea

数据挖掘和数据分析

数据挖掘(Data Mining)和数据分析(Data Analysis)是现代计算机科学中两个重要的领域。它们虽然紧密相关,但在概念和应用上有一定的区别。下面将从定义、主要技术、应用领域和挑战四个方面详细阐述这两个领域。 一、定义 **数据挖掘**: 数据挖掘是指从大量数据中提取潜在的、有价值的信息和知识的过程。它综合了统计学、机器学习、数据库技术等多种学科的技术和方法。 **数据分析**

剑指Offer—编程题15(链表中倒数第k个结点)

题目:输入一个链表,输出该链表中倒数第k 个结点.为了符合大多数人的习惯,本题从1 开始计数,即链表的尾结点是倒数第1 个结点.例如一个链表有6 个结点,从头结点开始它们的值依次是1 、2、3、4、5 、6。这个个链表的倒数第3 个结点是值为4 的结点. public static class ListNode {int value;ListNode next;} 解题思路:

服务器监控:运维行业的核心保障与第三方监控软件的选择

随着信息技术的飞速发展,企业IT架构日益复杂,服务器作为整个IT系统的核心,其稳定性和性能对业务的连续性至关重要。在运维行业中,服务器监控作为保障服务器稳定运行的关键环节,已经受到了越来越多企业的重视。本文将探讨服务器监控的重要性、挑战以及选择第三方监控软件的原因,并推荐一款优秀的服务器监控软件——监控易。 一、服务器监控的重要性     服务器监控是指对服务器硬件、操作系统、应用程序

docx转doc工具(软件)

word中的docx转成doc格式软件下载: http://pan.baidu.com/s/1ntsi0yt <script>window._bd_share_config={"common":{"bdSnsKey":{},"bdText":"","bdMini":"2","bdMiniList":false,"bdPic":"","bdStyle":"0","bdSize

python3GUI--ktv点歌软件By:PyQt5(附下载地址)

文章目录 一.前言二.展示1.启动2.搜索2.服务1.首页2.天气预报3.酒水饮料4.酒水饮料2 3.服务4.灯光5.调音6.排行榜7.分类点歌9.歌手点歌10.歌手个人页 三.心得体会1.关于代码2.关于设计3.关于打包 四.总结 文件大小:33.13M https://wwt.lanzoul.com/iikRv22iqmpg 如果安装后打不开,多半是权限问题,请使用管理

web前端不可错过的开发工具–Adobe Brackets(开源、简洁强大的HTML、CSS和JavaScript集成开发环境)

Adobe Brackets是一个开源的基于HTML/CSS/JavaScript开发,运行在native shell上的集成开发环境。该项目由Adobe创建和维护,根据MIT许可证发布。提供Windows和OS X平台支持。 Brackets的特点是简约、快捷,没有很多的视图或者面板,它的核心目标是减少在开发过程中那些效率低下的重复性工作,例如浏览器刷新,修改元素的样式,搜索功能等等。

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡