测序饱和度【cellranger】

2023-11-11 10:50
文章标签 测序 饱和度 cellranger

本文主要是介绍测序饱和度【cellranger】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

  单细胞转录组测序技术逐渐的,就像父辈人年轻时,彰显身份的“大哥大”,变成了我们这一代人,人手一部的现代手机,成了很多文章中的“头牌”或是“锦上添花”的部分,就像普通的转录组测序的发展趋势。
  有时候,为了能在领域内”活下去“,我们不得不拼命的追赶潮流😑

什么是测序饱和度

  常用的单细胞转录组定量工具:cellranger count,其Web Summary中会有一个叫测序饱和度(Sequencing Saturation) 的概念(图示红框)
在这里插入图片描述
引用10X官网的解释,测序饱和度就是:

具体地说,它表示非唯一的可靠比对、有效的细胞条形码和有效的UMI Reads 所占的比例(与现有的细胞Barcode、UMI和基因组合匹配)。

  它是一个比例,反映当前测序量与文库复杂度相关性的指标,其大小主要取决于测序深度和文库复杂度。如何考量?
  一般来说,测序Reads越多,被检测到是独特转录本的频次就越大。被检测到的基因数会随着测序深度的增加而增加,但当测序深度达到一定程度,被检测到基因数量的增加程度逐渐变缓,直到不再随测序深度增加而增加,即达到饱和。测序饱和度可以一定程度上反应测序的深度是否足够。
在这里插入图片描述

  不同类型的细胞通常有不同数量、不同类型的转录本,因此不同类型细胞建成的文库复杂度存在差异。复杂度高的文库中,检测一个新转录本所需的额外Reads更多,即需要测更多的Reads增加饱和度。
那么,多少的测序饱和度是合适的、足够的? 我不能给出确切的数值,只能说,要根据实验材料和需求等,”因地制宜“,综合考量测序饱和度、基因中个位数等信息,比如,拟南芥的单细胞转录组测序,一个样本测了100G,拿到了10k左右细胞,基因中位数有3.5k多,测序饱和度有30%,我会认为饱和度可能够了,这个数据很好,因为拟南芥大概有2.5w个基因,同样的,如果换成了水稻的单细胞转录组,一个样本同样测了100G,10k左右细胞,基因中位数有3.5k左右,测序饱和度有30%,我会认为,这个数据还不错,因为水稻的基因大概有3.5w,比拟南芥要多出很多,这个时候,我可能会考虑,是不是要再加测50G(提高测序深度)来提高测序饱和度,获得更多信息。
  当我拿到一份数据的时候,往往会先分析下去,然后再回头考量数据的好坏。

如何计算

最后,聊一聊对于我来说,可能不那么重要的计算方式:
S e q u e n c i n g S a t u r a t i o n = 1 − n d e d u p e d R e a d s n R e a d s Sequencing Saturation = 1 - \frac{n_{dedupedReads}}{n_{Reads}} SequencingSaturation=1nReadsndedupedReads
n d e d u p e d R e a d s n_{dedupedReads} ndedupedReads:可靠比对的Reads中,唯一的(有效Barcode、UMI、基因)组合数量
n R e a d s n_{Reads} nReads:所有的可靠比对、有效Barcode、UMI的总Reads
n R e a d s = U n i q u e C o n f i d e n t l y M a p p e d R e a d s + ( D u p l i c a t e R e a d s − U n m a p p e d D u p l i c a t e s ) n_{Reads} = UniqueConfidentlyMappedReads + (DuplicateReads - UnmappedDuplicates) nReads=UniqueConfidentlyMappedReads+(DuplicateReadsUnmappedDuplicates)

一个例子

10X的示例数据: https://support.10xgenomics.com/single-cell-gene-expression/datasets/3.0.0/pbmc_1k_v3
在这里插入图片描述
Web Summary 中显示测序饱和度为:0.7085123,计算数据及过程大概为:

unique_confidently_mapped_reads = 10,196,940
duplicate_reads = 24,785,461x = 1 - (unique_confidently_mapped_reads/(unique_confidently_mapped_reads + duplicate_reads))
x = 1 - (10,196,940/(10,196,940 + 24,785,461))
x = 1 - (10,196,940/34,982,401)
x = 1 - 0.29148771
x = 0.70851229

那这些数据怎么来的?
  首先,unique_confidently_mapped_reads,就是前面翻译成唯一可靠比对Reads的东西……在BAM文件中会被 xf tag 标记值为25(1 + 8 + 16),具体的含义可以参考10X output,可以使用samtools查看:

samtools view pbmc_possorted_genome_bam.bam | grep 'xf:i:25' | wc -l 

  然后,duplicate_reads会被SAM/BAM flag 标记为 0X400,可以通过samtools flagstat获取:

samtools flagstat pbmc_possorted_genome_bam.bam
76920923 + 0 in total (QC-passed reads + QC-failed reads)
10319036 + 0 secondary
0 + 0 supplementary
24785461 + 0 duplicates
73840063 + 0 mapped (95.99% : N/A)
...

  之后,计算unmapped_duplicates
如 10X output 中最后一个表格所述,Feature Barcode Read都是Unmapped。在这些Reads中,有一些会被标记为duplicate,此时SAM flag为1028。可是使用samtools view获取:

samtools PBMC_possorted_genome_bam.bam | grep 'fb:Z:' | cut -f2 | grep '1028' | wc -l

之后,就是把数字带进公式,计算出测序饱和度……

参考:
  1. https://kb.10xgenomics.com/hc/en-us/articles/115003646912-How-is-sequencing-saturation-calculated-
  2. https://kb.10xgenomics.com/hc/en-us/articles/115005062366

这篇关于测序饱和度【cellranger】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/389533

相关文章

杨树84K品种的单细胞测序发现转录因子PagMYB31的功能-文献精读44

Transcription factor PagMYB31 positively regulates cambium activity and negatively regulates xylem development in poplar 转录因子PagMYB31正向调控杨树84K品种的形成层活动,并负向调控木质部的发育。 同样有篇文献,二倍体毛白杨基因组~ 二倍体毛白杨(Populus

全外显子测序分析流程3 - Exon.Interval.bed文件生成和BAM文件标记重复

全外显子测序分析流程3 - Exon.Interval.bed文件生成和BAM文件标记重复 分析流程步骤其他相关文章: Python处理生信分析流程配置文件4种方法 全外显子测序分析流程1 - Fastq质控与去接头、低质量和引物序列 全外显子测序分析流程2 - BWA-MEM比对到参考基因组与BAM统计 1. 封装流程特点 python封装, 参数控制配置文件设置核心参数,便于全流程

测序界的第一次

第一个被测序的全基因组:X174噬菌体  1977 第一个被测序的爬行动物基因组:北美绿色安乐蜥(Anolis carolinensis) 2011 第一个被测序的藻类基因组:超小型原始红藻(Cyanidioschyzon merolae) 2004 第一个被测序的多细胞生物: 秀丽隐杆线虫 (Caenorhabditis elegan)

[开源]Qt图片调整之饱和度调节

原理较简单不作详述   QImage AdjustSaturation(QImage Img, int iSaturateValue){int red, green, blue, nRed, nGreen, nBlue;int pixels = Img.width() * Img.height();unsigned int *data = (unsigned int *)Img.bits()

简化基因组的测序方法

RAD-Seq(restriction site-associated DNA sequencing)最开始指的是2008年发表在PLOS ONE上“Rapid SNP discovery and genetic mapping using sequenced RAD markers"提出的方法,目前该文章的引用已经达到1200+,现在指代的是一系列基于限制性内切酶的测序技术。同样在概念上被引申的

biostar handbook|如何模拟NGS测序结果

如何用软件模拟NGS数据 为了评价一个工具的性能,通常我们都需要先模拟一批数据。这样相当于有了参考答案,才能检查工具的实际表现情况。因此对于我们而言,面对一个新的功能,可以先用模拟的数据测试下不同工具的优缺点。有如下几个工具值得推荐一下: 'wgsim/dwgsim': 从全基因组中获取测序reads'msbar': EMBOSS其中一个工具,能够从单个序列中模拟随机突变'biosed': E

全外显子测序分析流程1 - Fastq质控与去接头、低质量和引物序列

全外显子测序分析流程1 - Fastq质控与去接头、低质量和引物序列 1. 运行实例 # -d 样本根目录# -s 样本名称python trim_fastq.py -d /result/WES/sample -s sample 2. fastqc质控报告与去接头、低质量序列主程序 对raw fastq和clean fastq生成质控QC报告trim_galore去接头、低质量序列和

Nature Microbiology丨VITA单细菌转录组测序技术助力深入解析奶牛瘤胃微生物组功能异质性

瘤胃微生物组一直以来都是研究相对不足但又极其复杂的微生物生态系统之一。瘤胃微生物能够有效降解植物纤维,将其转化为高质量的蛋白质产品,在这一过程中,由于微生物强烈的发酵,还会产生大量气体,其成分主要包括二氧化碳和甲烷等温室气体,还有少量的氮气和微量的氢气、氧气和硫化氢,这些排放的温室气体甚至会对全球环境造成较大的影响。近些年以来,在宏组学技术的推动下,对瘤胃微生态系统功能的认识已取得了显著进展。然而

易基因:RNA免疫共沉淀测序 (RIP-seq) 技术介绍

大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 RIP-seq是将RNA免疫共沉淀(RNA Immunoprecipitation,RIP)与二代测序技术(NGS)相结合以研究细胞内RNA与蛋白互作的技术,RIP利用目标蛋白抗体把相应的RNA-蛋白复合物(RNA Binding Protein,RBP)沉淀下来,然后经过富集和纯化就可以对结合在复合物上的RNA进行测序分析。 R

小RNA的测序技术路线以及分析流程

小RNA(SmallRNA)是生命活动重要的调控因子,在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。Illumina GAiix 能够对样品中的全部Small RNA 进行深度测序,达到定性定量的研究目的。每个样品可得到3 Million 以上的Small RNA 测序序列。通过大量的平行测序,可以发掘、鉴定并定量出任何物种全基因组水平的小RNA 图谱、新miRN