【 10X summary report】怎么看?详细解读笔记

2024-03-04 06:52

本文主要是介绍【 10X summary report】怎么看?详细解读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

报告内容

在开始正式的分析之前,需要查看在对齐和计数过程中生成的任何总结统计信息。下图是由Cell Ranger工具创建的10X总结报告,在从10X scRNA-seq实验生成计数矩阵时会生成。

 The left half of the report describes sequencing and mapping statistics. One thing to note is the “sequencing saturation”, which estimates the proportion of mRNA transcripts that has been sequenced. This is calculated by downsampling the mean number of reads per cell and obtaining the corresponding number of UMIs (nUMI). The relationship between the number of UMIs obtained against the number of reads is then extrapolated to the asymptote, which corresponds to 100% saturation. A low sequencing saturation implies that deeper sequencing will likely recover more UMIs. That said, some preliminary analysis should first be performed to determine if the current number of UMIs recovered is able to answer the biological questions of interest. Also, check that a high percentage of reads are mapped to the genome, which indicates low amounts of contamination.

The top-right portion of the report plots the nUMI captured in each droplet / barcode, with the droplets ordered in decreasing nUMI from left to right. On the left side of the plot, droplets have very high nUMI and are likely to contain cells. As we scan through the droplets towards the right, we eventually encounter a “knee point” where there is a drastic drop in the nUMI. This likely signifies a transition from observing cell-containing droplets to droplets containing cell debris or no cells at all. Droplets that are deemed by Cell Ranger to contain cells are coloured blue here and the algorithm tends to include slightly more cells beyond the plot shoulder. These cells with smaller nUMIs will have to be removed in the quality control step.

From the summary report, there is another important observation: the nUMI does not correspond to the number of reads per cell. Recall that this is because reads with the same UMI originated from a single mRNA molecule and is thus treated as a single UMI count . Thus, the number of counts i.e. nUMI is usually only a fraction (about 1/8 to 1/3) of the number of reads.

 下图为本人使用CellRanger V5.2.0对语一个单细胞数据跑出的结果

报告解读

细胞和基因数目的评估

  1. Estimated number of cells - 样本测到的细胞数
  2. Mean reads per cell - 每个细胞测到的平均reads
  3. Median genes per cell - 每个细胞基因数的中位数

Sequencing中

Number of reads - 测到的总read数目

Valid barcodes - UMI校正后匹配的UMI数量

Sequencing saturation:测序饱和度。一般60-80%比较合适(阈值范围可以适当调整,但是高于70%或80%左右绝对OK)。如果测到的细胞数多,但是每个细胞里面的平均reads数少,那么饱和度就不高,反之,饱和度高。但也不是越高越好,背后原理是抽样的原理,到达80%左右就可以代表整个样本了。

Q30 bases in barcode - 基于barcode的分数,大于30的比率

Q30 bases in RNA read - 基于RNA read的分数,大于30的比率

Q30 bases in UMI - 基于UMI的分数,大于30的比率

认为要一般要大于65%,少于这个比例的话,这个页面会报错,

Mapping结果

  1. Reads mapped to genome - 比对到选定基因组的reads
  2. Reands mapped confidently to genome - 仅仅比对到基因组的reads,如果一条reads既可以比对到外显子区又可以比对到非外显子区,那么算比对到了其中一个外显子区
  3. Reads mapped confidently to intergenic regions - 比对到基因组的基因间区域
  4. Reads mapped confidently to intronic regions - 比对到内含子区域
  5. Reads mapped confidently to exonic regions - 比对到外显子区域
  6. Reads mapped confidently to transcriptome - 比对到转录组的reads,这些读数可以用来UMI的计数
  7. Reads mapped antisense to gene - 比对到基因的相反的reads

细胞数目评估Cells图

横轴是barcodes,纵轴是UMI数量。通过barcode上的UMI标签分布来评估细胞数目,深蓝色代表细胞,灰色代表背景。

在前期磁珠(bead)与细胞形成油包水的结构过程中,会存在没有把细胞包进去的情况,这时候的油包水结构里面就只有磁珠和一些barcode的序列,而cDNA的碱基序列一般都是barcode碱基序列的10倍以上,就是由此来确定哪些是真实的细胞,哪些是background。

其他指标

  1. Estimated number of cells - 样本测到的细胞数
  2. Fraction reads in cells - valid-UMI的质量分数,代表与细胞相关的UMI可靠地比对到基因组,一般要在70%及以上,否则数据质量就不好
  3. Mean reads per cell - 每个细胞测到的平均reads
  4. Median genes per cell - 每个细胞的基因数中位数
  5. Total genes detected - 测到的总基因数,至少有一条UMI
  6. Median UMI counts per cell - 细胞UMI数量的中间值

饱和度评估

  1. 对reads抽样,观察不同抽样条件下检测到的转录本数量占检测到的所有转录本的比例。(如果曲线末端区域平滑,说明测序接近饱和,再增加测序量,覆盖到的转录本数目也不会变化太多。)
  2. 对reads抽样,观察不同测序数据量情况下检测到的基因数目的分布。(如果曲线末端区域平滑,说明测序接近饱和,再增加测序量,检测到的基因数目也不会变化太多。)

Reference

[1] A Guide to Analyzing Single-cell Datasets, John F. Ouyang, January 2023

这篇关于【 10X summary report】怎么看?详细解读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/772333

相关文章

如何为Yarn配置国内源的详细教程

《如何为Yarn配置国内源的详细教程》在使用Yarn进行项目开发时,由于网络原因,直接使用官方源可能会导致下载速度慢或连接失败,配置国内源可以显著提高包的下载速度和稳定性,本文将详细介绍如何为Yarn... 目录一、查询当前使用的镜像源二、设置国内源1. 设置为淘宝镜像源2. 设置为其他国内源三、还原为官方

最详细安装 PostgreSQL方法及常见问题解决

《最详细安装PostgreSQL方法及常见问题解决》:本文主要介绍最详细安装PostgreSQL方法及常见问题解决,介绍了在Windows系统上安装PostgreSQL及Linux系统上安装Po... 目录一、在 Windows 系统上安装 PostgreSQL1. 下载 PostgreSQL 安装包2.

Mysql用户授权(GRANT)语法及示例解读

《Mysql用户授权(GRANT)语法及示例解读》:本文主要介绍Mysql用户授权(GRANT)语法及示例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql用户授权(GRANT)语法授予用户权限语法GRANT语句中的<权限类型>的使用WITH GRANT

MySql match against工具详细用法

《MySqlmatchagainst工具详细用法》在MySQL中,MATCH……AGAINST是全文索引(Full-Textindex)的查询语法,它允许你对文本进行高效的全文搜素,支持自然语言搜... 目录一、全文索引的基本概念二、创建全文索引三、自然语言搜索四、布尔搜索五、相关性排序六、全文索引的限制七

python中各种常见文件的读写操作与类型转换详细指南

《python中各种常见文件的读写操作与类型转换详细指南》这篇文章主要为大家详细介绍了python中各种常见文件(txt,xls,csv,sql,二进制文件)的读写操作与类型转换,感兴趣的小伙伴可以跟... 目录1.文件txt读写标准用法1.1写入文件1.2读取文件2. 二进制文件读取3. 大文件读取3.1

Linux内核参数配置与验证详细指南

《Linux内核参数配置与验证详细指南》在Linux系统运维和性能优化中,内核参数(sysctl)的配置至关重要,本文主要来聊聊如何配置与验证这些Linux内核参数,希望对大家有一定的帮助... 目录1. 引言2. 内核参数的作用3. 如何设置内核参数3.1 临时设置(重启失效)3.2 永久设置(重启仍生效

如何在Mac上安装并配置JDK环境变量详细步骤

《如何在Mac上安装并配置JDK环境变量详细步骤》:本文主要介绍如何在Mac上安装并配置JDK环境变量详细步骤,包括下载JDK、安装JDK、配置环境变量、验证JDK配置以及可选地设置PowerSh... 目录步骤 1:下载JDK步骤 2:安装JDK步骤 3:配置环境变量1. 编辑~/.zshrc(对于zsh

电脑死机无反应怎么强制重启? 一文读懂方法及注意事项

《电脑死机无反应怎么强制重启?一文读懂方法及注意事项》在日常使用电脑的过程中,我们难免会遇到电脑无法正常启动的情况,本文将详细介绍几种常见的电脑强制开机方法,并探讨在强制开机后应注意的事项,以及如何... 在日常生活和工作中,我们经常会遇到电脑突然无反应的情况,这时候强制重启就成了解决问题的“救命稻草”。那

python3 gunicorn配置文件的用法解读

《python3gunicorn配置文件的用法解读》:本文主要介绍python3gunicorn配置文件的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录python3 gunicorn配置文件配置文件服务启动、重启、关闭启动重启关闭总结python3 gun

关于pandas的read_csv方法使用解读

《关于pandas的read_csv方法使用解读》:本文主要介绍关于pandas的read_csv方法使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录pandas的read_csv方法解读read_csv中的参数基本参数通用解析参数空值处理相关参数时间处理相关