1.基于python的单细胞数据预处理-特征选择

2024-05-11 08:12

本文主要是介绍1.基于python的单细胞数据预处理-特征选择,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 特征选择背景
  • 基于基因离散度
  • 基于基因归一化方差
  • 基于基因皮尔森近似残差
  • 特征选择总结

参考:
[1] https://github.com/Starlitnightly/single_cell_tutorial
[2] https://github.com/theislab/single-cell-best-practices

特征选择背景

现在已经获得了经过归一化的测序数据,其保留了细胞异质性,同时削弱了测量误差。统计发现,一个细胞表达的基因大约是3000个左右。这意味着测序数据中的一大部分基因是0计数。对于细胞亚型的研究,大部分0计数基因都在这些细胞亚型中,因此,预处理还包含特征选择,可以排除这些不具备分析意义的基因。

基因特征选择一般有三种方法:基于基因离散度,基于基因归一化方差,基于基因的皮尔森残差。

基于基因离散度

在传统的分析流程中,我们会采用基于基因离散度的方式去计算高变基因,一般来说,我们首先确定了单细胞数据集中变异最大的一组基因。我们计算了所有单细胞中每个基因的平均值和离散度(方差/平均值),并根据基因的平均值将基因分为 20 个箱(bins)。然后,在每个箱内,我们对箱内所有基因的离散度进行z归一化,以识别表达值高度可变的基因。

我们使用移位对数归一化后的数据:

import omicverse as ov
import scanpy as scov.utils.ov_plot_set()adata = sc.read("./data/s4d8_quality_control.h5ad")#存储原始数据以便后续还原
ov.utils.store_layers(adata,layers='counts')
adata.layers['counts'] = adata.X.copy()sc.pp.normalize_total(adata)
sc.pp.log1p(adata)
print(adata)

调用scanpy包里的pp.highly_variable_genes函数来计算高可变基因,由于我们使用的是基于基因离散度的方法,故设置flavor='seurat',该方法也是默认方法。基于基因离散度的方法寻找高变基因有两个方式:

  • 指定HVG数量,应用广泛,简单直接。
  • 指定离散度,数据敏感,应用其实很少,还是推荐指定HVG数量。

对于指定HVG数量:

adata_dis_num=sc.pp.highly_variable_genes(adata,flavor="seurat",n_top_genes=2000,subset=False,inplace=False,
)
print(adata)
print(adata_dis_num)
print(adata_dis_num['highly_variable'].value_counts())

设置inplace=False,将不会改变adata的var(打印adata的视图时,var中没有出现highly_variable)。输出为:
fig1
我们发现,一共选择了2000个高可变基因,这与我们最开始的分析目标一致。

基于基因归一化方差

在seurat v3中,提出了基于基因归一化方差做特征选择,我们不再使用归一化后的数据来计算高变基因。我们首先计算每一个基因的平均值 x ‾ i \overline{x}_{i} xi与方差 σ i \sigma_{i} σi,然后分别对平均值与方差进行log对数变换,然后用2次多项式,将方差作为均值的函数,进行多项式回归: σ ( x ) = a x 2 + b x + c \sigma(x)=ax^{2}+bx+c σ(x)=ax2+bx+c通过这个公式,可以获得每一个基因的预测方差,然后进行z变换: z i j = x i j − x ‾ i σ ( x i ) z_{ij}=\frac{x_{ij}-\overline{x}_{i}}{\sigma(x_{i})} zij=σ(xi)xijxi其中, z i j z_{ij} zij是细胞 j j j中基因 i i i的归一化值, x i j x_{ij} xij是细胞 j j j中基因 i i i的原始值, x ‾ i \overline{x}_{i} xi是所有细胞基因 i i i的平均原始值, σ ( x i ) \sigma(x_{i}) σ(xi)是预测的方差。对于特征选择,根据预测的方差进行排序即可。

在scanpy中,需要flavor='seurat_v3',并指定计数矩阵是没有归一化的layer='counts'

adata_var_num=sc.pp.highly_variable_genes(adata,flavor="seurat_v3",layer='counts',n_top_genes=2000,subset=False,inplace=False,
)
print(adata_var_num['highly_variable'].value_counts())

基于基因皮尔森近似残差

基于皮尔森近似的方法也是使用原始计数:

adata_pearson_num=sc.experimental.pp.highly_variable_genes(adata, flavor="pearson_residuals",layer='counts',n_top_genes=2000,subset=False,inplace=False,
)
print(adata_pearson_num['highly_variable'].value_counts())

特征选择总结

对比三种不同的方法:

import matplotlib.pyplot as plt
from matplotlib_venn import venn3adata_dis_num.index=adata.var_names.copy()
adata_var_num.index=adata.var_names.copy()
adata_pearson_num.index=adata.var_names.copy()# 三个列表的元素
list1 = set(adata_dis_num.loc[adata_dis_num['highly_variable']==True].index.tolist())
list2 = set(adata_var_num.loc[adata_var_num['highly_variable']==True].index.tolist())
list3 = set(adata_pearson_num.loc[adata_pearson_num['highly_variable']==True].index.tolist())# 绘制 Venn 图
venn = venn3([list1, list2, list3], set_labels=('Dis', 'Var', 'Pearson'))# 显示图形
plt.title("Venn Diagram of Three HVGs")
plt.savefig("./result/2-5.png")

fig2

发现三种不同方法所找到的高可变基因(HVGs)仅有656个是相同的,这意味着不同的方法所寻找到的高可变基因会影响下游分析的结果一致性。如果对时间要求不严格,推荐使用皮尔森残差法来获得高可变基因。如果需要快速,推荐基于基因离散度的方法。

在omicverse中,归一化和特征选择预处理被包装好了,mode参数为normalize|HVGs,前者是归一化,后者是特征选择:

adata = sc.read("./data/s4d8_quality_control.h5ad")
#存储原始数据以便后续还原
ov.utils.store_layers(adata,layers='counts')
adata.layers['counts']=adata.X.copy()adata=ov.pp.preprocess(adata,mode='shiftlog|pearson',n_HVGs=2000)
print(adata)# 存储预处理后的数据
adata.write_h5ad('./data/s4d8_preprocess.h5ad')

在结果上,注意:与scanpy不同,omicverse计算高可变基因后,将保存为var['highly_variable_features'],而在scanpy中,HVG将保存为var['highly_variable'],都是包含bool值的Series。

这篇关于1.基于python的单细胞数据预处理-特征选择的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/978976

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss