1.基于python的单细胞数据预处理-特征选择

2024-05-11 08:12

本文主要是介绍1.基于python的单细胞数据预处理-特征选择,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 特征选择背景
  • 基于基因离散度
  • 基于基因归一化方差
  • 基于基因皮尔森近似残差
  • 特征选择总结

参考:
[1] https://github.com/Starlitnightly/single_cell_tutorial
[2] https://github.com/theislab/single-cell-best-practices

特征选择背景

现在已经获得了经过归一化的测序数据,其保留了细胞异质性,同时削弱了测量误差。统计发现,一个细胞表达的基因大约是3000个左右。这意味着测序数据中的一大部分基因是0计数。对于细胞亚型的研究,大部分0计数基因都在这些细胞亚型中,因此,预处理还包含特征选择,可以排除这些不具备分析意义的基因。

基因特征选择一般有三种方法:基于基因离散度,基于基因归一化方差,基于基因的皮尔森残差。

基于基因离散度

在传统的分析流程中,我们会采用基于基因离散度的方式去计算高变基因,一般来说,我们首先确定了单细胞数据集中变异最大的一组基因。我们计算了所有单细胞中每个基因的平均值和离散度(方差/平均值),并根据基因的平均值将基因分为 20 个箱(bins)。然后,在每个箱内,我们对箱内所有基因的离散度进行z归一化,以识别表达值高度可变的基因。

我们使用移位对数归一化后的数据:

import omicverse as ov
import scanpy as scov.utils.ov_plot_set()adata = sc.read("./data/s4d8_quality_control.h5ad")#存储原始数据以便后续还原
ov.utils.store_layers(adata,layers='counts')
adata.layers['counts'] = adata.X.copy()sc.pp.normalize_total(adata)
sc.pp.log1p(adata)
print(adata)

调用scanpy包里的pp.highly_variable_genes函数来计算高可变基因,由于我们使用的是基于基因离散度的方法,故设置flavor='seurat',该方法也是默认方法。基于基因离散度的方法寻找高变基因有两个方式:

  • 指定HVG数量,应用广泛,简单直接。
  • 指定离散度,数据敏感,应用其实很少,还是推荐指定HVG数量。

对于指定HVG数量:

adata_dis_num=sc.pp.highly_variable_genes(adata,flavor="seurat",n_top_genes=2000,subset=False,inplace=False,
)
print(adata)
print(adata_dis_num)
print(adata_dis_num['highly_variable'].value_counts())

设置inplace=False,将不会改变adata的var(打印adata的视图时,var中没有出现highly_variable)。输出为:
fig1
我们发现,一共选择了2000个高可变基因,这与我们最开始的分析目标一致。

基于基因归一化方差

在seurat v3中,提出了基于基因归一化方差做特征选择,我们不再使用归一化后的数据来计算高变基因。我们首先计算每一个基因的平均值 x ‾ i \overline{x}_{i} xi与方差 σ i \sigma_{i} σi,然后分别对平均值与方差进行log对数变换,然后用2次多项式,将方差作为均值的函数,进行多项式回归: σ ( x ) = a x 2 + b x + c \sigma(x)=ax^{2}+bx+c σ(x)=ax2+bx+c通过这个公式,可以获得每一个基因的预测方差,然后进行z变换: z i j = x i j − x ‾ i σ ( x i ) z_{ij}=\frac{x_{ij}-\overline{x}_{i}}{\sigma(x_{i})} zij=σ(xi)xijxi其中, z i j z_{ij} zij是细胞 j j j中基因 i i i的归一化值, x i j x_{ij} xij是细胞 j j j中基因 i i i的原始值, x ‾ i \overline{x}_{i} xi是所有细胞基因 i i i的平均原始值, σ ( x i ) \sigma(x_{i}) σ(xi)是预测的方差。对于特征选择,根据预测的方差进行排序即可。

在scanpy中,需要flavor='seurat_v3',并指定计数矩阵是没有归一化的layer='counts'

adata_var_num=sc.pp.highly_variable_genes(adata,flavor="seurat_v3",layer='counts',n_top_genes=2000,subset=False,inplace=False,
)
print(adata_var_num['highly_variable'].value_counts())

基于基因皮尔森近似残差

基于皮尔森近似的方法也是使用原始计数:

adata_pearson_num=sc.experimental.pp.highly_variable_genes(adata, flavor="pearson_residuals",layer='counts',n_top_genes=2000,subset=False,inplace=False,
)
print(adata_pearson_num['highly_variable'].value_counts())

特征选择总结

对比三种不同的方法:

import matplotlib.pyplot as plt
from matplotlib_venn import venn3adata_dis_num.index=adata.var_names.copy()
adata_var_num.index=adata.var_names.copy()
adata_pearson_num.index=adata.var_names.copy()# 三个列表的元素
list1 = set(adata_dis_num.loc[adata_dis_num['highly_variable']==True].index.tolist())
list2 = set(adata_var_num.loc[adata_var_num['highly_variable']==True].index.tolist())
list3 = set(adata_pearson_num.loc[adata_pearson_num['highly_variable']==True].index.tolist())# 绘制 Venn 图
venn = venn3([list1, list2, list3], set_labels=('Dis', 'Var', 'Pearson'))# 显示图形
plt.title("Venn Diagram of Three HVGs")
plt.savefig("./result/2-5.png")

fig2

发现三种不同方法所找到的高可变基因(HVGs)仅有656个是相同的,这意味着不同的方法所寻找到的高可变基因会影响下游分析的结果一致性。如果对时间要求不严格,推荐使用皮尔森残差法来获得高可变基因。如果需要快速,推荐基于基因离散度的方法。

在omicverse中,归一化和特征选择预处理被包装好了,mode参数为normalize|HVGs,前者是归一化,后者是特征选择:

adata = sc.read("./data/s4d8_quality_control.h5ad")
#存储原始数据以便后续还原
ov.utils.store_layers(adata,layers='counts')
adata.layers['counts']=adata.X.copy()adata=ov.pp.preprocess(adata,mode='shiftlog|pearson',n_HVGs=2000)
print(adata)# 存储预处理后的数据
adata.write_h5ad('./data/s4d8_preprocess.h5ad')

在结果上,注意:与scanpy不同,omicverse计算高可变基因后,将保存为var['highly_variable_features'],而在scanpy中,HVG将保存为var['highly_variable'],都是包含bool值的Series。

这篇关于1.基于python的单细胞数据预处理-特征选择的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/978976

相关文章

Python将博客内容html导出为Markdown格式

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转... 目录一、为什么要搞?二、准备如何搞?三、说搞咱就搞!抓取文章提取内容构建html转存markdown

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.