两列样本的差异基因筛选

2023-11-09 18:30

本文主要是介绍两列样本的差异基因筛选,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

两列样本数据的差异基因筛选方法:
FoldChange法+FDR控制
其中,FDR值的计算方法如下:

1)对每个基因进行p-value的计算
假设观测到基因A对应的reads数为x,已知在一个大文库中,每个基因的表达量只占所有基因表达量的一小部分,在这种情况下,p(x)的分布服从泊松分布。已知样本一中唯一比对到基因组的总reads数为N1,样本二中唯一比对到基因组的总reads数为N2,样本一中唯一比对到基因A的总reads数为x,样本二中唯一比对到基因A的总reads数为y,则基因A在两样本中表达量相等的概率可由以下公式计算:


2)用FDR错误控制法对p-value作多重假设检验校正
FDR错误控制法是Benjamini于1995年提出一种方法,通过控制FDR(False Discovery Rate)来决定P值的域值. 假设你挑选了R个差异表达的基因,其中有S个是真正有差异表达的,另外有V个其实是没有差异表达的,是假阳性的。实践中希望错误比例Q=V/R平均而言不能超过某个预先设定的值(比如0.05),在统计学上,这也就等价于控制FDR不能超过5%.
对所有候选基因的p值进行从小到大排序,则若想控制fdr不能超过q,则只需找到最大的正整数i,使得 p(i)<= (i*q)/m.然后,挑选对应p(1),p(2),...,p(i)的基因做为差异表达基因,这样就能从统计学上保证fdr不超过q。 因此,FDR的计算公式如下:

q-value(i)=p(i)*length(p)/rank(p)


首先将n个基因的原始P值由大到小排序,将最大P值赋值为n,最小P值赋值为1。校正P值=原始P值*(n/i)。其中n表示所有的基因个数,i表示从小到大第i个P值。例如下表中,共6个基因,因此n=6,从大到小排序后,第1大的原始P值0.0687,其校正P值为0.06873*(6/6)=0.0687;第2大的原始P值0.0235,其校正P值为0.0235*(6/5)=0.0282;……;第6大的原始P值0.0003,其校正P值为0.0003*(6/1)=0.002。
  但是要注意第3大的原始P值 0.0192,如果按公式计算其校正P值为0.0195*(6/4)=0.0288,但是FDR在计算校正P值时,需要将当前计算值与上一个计算值比较,取二者中最小值。比如,第3大原始P值所计算的校正P值为0.0288,与上一个校正P值0.0282相比,0.0282更小,因此这里的值不是0.0288,而是0.0282。




参考文献:
1.Audic, S. and J. M. Claverie (1997). The significance of digital gene expression profiles. Genome Res 7(10): 986-95.
2.Benjamini, Y. and D. Yekutieli (2001). The control of the false discovery rate in multiple testing under dependency. The Annals of Statistics. 29: 1165-1188.

这篇关于两列样本的差异基因筛选的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/377857

相关文章

Superset二次开发之Select 筛选器源码分析

路径:superset-frontend/src/filters/components/Select  源码文件: 功能点: 作用 交互 功能 index.ts作为模块的入口点,导出其他文件中定义的主要组件和函数。它使其他文件中的导出可以被外部模块使用。 SelectFilterPlugin.tsx 定义主要的插件类 SelectFilterPlugin 和组件 Sele

移动UI:分类列表页、筛选页的设计揭秘。

移动UI的列表页设计需要考虑用户体验和界面美观性,以下是一些建议的设计要点: 1. 列表项的展示: 列表页应该清晰地展示各个列表项,包括标题、副标题、缩略图等内容,以便用户快速浏览和识别。可以使用卡片式布局或者简洁的列表布局。 2. 搜索和筛选: 如果列表项较多,应该提供搜索和筛选功能,方便用户查找感兴趣的内容。搜索框和筛选条件可以放置在页面顶部或者底部,以便用户方便操作。

医院检验系统LIS源码,LIS系统的定义、功能结构以及样本管理的操作流程

本文将对医院检验系统LIS进行介绍,包括LIS系统的定义、功能结构以及样本管理的操作流程方面。 LIS系统定义 LIS系统(Laboratory Information System)是一种专门为临床检验实验室开发的信息管理系统,其主要功能包括实验室信息管理、样本管理、检验结果管理、质量控制管理、数据分析等。其主要作用是管理医院实验室的各项业务,包括样本采集、检验、结果录入和报告生成等。Li

如何借助AI快速筛选和整理文献?

AIPaperGPT,论文写作神器~ https://www.aipapergpt.com/ 在撰写毕业论文时,文献综述是必不可少的部分。它不仅为你的研究提供理论背景,还展示了你对研究领域的深入理解。然而,文献综述的撰写过程常常让学生感到头疼,尤其是面对海量文献时,如何有效筛选、整理和撰写是一大难题。 本文将为大家介绍如何利用AI工具帮助你轻松高效地完成文献综述的写作。我们将详细讲解如何快速

【机器学习 sklearn】特征筛选feature_selection

特征筛选更加侧重于寻找那些对模型的性能提升较大的少量特征。 继续沿用Titannic数据集,这次试图通过特征刷选来寻找最佳的特征组合,并且达到提高预测准确性的目标。 #coding:utf-8from __future__ import divisionimport sysreload(sys)sys.setdefaultencoding('utf-8')import timest

PDF样本图册转换为一个二维码,随时扫码打开无需印刷

在这个数字化时代,纸质样本图册已成为过去。如今,一切都变得触手可及,包括我们的PDF样本图册。想象一下,将这些图册转换为一个二维码,让客户随时扫码打开,无需印刷,这将带来多大的便利和环保效益!接下来就让我来教你如何轻松实现PDF样本图册到二维码的转换,让您与时俱进,走在环保科技的前沿吧。 1. 准备好制作工具:FLBOOK在线制作电子杂志平台 2. 转换文档:点击开始

很多数据进行筛选 orcale 语句

很多数据进行筛选  orcale  语句 一段时间内的数据,先按照时间分组,求出每组时间的数据的最大id,然后对获得的数据排序 如,现有一个月的数据将近1000条,每天都有很多条,先求出每天所有数据中id最大的一条数据,这样每天只有一条数据,在按照时间进行排序,就可以获得这个月的数据(30条),大大减少了数据量 其中:HD_GPS是表名, T_LOG是时间     sel

论文速读|利用局部性提高机器人操作的样本效率

项目地址:SGRv2  本文提出了SGRv2,一个系统的视觉运动政策框架,通过整合动作局部性提高了样本效率。在多个模拟和真实世界环境中进行的广泛评估表明,SGRv2在数据有限的情况下表现出色,并且在不同的控制模式下保持一致的性能。未来的工作可以进一步探索将扩散政策与局部性框架结合,以增强在现实世界中的性能,并扩展泛化测试的范围。 论文初读:

在目标检测模型中使用正样本和负样本组成的损失函数。

文章目录 背景例子说明1. **样本和标签分配**2. **计算损失函数**3. **组合损失函数** 总结 背景 在目标检测模型中,损失函数通常包含两个主要部分: 分类损失(Classification Loss):用于评估模型对目标类别的预测能力。定位损失(Localization Loss):用于评估模型对目标位置的预测准确性。 例子说明 假设我们有一个目标检测模

R-Adapter:零样本模型微调新突破,提升鲁棒性与泛化能力 | ECCV 2024

大规模图像-文本预训练模型实现了零样本分类,并在不同数据分布下提供了一致的准确性。然而,这些模型在下游任务中通常需要微调优化,这会降低对于超出分布范围的数据的泛化能力,并需要大量的计算资源。论文提出新颖的Robust Adapter(R-Adapter),可以在微调零样本模型用于下游任务的同时解决这两个问题。该方法将轻量级模块集成到预训练模型中,并采用新颖的自我集成技术以提高超出分布范围的鲁棒性