基于微阵列基因表达的基因提取选择偏差 --- .632+bootstrap

2024-05-09 00:58

本文主要是介绍基于微阵列基因表达的基因提取选择偏差 --- .632+bootstrap,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!



@article {Ambroise6562,
author = {Ambroise, Christophe and McLachlan, Geoffrey J.},
title = {Selection bias in gene extraction on the basis of microarray gene-expression data},
volume = {99},
number = {10},
pages = {6562–6566},
year = {2002},
doi = {10.1073/pnas.102102699},
publisher = {National Academy of Sciences},
abstract = {In the context of cancer diagnosis and treatment, we consider the problem of constructing an accurate prediction rule on the basis of a relatively small number of tumor tissue samples of known type containing the expression data on very many (possibly thousands) genes. Recently, results have been presented in the literature suggesting that it is possible to construct a prediction rule from only a few genes such that it has a negligible prediction error rate. However, in these results the test error or the leave-one-out cross-validated error is calculated without allowance for the selection bias. There is no allowance because the rule is either tested on tissue samples that were used in the first instance to select the genes being used in the rule or because the cross-validation of the rule is not external to the selection process; that is, gene selection is not performed in training the rule at each stage of the cross-validation process. We describe how in practice the selection bias can be assessed and corrected for by either performing a cross-validation or applying the bootstrap external to the selection process. We recommend using 10-fold rather than leave-one-out cross-validation, and concerning the bootstrap, we suggest using the so-called .632+ bootstrap error estimate designed to handle overfitted prediction rules. Using two published data sets, we demonstrate that when correction is made for the selection bias, the cross-validated error is no longer zero for a subset of only a few genes. AE,apparent error rate;CV,cross-validated;RFE,recursive feature elimination;SVM,support vector machine},
issn = {0027-8424},
URL = {http://www.pnas.org/content/99/10/6562},
eprint = {http://www.pnas.org/content/99/10/6562.full.pdf},
journal = {Proceedings of the National Academy of Sciences}


Ambroise, Christophe,
and Geoffrey J. McLachlan.
“Selection bias in gene extraction on the basis of microarray gene-expression data.”
Proceedings of the National Academy of Sciences
99.10 (2002): 6562-6566.
Web. 15 May. 2018.




偏倚选择 — 基于部分样本训练,基于部分样本测试


M M M折交叉验证 CV


R R R — 预测规则
R k ∗ R_k^* Rk — bootstrap版本的 R R R
K K K — 大小为 n n n的bootstrap采样次数,有放回的
n n n — 原始样本大小

B 1 B1 B1 — 留一法bootstrap误差,对于bootstrap平滑处理的留一法交叉验证,只对未在bootstrap样本的点进行预测

基于 K K K次bootstrap采样的 B 1 B1 B1的Monte Carlo估计如下:


I j k I_{jk} Ijk

  • 1, x j x_j xj未在bootstrap样本中
  • 0,反之

k k k — bootstrap采样当前次数

Q j k Q_{jk} Qjk

  • 1, R k ∗ R^*_k Rk x j x_j xj错误归类
  • 0,反之

一般, B . 632 B.632 B.632计算如下:


B . 632 + B.632+ B.632+计算如下:




来自类 i i i的样本比例为 p i p_i pi q i q_i qi为它们中被 R R R分到类 i i i的比例。

r r r需要被截断以使其在范围 [ 0 , 1 ] [0,1] [0,1]

w w w的值从B.632( r = 0 r=0 r=0)到B1( r = 1 r=1 r=1)

*B.632+*估计赋予了bootstrap留一误差B1更多的权重,其中,B1-AE所度量的过拟合量相对较大,因此,在当前预测规则 R R R由于特征选择是过拟合的情况下,也是可用的。






这篇关于基于微阵列基因表达的基因提取选择偏差 --- .632+bootstrap的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!




《使用Python在Excel中插入、修改、提取和删除超链接》超链接是Excel中的常用功能,通过点击超链接可以快速跳转到外部网站、本地文件或工作表中的特定单元格,有效提升数据访问的效率和用户体验,这... 目录引言使用工具python在Excel中插入超链接Python修改Excel中的超链接Python


《C#从XmlDocument提取完整字符串的方法》文章介绍了两种生成格式化XML字符串的方法,方法一使用`XmlDocument`的`OuterXml`属性,但输出的XML字符串不带格式,可读性差,... 方法1:通过XMLDocument的OuterXml属性,见XmlDocument类该方法获得的xm


《C#提取PDF表单数据的实现流程》PDF表单是一种常见的数据收集工具,广泛应用于调查问卷、业务合同等场景,凭借出色的跨平台兼容性和标准化特点,PDF表单在各行各业中得到了广泛应用,本文将探讨如何使用... 目录引言使用工具C# 提取多个PDF表单域的数据C# 提取特定PDF表单域的数据引言PDF表单是一


《C#实现添加/替换/提取或删除Excel中的图片》在Excel中插入与数据相关的图片,能将关键数据或信息以更直观的方式呈现出来,使文档更加美观,下面我们来看看如何在C#中实现添加/替换/提取或删除E... 在Excandroidel中插入与数据相关的图片,能将关键数据或信息以更直观的方式呈现出来,使文档更


《Java后端接口中提取请求头中的Cookie和Token的方法》在现代Web开发中,HTTP请求头(Header)是客户端与服务器之间传递信息的重要方式之一,本文将详细介绍如何在Java后端(以Sp... 目录引言1. 背景1.1 什么是 HTTP 请求头?1.2 为什么需要提取请求头?2. 使用 Spr

Python 中 requests 与 aiohttp 在实际项目中的选择策略详解

《Python中requests与aiohttp在实际项目中的选择策略详解》本文主要介绍了Python爬虫开发中常用的两个库requests和aiohttp的使用方法及其区别,通过实际项目案... 目录一、requests 库二、aiohttp 库三、requests 和 aiohttp 的比较四、requ


《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加


《el-select下拉选择缓存的实现》本文主要介绍了在使用el-select实现下拉选择缓存时遇到的问题及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录项目场景:问题描述解决方案:项目场景:从左侧列表中选取字段填入右侧下拉多选框,用户可以对右侧


《python解析HTML并提取span标签中的文本》在网页开发和数据抓取过程中,我们经常需要从HTML页面中提取信息,尤其是span元素中的文本,span标签是一个行内元素,通常用于包装一小段文本或... 目录一、安装相关依赖二、html 页面结构三、使用 BeautifulSoup javascript


在探索适合孤独症儿童教育的道路上,每一位家长都面临着前所未有的挑战与抉择。当这份责任落在拥有孤独症兄妹的家庭肩上时,选择一所能够同时满足两个孩子特殊需求的学校,更显得尤为关键。本文将探讨如何为这样的家庭做出明智的选择,并介绍星贝育园自闭症儿童寄宿制学校作为一个值得考虑的选项。 理解孤独症儿童的独特性 孤独症,这一复杂的神经发育障碍,影响着儿童的社交互动、沟通能力以及行为模式。对于拥有孤独症兄