基于微阵列基因表达的基因提取选择偏差 --- .632+bootstrap

2024-05-09 00:58

本文主要是介绍基于微阵列基因表达的基因提取选择偏差 --- .632+bootstrap,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

#引用

#LaTex

@article {Ambroise6562,
author = {Ambroise, Christophe and McLachlan, Geoffrey J.},
title = {Selection bias in gene extraction on the basis of microarray gene-expression data},
volume = {99},
number = {10},
pages = {6562–6566},
year = {2002},
doi = {10.1073/pnas.102102699},
publisher = {National Academy of Sciences},
abstract = {In the context of cancer diagnosis and treatment, we consider the problem of constructing an accurate prediction rule on the basis of a relatively small number of tumor tissue samples of known type containing the expression data on very many (possibly thousands) genes. Recently, results have been presented in the literature suggesting that it is possible to construct a prediction rule from only a few genes such that it has a negligible prediction error rate. However, in these results the test error or the leave-one-out cross-validated error is calculated without allowance for the selection bias. There is no allowance because the rule is either tested on tissue samples that were used in the first instance to select the genes being used in the rule or because the cross-validation of the rule is not external to the selection process; that is, gene selection is not performed in training the rule at each stage of the cross-validation process. We describe how in practice the selection bias can be assessed and corrected for by either performing a cross-validation or applying the bootstrap external to the selection process. We recommend using 10-fold rather than leave-one-out cross-validation, and concerning the bootstrap, we suggest using the so-called .632+ bootstrap error estimate designed to handle overfitted prediction rules. Using two published data sets, we demonstrate that when correction is made for the selection bias, the cross-validated error is no longer zero for a subset of only a few genes. AE,apparent error rate;CV,cross-validated;RFE,recursive feature elimination;SVM,support vector machine},
issn = {0027-8424},
URL = {http://www.pnas.org/content/99/10/6562},
eprint = {http://www.pnas.org/content/99/10/6562.full.pdf},
journal = {Proceedings of the National Academy of Sciences}
}

#Normal

Ambroise, Christophe,
and Geoffrey J. McLachlan.
“Selection bias in gene extraction on the basis of microarray gene-expression data.”
Proceedings of the National Academy of Sciences
99.10 (2002): 6562-6566.
Web. 15 May. 2018.


#主要内容

对于微阵列基因样本,其样本数目较少,基因数目非常多

提出了一种更准确的测试评估方法。

偏倚选择 — 基于部分样本训练,基于部分样本测试

结果过于乐观

M M M折交叉验证 CV


##Bootstrap

R R R — 预测规则
R k ∗ R_k^* Rk — bootstrap版本的 R R R
K K K — 大小为 n n n的bootstrap采样次数,有放回的
n n n — 原始样本大小

B 1 B1 B1 — 留一法bootstrap误差,对于bootstrap平滑处理的留一法交叉验证,只对未在bootstrap样本的点进行预测

基于 K K K次bootstrap采样的 B 1 B1 B1的Monte Carlo估计如下:

这里写图片描述

I j k I_{jk} Ijk

  • 1, x j x_j xj未在bootstrap样本中
  • 0,反之

k k k — bootstrap采样当前次数

Q j k Q_{jk} Qjk

  • 1, R k ∗ R^*_k Rk x j x_j xj错误归类
  • 0,反之

一般, B . 632 B.632 B.632计算如下:

这里写图片描述

B . 632 + B.632+ B.632+计算如下:

这里写图片描述

这里写图片描述

这里写图片描述

来自类 i i i的样本比例为 p i p_i pi q i q_i qi为它们中被 R R R分到类 i i i的比例。

r r r需要被截断以使其在范围 [ 0 , 1 ] [0,1] [0,1]

w w w的值从B.632( r = 0 r=0 r=0)到B1( r = 1 r=1 r=1)

*B.632+*估计赋予了bootstrap留一误差B1更多的权重,其中,B1-AE所度量的过拟合量相对较大,因此,在当前预测规则 R R R由于特征选择是过拟合的情况下,也是可用的。

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这篇关于基于微阵列基因表达的基因提取选择偏差 --- .632+bootstrap的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/971937

相关文章

Java后端接口中提取请求头中的Cookie和Token的方法

《Java后端接口中提取请求头中的Cookie和Token的方法》在现代Web开发中,HTTP请求头(Header)是客户端与服务器之间传递信息的重要方式之一,本文将详细介绍如何在Java后端(以Sp... 目录引言1. 背景1.1 什么是 HTTP 请求头?1.2 为什么需要提取请求头?2. 使用 Spr

Python 中 requests 与 aiohttp 在实际项目中的选择策略详解

《Python中requests与aiohttp在实际项目中的选择策略详解》本文主要介绍了Python爬虫开发中常用的两个库requests和aiohttp的使用方法及其区别,通过实际项目案... 目录一、requests 库二、aiohttp 库三、requests 和 aiohttp 的比较四、requ

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

el-select下拉选择缓存的实现

《el-select下拉选择缓存的实现》本文主要介绍了在使用el-select实现下拉选择缓存时遇到的问题及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录项目场景:问题描述解决方案:项目场景:从左侧列表中选取字段填入右侧下拉多选框,用户可以对右侧

python解析HTML并提取span标签中的文本

《python解析HTML并提取span标签中的文本》在网页开发和数据抓取过程中,我们经常需要从HTML页面中提取信息,尤其是span元素中的文本,span标签是一个行内元素,通常用于包装一小段文本或... 目录一、安装相关依赖二、html 页面结构三、使用 BeautifulSoup javascript

如何选择适合孤独症兄妹的学校?

在探索适合孤独症儿童教育的道路上,每一位家长都面临着前所未有的挑战与抉择。当这份责任落在拥有孤独症兄妹的家庭肩上时,选择一所能够同时满足两个孩子特殊需求的学校,更显得尤为关键。本文将探讨如何为这样的家庭做出明智的选择,并介绍星贝育园自闭症儿童寄宿制学校作为一个值得考虑的选项。 理解孤独症儿童的独特性 孤独症,这一复杂的神经发育障碍,影响着儿童的社交互动、沟通能力以及行为模式。对于拥有孤独症兄

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个?

跨平台系列 cross-plateform 跨平台应用程序-01-概览 cross-plateform 跨平台应用程序-02-有哪些主流技术栈? cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个? cross-plateform 跨平台应用程序-04-React Native 介绍 cross-plateform 跨平台应用程序-05-Flutte

如何选择SDR无线图传方案

在开源软件定义无线电(SDR)领域,有几个项目提供了无线图传的解决方案。以下是一些开源SDR无线图传方案: 1. **OpenHD**:这是一个远程高清数字图像传输的开源解决方案,它使用SDR技术来实现高清视频的无线传输。OpenHD项目提供了一个完整的工具链,包括发射器和接收器的硬件设计以及相应的软件。 2. **USRP(Universal Software Radio Periphera