基于微阵列基因表达的基因提取选择偏差 --- .632+bootstrap

2024-05-09 00:58

本文主要是介绍基于微阵列基因表达的基因提取选择偏差 --- .632+bootstrap,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

#引用

#LaTex

@article {Ambroise6562,
author = {Ambroise, Christophe and McLachlan, Geoffrey J.},
title = {Selection bias in gene extraction on the basis of microarray gene-expression data},
volume = {99},
number = {10},
pages = {6562–6566},
year = {2002},
doi = {10.1073/pnas.102102699},
publisher = {National Academy of Sciences},
abstract = {In the context of cancer diagnosis and treatment, we consider the problem of constructing an accurate prediction rule on the basis of a relatively small number of tumor tissue samples of known type containing the expression data on very many (possibly thousands) genes. Recently, results have been presented in the literature suggesting that it is possible to construct a prediction rule from only a few genes such that it has a negligible prediction error rate. However, in these results the test error or the leave-one-out cross-validated error is calculated without allowance for the selection bias. There is no allowance because the rule is either tested on tissue samples that were used in the first instance to select the genes being used in the rule or because the cross-validation of the rule is not external to the selection process; that is, gene selection is not performed in training the rule at each stage of the cross-validation process. We describe how in practice the selection bias can be assessed and corrected for by either performing a cross-validation or applying the bootstrap external to the selection process. We recommend using 10-fold rather than leave-one-out cross-validation, and concerning the bootstrap, we suggest using the so-called .632+ bootstrap error estimate designed to handle overfitted prediction rules. Using two published data sets, we demonstrate that when correction is made for the selection bias, the cross-validated error is no longer zero for a subset of only a few genes. AE,apparent error rate;CV,cross-validated;RFE,recursive feature elimination;SVM,support vector machine},
issn = {0027-8424},
URL = {http://www.pnas.org/content/99/10/6562},
eprint = {http://www.pnas.org/content/99/10/6562.full.pdf},
journal = {Proceedings of the National Academy of Sciences}
}

#Normal

Ambroise, Christophe,
and Geoffrey J. McLachlan.
“Selection bias in gene extraction on the basis of microarray gene-expression data.”
Proceedings of the National Academy of Sciences
99.10 (2002): 6562-6566.
Web. 15 May. 2018.


#主要内容

对于微阵列基因样本,其样本数目较少,基因数目非常多

提出了一种更准确的测试评估方法。

偏倚选择 — 基于部分样本训练,基于部分样本测试

结果过于乐观

M M M折交叉验证 CV


##Bootstrap

R R R — 预测规则
R k ∗ R_k^* Rk — bootstrap版本的 R R R
K K K — 大小为 n n n的bootstrap采样次数,有放回的
n n n — 原始样本大小

B 1 B1 B1 — 留一法bootstrap误差,对于bootstrap平滑处理的留一法交叉验证,只对未在bootstrap样本的点进行预测

基于 K K K次bootstrap采样的 B 1 B1 B1的Monte Carlo估计如下:

这里写图片描述

I j k I_{jk} Ijk

  • 1, x j x_j xj未在bootstrap样本中
  • 0,反之

k k k — bootstrap采样当前次数

Q j k Q_{jk} Qjk

  • 1, R k ∗ R^*_k Rk x j x_j xj错误归类
  • 0,反之

一般, B . 632 B.632 B.632计算如下:

这里写图片描述

B . 632 + B.632+ B.632+计算如下:

这里写图片描述

这里写图片描述

这里写图片描述

来自类 i i i的样本比例为 p i p_i pi q i q_i qi为它们中被 R R R分到类 i i i的比例。

r r r需要被截断以使其在范围 [ 0 , 1 ] [0,1] [0,1]

w w w的值从B.632( r = 0 r=0 r=0)到B1( r = 1 r=1 r=1)

*B.632+*估计赋予了bootstrap留一误差B1更多的权重,其中,B1-AE所度量的过拟合量相对较大,因此,在当前预测规则 R R R由于特征选择是过拟合的情况下,也是可用的。

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这篇关于基于微阵列基因表达的基因提取选择偏差 --- .632+bootstrap的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/971937

相关文章

详解C#如何提取PDF文档中的图片

《详解C#如何提取PDF文档中的图片》提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使用,下面我们就来看看如何使用C#通过代码从PDF文档中提取图片吧... 当 PDF 文件中包含有价值的图片,如艺术画作、设计素材、报告图表等,提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使

Python实现常用文本内容提取

《Python实现常用文本内容提取》在日常工作和学习中,我们经常需要从PDF、Word文档中提取文本,本文将介绍如何使用Python编写一个文本内容提取工具,有需要的小伙伴可以参考下... 目录一、引言二、文本内容提取的原理三、文本内容提取的设计四、文本内容提取的实现五、完整代码示例一、引言在日常工作和学

C++字符串提取和分割的多种方法

《C++字符串提取和分割的多种方法》在C++编程中,字符串处理是一个常见的任务,尤其是在需要从字符串中提取特定数据时,本文将详细探讨如何使用C++标准库中的工具来提取和分割字符串,并分析不同方法的适用... 目录1. 字符串提取的基本方法1.1 使用 std::istringstream 和 >> 操作符示

基于Python开发批量提取Excel图片的小工具

《基于Python开发批量提取Excel图片的小工具》这篇文章主要为大家详细介绍了如何使用Python中的openpyxl库开发一个小工具,可以实现批量提取Excel图片,有需要的小伙伴可以参考一下... 目前有一个需求,就是批量读取当前目录下所有文件夹里的Excel文件,去获取出Excel文件中的图片,并

详解如何使用Python提取视频文件中的音频

《详解如何使用Python提取视频文件中的音频》在多媒体处理中,有时我们需要从视频文件中提取音频,本文为大家整理了几种使用Python编程语言提取视频文件中的音频的方法,大家可以根据需要进行选择... 目录引言代码部分方法扩展引言在多媒体处理中,有时我们需要从视频文件中提取音频,以便进一步处理或分析。本文

基于Python实现一个PDF特殊字体提取工具

《基于Python实现一个PDF特殊字体提取工具》在PDF文档处理场景中,我们常常需要针对特定格式的文本内容进行提取分析,本文介绍的PDF特殊字体提取器是一款基于Python开发的桌面应用程序感兴趣的... 目录一、应用背景与功能概述二、技术架构与核心组件2.1 技术选型2.2 系统架构三、核心功能实现解析

基于Python实现多语言朗读与单词选择测验

《基于Python实现多语言朗读与单词选择测验》在数字化教育日益普及的今天,开发一款能够支持多语言朗读和单词选择测验的程序,对于语言学习者来说无疑是一个巨大的福音,下面我们就来用Python实现一个这... 目录一、项目概述二、环境准备三、实现朗读功能四、实现单词选择测验五、创建图形用户界面六、运行程序七、

前端知识点之Javascript选择输入框confirm用法

《前端知识点之Javascript选择输入框confirm用法》:本文主要介绍JavaScript中的confirm方法的基本用法、功能特点、注意事项及常见用途,文中通过代码介绍的非常详细,对大家... 目录1. 基本用法2. 功能特点①阻塞行为:confirm 对话框会阻塞脚本的执行,直到用户作出选择。②

Linux使用cut进行文本提取的操作方法

《Linux使用cut进行文本提取的操作方法》Linux中的cut命令是一个命令行实用程序,用于从文件或标准输入中提取文本行的部分,本文给大家介绍了Linux使用cut进行文本提取的操作方法,文中有详... 目录简介基础语法常用选项范围选择示例用法-f:字段选择-d:分隔符-c:字符选择-b:字节选择--c

使用Python在Excel中插入、修改、提取和删除超链接

《使用Python在Excel中插入、修改、提取和删除超链接》超链接是Excel中的常用功能,通过点击超链接可以快速跳转到外部网站、本地文件或工作表中的特定单元格,有效提升数据访问的效率和用户体验,这... 目录引言使用工具python在Excel中插入超链接Python修改Excel中的超链接Python