boosting,Adaboost,Bootstrap和Bagging的含义和区别

2024-06-22 06:58

本文主要是介绍boosting,Adaboost,Bootstrap和Bagging的含义和区别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

弱分类器:分类效果差,只是比随机猜测好一点。

强分类器:具有较高的识别率,较好的分类效果。(在百度百科中有提到要能在多项式时间内完成学习)

弱和强更大意义上是相对而言的,并没有严格的限定。比如准确率低于多少就是弱分类器,高于多少是强分类器,因具体问题而定。

 

1988年,有学者提出是否可以通过一些弱分类器来实现强分类器的分类效果。基于这个问题,之后两三年陆续的有早期的boosting算法被提出。Boosting系列算法,对于任意给定的弱分类器算法,都可以提升其分类效果。Boosting系列算法属于一个算法框架,与具体基分类器的学习方法独立。它会产生一系列的分类器(预测函数,基分类器),然后对所有分类器的结果进行加权融合。虽然单个基分类器的效果不好,但是经过多个基分类器的结果融合,可以获得更高的准确率。

 

主体思想:强分类器算法比较难以获得,而弱分类器较易获得。我们希望基于易得到的弱分类器,达到强分类器的识别效果。

 

boosting算法特点:

1.        Boosting算法会对训练集进行操作以挑选训练子集训练基分类器,也就是说基分类器的训练集并不相同。

2.        Boosting算法是对多个基分类器进行加权融合得到最终分类结果。准确率一般远高于单个的基分类器效果。

3.        基分类器的学习算法可以相同,也可以不同。常用的弱分类算法如决策树。

 

早期的Boosting算法存在缺陷,即需要事先知道弱学习算法的分类正确的下限,并不是自适应的,这限制了该算法在现实中的应用。这一缺陷在之后的adaptive boosting(AdaBoost)算法中被解决。

 

AdaBoost算法,全称adaptiveboosting算法。AdaBoost算法也属于boosting算法系列,但是无论效果还是应用能力都强于之前的早期boosting版本,因此应用更加广泛。Adaboost算法属于boosting系列算法中的代表性算法。

 

AdaBoost具体做法举例:

对于一个数据集,先用任一弱分类算法训练得到一弱分类器,根据对训练集分对分错情况,对训练集样本分配权重,分错的样本权重更高。根据这个权重对训练集进行挑选得到新的训练集,权重大的样本更可能被选到,以此来侧重对于之前分错的样本的训练,得到第二个分类器。以此类推,不断训练多个基分类器,最后根据各个基分类器的准确率赋予分类器权重。当需要判别时,加权投票得最终判断结果。

 

boosting系列算法的主要区别在于样本和分类器的权重计算。

 

总结:boosting是一大类算法,该类算法的核心是通过多个弱分类器实现强分类器的效果,具体做法则会涉及到训练集的选取,基分类器学习算法的选择,样本权重计算,分类器权重计算等。Adaboost属于boosting算法,其特点在于能够自适应的训练基分类器,侧重训练分错的样本,效果优于非自适应的早期boosting算法,应用最为广泛。

 

Bootstrap

一直也搞不明白bootstrap的具体含义,经过在网上查找多方资料,现整理如下:

Bootstrap并不是一种机器学习的训练算法,而是一种自助采样的算法,用小样本数据集估计整体的非参数方法。当数据的规模较小时,可以用来扩大数据规模,估计数据整体的分布情况(期望和方差)。

 

Bootstrap会通过对初始数据进行有放回的抽样,产生大量的伪样本,然后再对足够大量的伪样本进行分析,估计整体的数据分布。

 

下面这个链接说的很全面,而且有配图,可以更方便的理解:

点击打开链接

 

 

之前已经讲过Boosting系列算法,那么什么是bagging算法呢?两者有何区别?

Bagging

Bagging方式训练多个弱分类器,虽然单个弱分类效果不好,但是多个弱分类器加权融合,投票产生可以产生更准确的分类结果。

Bagging要求基分类器的学习算法不稳定,也就是当数据发生小变化时,训练的分类器会产生很大不同,依次来增加基分类器的多样性,使得分类系统更加稳定,泛化能力更强。

 

baggingBoosting算法看起来相似,但是基分类器的训练方法完全不同,区别为:

Bagging算法的训练集往往是从原数据集中有放回的抽样得到的(原数据集的一部分),每个基分类器是相互独立的,并列的。因为每个基分类器训练方法独立且相同,所以最后分类器等权重投票。

而在boosting算法中,基分类器是依次训练的,因为分错的点在接下来的训练时会更加的被侧重,也就是说,每个基分类器的训练都是建立在之前基分类器的表现基础之上的。最后分类器加权投票。

 

相比之下,很明显boosting算法训练基分类器的思路比bagging更加精致一些,更加有针对性一些,但是也有学者反应其存在过拟合的问题。

这篇关于boosting,Adaboost,Bootstrap和Bagging的含义和区别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1083603

相关文章

native和static native区别

本文基于Hello JNI  如有疑惑,请看之前几篇文章。 native 与 static native java中 public native String helloJni();public native static String helloJniStatic();1212 JNI中 JNIEXPORT jstring JNICALL Java_com_test_g

Android fill_parent、match_parent、wrap_content三者的作用及区别

这三个属性都是用来适应视图的水平或者垂直大小,以视图的内容或尺寸为基础的布局,比精确的指定视图的范围更加方便。 1、fill_parent 设置一个视图的布局为fill_parent将强制性的使视图扩展至它父元素的大小 2、match_parent 和fill_parent一样,从字面上的意思match_parent更贴切一些,于是从2.2开始,两个属性都可以使用,但2.3版本以后的建议使

Collection List Set Map的区别和联系

Collection List Set Map的区别和联系 这些都代表了Java中的集合,这里主要从其元素是否有序,是否可重复来进行区别记忆,以便恰当地使用,当然还存在同步方面的差异,见上一篇相关文章。 有序否 允许元素重复否 Collection 否 是 List 是 是 Set AbstractSet 否

javascript中break与continue的区别

在javascript中,break是结束整个循环,break下面的语句不再执行了 for(let i=1;i<=5;i++){if(i===3){break}document.write(i) } 上面的代码中,当i=1时,执行打印输出语句,当i=2时,执行打印输出语句,当i=3时,遇到break了,整个循环就结束了。 执行结果是12 continue语句是停止当前循环,返回从头开始。

maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令

maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令 在日常的工作中由于各种原因,会出现这样一种情况,某些项目并没有打包至mvnrepository。如果采用原始直接打包放到lib目录的方式进行处理,便对项目的管理带来一些不必要的麻烦。例如版本升级后需要重新打包并,替换原有jar包等等一些额外的工作量和麻烦。为了避免这些不必要的麻烦,通常我们

ActiveMQ—Queue与Topic区别

Queue与Topic区别 转自:http://blog.csdn.net/qq_21033663/article/details/52458305 队列(Queue)和主题(Topic)是JMS支持的两种消息传递模型:         1、点对点(point-to-point,简称PTP)Queue消息传递模型:         通过该消息传递模型,一个应用程序(即消息生产者)可以

深入探讨:ECMAScript与JavaScript的区别

在前端开发的世界中,JavaScript无疑是最受欢迎的编程语言之一。然而,很多开发者在使用JavaScript时,可能并不清楚ECMAScript与JavaScript之间的关系和区别。本文将深入探讨这两者的不同之处,并通过案例帮助大家更好地理解。 一、什么是ECMAScript? ECMAScript(简称ES)是一种脚本语言的标准,由ECMA国际组织制定。它定义了语言的语法、类型、语句、

Lua 脚本在 Redis 中执行时的原子性以及与redis的事务的区别

在 Redis 中,Lua 脚本具有原子性是因为 Redis 保证在执行脚本时,脚本中的所有操作都会被当作一个不可分割的整体。具体来说,Redis 使用单线程的执行模型来处理命令,因此当 Lua 脚本在 Redis 中执行时,不会有其他命令打断脚本的执行过程。脚本中的所有操作都将连续执行,直到脚本执行完成后,Redis 才会继续处理其他客户端的请求。 Lua 脚本在 Redis 中原子性的原因

msys2 minggw-w64 cygwin wsl区别

1 mingw-w64,这是gcc一直win平台下产生的,所以是win版的gcc,既支持32也支持64bit 2cygwin专注于原样在windows上构建unix软件, 3msys让Linux开发者在windows上运行软件,msys2专注于构建针对windows api构建的本机软件 4 wsl  windows subsystem for linux 是一个在windows 10 上能

【Java中的位运算和逻辑运算详解及其区别】

Java中的位运算和逻辑运算详解及其区别 在 Java 编程中,位运算和逻辑运算是常见的两种操作类型。位运算用于操作整数的二进制位,而逻辑运算则是处理布尔值 (boolean) 的运算。本文将详细讲解这两种运算及其主要区别,并给出相应示例。 应用场景了解 位运算和逻辑运算的设计初衷源自计算机底层硬件和逻辑运算的需求,它们分别针对不同的处理对象和场景。以下是它们设计的初始目的简介: