【机器学习系列】深入理解集成学习:从Bagging到Boosting

2024-06-10 22:44

本文主要是介绍【机器学习系列】深入理解集成学习:从Bagging到Boosting,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一、集成方法的一般思想

二、集成方法的基本原理

三、构建集成分类器的方法

常见的有装袋(Bagging)和提升(Boosting)两种方法

方法1 :装袋(Bagging)

Bagging原理如下图:

方法2 :提升(Boosting) 

Boosting工作原理

目前已有几个Boosting算法,其区别在于:

四、随机森林(Bagging集成方法的一种)

(一)随机森林bagging的思想:

(二)随机森林中的每棵树是怎么生成的呢?

(三) 为什么要随机抽样训练集?

(四)为什么要有放回地抽样?

随机森林Python实现

五、Adaboosting (Boosting集成方法的一种)

(一)基本思想

(二)Adaboosting举例说明 

本文将探讨集成学习方法的核心概念,包括其基本原理和两种主流技术:装袋(Bagging)与提升(Boosting)。我们将深入了解随机森林——一种基于Bagging的集成方法,并讨论其背后的思想、树的生成过程以及抽样策略。同时,我们也将介绍Adaboost算法的基本思想和工作原理,并通过实例加以说明。通过这篇文章,读者可以获得对集成分类器构建方法的全面了解,并掌握如何在Python中实现随机森林。

一、集成方法的一般思想

聚集多个分类器的预测来提高分类准确率,这种技术称为组合(ensemble)分类器组合(classifier combination)方法,也就是集成方法

由训练数据构建一组基分类器,然后通过对每个基分类器的预测进行投票来进行分类。

二、集成方法的基本原理

假定有 25 基分类器:
每个基分类器的误差均为 e = 0.35
假定基分类器是独立的
通过对这些基分类器的预测进行多数表决方法预测类标号
仅当超过一半的基分类器都预测错误时,组合分类器才会做出错误的预测,此时误差率为:
远远低于基分类器的误差率。
下图显示对于不同的基分类器误差率 e 下的 25 个二元分类器的组合分类器误差率           。
对角虚线表示所有基分类器都是等同的情况
实线表示所有基分类器独立时的情况
e > 0.5 时,组合分类器的性能不如基分类器

三、构建集成分类器的方法

基本思想:

 在原始数据上构建多个分类器,然后在分类未知样本时聚集它们的预测结果。

常见的有装袋(Bagging)和提升(Boosting)两种方法

方法1 :装袋(Bagging)

Bagging原理如下图:

对于未知样本Z,预测Z的类标号

方法2 :提升(Boosting) 

Boosting 方法是一种用来提高 弱分类算法 准确度的方法。
通过构造一个预测 函数 系列 , 然后以一定的方式将他们组合成一个预测函数。
Boosting 是一种提高任意给定学习算法准确度的方法。

Boosting 方法是一种针对提高弱分类算法准确度的有效技术。该方法的核心思想是通过构建一系列的预测函数,并将它们以特定的方式组合起来,从而形成一个更为强大和精准的预测模型。

具体而言,Boosting 通过以下步骤来提升任意给定学习算法的准确度:

  1. 初始化:首先选择一个弱分类器作为基础模型,并确定一个权重分配方案,初始时通常所有数据点的权重相等。

  2. 迭代训练:在每一轮迭代中,根据上一次迭代中分类错误的样本调整权重,使得错误分类的样本在下一轮迭代中得到更多的关注。然后,使用调整后的权重训练新的弱分类器。

  3. 组合预测:将每个弱分类器的预测结果按照一定的权重进行组合,通常是加权投票或加权平均,以形成最终的预测函数。这个组合过程能够有效提升整体模型的准确度。

Boosting 方法的特点在于:

  • 逐步增强:通过迭代的方式逐步增强模型的预测能力,每一步都试图修正上一步的错误。
  • 权重调整:动态调整样本权重,使得模型在后续的学习过程中更加关注那些难以分类的样本。
  • 模型组合:将多个弱分类器智能组合,形成一个强大的分类器,通常比单个分类器具有更高的准确度和鲁棒性。

总之,Boosting 是一种通用且强大的机器学习算法增强技术,它能够显著提升弱分类算法的性能,使其在许多实际问题中达到或接近最优的分类效果。

其核心思想是“ 三个臭皮匠,顶过诸葛亮 ”。

Boosting工作原理

首先从训练集用初始权重训练出一个弱学习器 1 ,根据弱学习器 1 学习误差率表现 更新 训练样本的权重,使得之前弱学习器 1 学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的弱学习器 2 中得到更多的重视。
然后基于调整权重后的训练集来训练弱学习器 2. ,如此重复进行,直到弱学习器数达到事先指定的数目 T
最终将这 T 个弱学习器通过集合策略进行整合,得到最终的强学习器。

 

 

目前已有几个Boosting算法,其区别在于:

1)每轮Boosting结束时如何更新训练样本的权值;

2)如何组合每个分类器的预测。

四、随机森林(Bagging集成方法的一种)

       随机森林就是通过集成学习的思想将多棵树集成的一种算法它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习方法。

      随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。

     “森林”很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,其实这也是随机森林的主要思想--集成思想的体现。“随机”的包括随机选取训练样本集随机选取分裂属性集。 

      从直观角度来解释,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出。

(一)随机森林bagging的思想:

 将若干个弱分类器的分类结果进行投票选择,从而组成一个强分类器。

(二)随机森林中的每棵树是怎么生成的呢?

一开始提到的随机森林中的“随机”就是指的步骤a和步骤b中的两个随机性。两个随机性的引入对随机森林的分类性能至关重要。由于它们的引入,使得随机森林不容易陷入过拟合,并且具有很好得抗噪能力(比如:对缺省值不敏感) 。

(三) 为什么要随机抽样训练集?

如果不进行随机抽样,每棵树的训练集都一样,那么最终训练出的树分类结果也是完全一样的,这样的话完全没有集成的必要

(四)为什么要有放回地抽样?

如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是没有交集的,这样每棵树都是有偏的"片面的",也就是说每棵树训练出来都是有很大的差异的;

而随机森林最后分类取决于多棵树(弱分类器)的投票表决,这种表决应该是"求同",因此使用完全不同的训练集来训练每棵树这样对最终分类结果是没有帮助的。

随机森林Python实现

请看下方链接

【机器学习系列】掌握随机森林:从基础原理到参数优化的全面指南_随机森林算法参数解释及调优-CSDN博客

五、Adaboosting (Boosting集成方法的一种)

(一)基本思想

如果错误率ei 接近0,则  αi 有一个很大的正值。

如果错误率ei 接近1,则 αi  有一个很大的负值。

(二)Adaboosting举例说明 

 

 

这篇关于【机器学习系列】深入理解集成学习:从Bagging到Boosting的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1049477

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss