实战07- 模型融合：利用AdaBoost元算法提高分类性能

本文主要是介绍实战07- 模型融合：利用AdaBoost元算法提高分类性能，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

元算法（meta-algorithm）是对其他算法进行组合的一种方式，即模型融合。

模型融合主要分为三种：Bagging、Boosting和Stacking。
思想：将弱分类器融合成强分类器，融合后比最强的弱分类器更好。
视频导学：https://www.bilibili.com/video/BV1y4411g7ia?p=8
参考：

https://www.cnblogs.com/hithink/p/6424508.html
https://www.cnblogs.com/rongyux/p/5621854.html
注释https://www.cnblogs.com/zy230530/p/6909288.html

单层决策树（decision stump）分类器 -> 运用Adaboost -》处理非均衡分类问题。

7.1 基于数据集多重抽样的分类器

多种分类器的组合成为集成方法（ensemble method）或者元算法（meta-algorithm）。集成方式包括：不同算法集成、同一算法不同设置的集成、数据集不同部分分配给不同的分类器的集成。

bagging：基于数据随机重抽样的分类器构建方法
· 自举汇聚法（bootstrap aggregating），也称为bagging方法。
· 各分类器权重相同
· 并行预测
· 有放回抽取得到S个数据集
· 代表方法：随机森林（random forest）

boosting: 关注被已有分类器错分的数据来获得新的分类器。
· 基于所有分类器结果的加权求和
· 各分类器权重不相同
· 串行顺序预测
· 同一数据集
· 分类器的权重对应于上一轮迭代中的成功度
· 代表方法：AdaBoost， GBDT， XGBoost.

7.2 训练算法：基于错误提升分类器的性能

AdaBoost为例

即 adaptive boosting，自适应boosting。
训练数据中的每个样本，赋予了一个权重，这些权重构成了向量 $D$ ;
为了从所有弱分类器中得到最终的分类结果，AdaBoost为每个分类器分配了一个权重值 $\alpha$ , 这些 $\alpha$ 值基于每个弱分类器的错误率。

在每一轮如何改变训练数据的权值或者概率分布？
提高错分样本的权值，减少分对样本的权值。( $D$ )
通过什么方式组合弱分类器？
通过加法模型将弱分类器进行线性组合，比如adaboost通过加权多数表决的方式，即增大错误率小的分类器的权值，同时减小错误率较大的分类器权值。( $\alpha$ )
分类正确的样本，权重更改为： $D_i^{t+1} = \frac{D_i^{(t)} e^{-\alpha}}{Sum(D)}$
分类错误的样本，权重更改为： $D_i^{t+1} = \frac{D_i^{(t)} e^{\alpha}}{Sum(D)}$
可统一为： $D_i^{t+1} = \frac{D_i^{(t)} e^{-\alpha y_t h_t}}{Sum(D)}$ ，预测结果 $h_t$ 是 +1 或 -1。

7.3 基于单层决策树构建弱分类器

单层决策树（decision stump，也称为决策树桩），仅基于单个特征来做决策，属于base algorithm。
三层循环：

针对每个特征，如x轴特征，y轴特征，每一列都是一种特征。
针对每个阈值（步长），（rangeMax - rangeMin）/ numSteps
针对阈值下的每种情况，即不等式’lt’或者’gt’.

数组过滤：通过比较predictedVals == labelMat两者是否相等，来赋0值。这里是想把预测错误的位置置为1，正确置为0。如此一来，在后续统计总的error的时候可以直接用weightedError =D.T* errArr 或者更后面用matrix.sum()。最终得到字典、错误率、类别估计值。

7.4 完整AdaBoost算法的实现

基于单层决策树的训练过程，见P122.

numIt 指定迭代次数，这里相当于想要得到多少个相同类型的弱分类器。
m个样本，初始化每个样本的权重为 1/m
np.multiply(x,y)是对应位置相乘，这里 shape(x) == shape(y)
sign() 是符号函数。
观察输出可以看到，在D中，错误的样本权重会增大。

7.5 测试算法：基于AdaBoost的分类

输出类别的估计值乘上该单层决策树的 $\alpha$ 权重然后累加到aggClassEst上，作为最终结果。

7.6 示例：在一个难数据集上应用AdaBoost

检查数据，确保标签是+1和-1
数据集默认最后一列是类别标签
是否过拟合？

7.7 非均衡分类问题

混淆矩阵（confusion matrix），不同类别的分类代价并不相等。
错误率：指在所有测试样例中错分的样例比例。
正确率、召回率
ROC曲线与AUC
基于matplotlib绘图<1.0, 1.0>到<0, 0>

准确率accuracy 和精确率 precision的区别
在这里插入图片描述

基于代价函数的分类器决策控制
欠抽样和过抽样——两种处理非均衡问题的数据抽样方法
过采样的方法，如SOMTE和ADASYN算法，通常比欠采样效果好。

分类结果是标称值，回归结果是连续值。

下一篇：利用回归预测数值型数据。

这篇关于实战07- 模型融合：利用AdaBoost元算法提高分类性能的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

实战07- 模型融合：利用AdaBoost元算法提高分类性能

7.1 基于数据集多重抽样的分类器

7.2 训练算法：基于错误提升分类器的性能

AdaBoost为例

7.3 基于单层决策树构建弱分类器

7.4 完整AdaBoost算法的实现

7.5 测试算法：基于AdaBoost的分类

7.6 示例：在一个难数据集上应用AdaBoost

7.7 非均衡分类问题

相关文章

MyBatis分页查询实战案例完整流程

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

SpringBoot 多环境开发实战(从配置、管理与控制)

Three.js构建一个 3D 商品展示空间完整实战项目

从原理到实战解析Java Stream 的并行流性能优化

Maven中生命周期深度解析与实战指南

Python实战之SEO优化自动化工具开发指南

Java 正则表达式的使用实战案例

Java Scanner类解析与实战教程

Python内存优化的实战技巧分享