提升方法AdaBoost你真的懂吗

本文主要是介绍提升方法AdaBoost你真的懂吗，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

路边的茶楼人影错落
街上传来两三声吆喝
人前摇扇醒木拍桌
各位看官你细听分说
《说书人》

1. 简介

提升（boosting）方法是一种常用的统计学习方法。其代表性的提升算法就是AdaBoost（Adaptive Boosting 自适应增强的缩写），AdaBoost算法是1995年由Yoav Freund和Robert Schapire提出。

2. 基本思路

AdaBoost基于思想：针对一复杂任务，综合多个专家判断得出的结论，好过其中任何一个专家的结论，类似“三个臭皮匠赛过诸葛亮”。
对于一个具体的分类问题，在给定训练样本情况下，求出一个弱分类器要比求出一个强分类器容易得太多。提升方法就是基于这一点，不要一口吃个胖子，你说你强分类器难得，我还就不要了，它从弱分类器出发，反复学习，得到一系列弱分类器，将这些弱分类器线性组合，从而构成强分类器。
没错，它就是这种我能力不咋滴（单个分类器是弱），但是我不怕苦（多学几轮），多个微不足道（多个弱分类器），足够让我美出天际（效果好）。是不是觉得AdaBoost有点酷！

3. 相关问题

针对AdaBoost，看完理论概念之后，可能存在很多疑问，下面说一下：

1、AdaBoost个体弱学习器 $G_k(x)$ 之间是否存在强依赖关系？

答：是。AdaBoost前一轮习得的学习器，直接影响下一个弱学习器，主要是通过误差影响影响下一轮训练样本的权值，进而影响下一个学习器（下一节会具体说）。

2、是不是下一个弱分类器 $G_{k+1}(x)$ 的准确率要比前一个 $G_{k}(x)$ 高？

答：不是。之前对这一点有很深的误解，导致整体垮掉，这个坎过去之后，世界豁然开朗。AdaBoost一系列弱学习器的生成，并不是后一个比前一个更准确，而是基于本次“样本权重”的训练数据，使得本次误差最小，记住并不是整体准确性更高！怎么理解这句话呢？前一轮弱学习器习得的正确的结果在下一轮中，样本权值减小，加大错误样本的权值，也就是下一个弱学习器只是更眷顾上一轮分错的样本，并不意味着，要把上一轮分正确的样本分正确了！而样本的权值直接影响样本误差的计算，极端的情况下，我下一个弱分类器把前一轮分错的样本全分正确，即使上一轮分正确的样本在下一个分类器上全分错了，计算最终的误差也可能很小。

3、训练数据 $T$ 是否是同一批？

答：是也不是。
说是，是因为训练的一系列弱分类器终究都来源于最初的那一批训练数据 $T$ 。
说不是，是因为，后一个训练弱分类器的数据来源于前一个弱分类器经过权值调整后的数据，即会提高前一轮弱分类器错误分类样本的权值，降低那些被正确分类样本的权值（错误分类的那些样本更值得关注），这个样本的权值直接影响误差的计算！！！（下一节会具体说）

4、样本权值 $w$ 需要初始化，是否随机？

答：需要初始化，不随机。最开始样本权值需要一视同仁，因此，所有样本等权值（ $\frac{1}{N}$ ）。

5、怎样确认学习器 $G_{k}(x)$ 的权重 $\alpha_{k}$ ？

答：最简单的就是通过学习器 $G_k(x)$ 的误差 $e_k$ ，我们的目的是加大小误差学习器的权重，这样我们可以构造误差 $e_k$ 的反函数来确认学习器 $G_k(x)$ 的权重 $\alpha_{k}$ 。（下一节会具体说）

6、怎样确认下一个学习器 $G_{k+1}(x)$ 所需样本的权值 $w_{k+1}$ ？

答：加大上一个学习器 $G_{k}(x)$ 分错样本的权值 $w_{k}$ ，降低分类正确的权值。因此，可以通过上一个学习器的误差来调整样本权值，又因学习器的权重 $\alpha_{k}$ 是误差 $e_{k}$ 的反函数，因此，就可以用上一轮学习器的权重 $\alpha_{k}$ 的反函数来调整下一轮学习器训练样本权值 $w_{k+1}$ 。记住喽：权重是用来计算误差的，为了降低误差，选择阈值时会倾向把权重大的分类正确。（下一节会具体说）

7、弱分类器如何组合成为强分类器？

答：AdaBoost采取加权多数表决的方法。加大那些分类正确的分类器权值，减小误分类大的权值，弱分类器之中优秀的重要性高一些。

4. 算法推导过程

假设给定一二分类训练集：

$T=\{(x_1,y_1),(x_2,y_2), \dots,(x_m,y_m)\}$

其中，标记 $y_{i}\in\{-1,1\}$ ， $m$ 为样本的数量。
（1）训练样本的权值分布：

$D(k) = (w_{k1}, w_{k2}, ...w_{km})$

其中 $k$ 为训练分类器的第 $k$ 轮，初始化权值 $\overbrace{(\frac{1}{m}, \frac{1}{m}, \dots,\frac{1}{m}) }^{m个样本}$ 。
（2）第 $k$ 个弱分类器 $G_{k}(x)$ 在训练样本 $T$ 上的加权误差率（错误率） $e_k$ ：

$e_k = P(G_k(x_i) \neq y_i)\qquad\qquad \\= \sum\limits_{i=1}^{m}w_{ki}I(G_k(x_i) \neq y_i)$
这里需要多解释一下，用训练的弱分类器 $G_{k}(x)$ 去评估训练结果 $e_k$ （错误率），当 $G_k(x_i) \neq y_i$ 时，记录下来，并将这些用分类器 $G_k(x)$ 分类错误的样本的权值 $w_{ki}$ 相加。特别地，当 $k = 1$ 时，分类器 $G_1(x)$ 分类错误率 $=\frac{分错误样本数}{样本总数m}$ ；当 $k > 1$ 时，分类器 $G_k(x)$ 分类错误率 $\neq\frac{分错误样本数}{样本总数m}$ ，此时，因为样本权值不一样，所以计算错误率不能按错误样本比例计算。这里也说明一下，第 $k$ 个分类器从 $x$ 的哪里进行切分，评判标准就是，”加权“之后样本的错误率最低。
（3）接下来需要计算弱分类器 $G_{k}(x)$ 的权重：

$\alpha_k = \frac{1}{2}log\frac{1-e_k}{e_k}$

这里的对数时自然对数。这里需要解释一下，弱分类器在一系列分类器中的地位如何？主要跟分类器的加权之后样本的错误率有关，降低错误率较大分类器的权重，提升错误率低的分类器权重。即分类器 $G_{k}(x)$ 的权重 $\alpha_k$ 是加权样本错误率 $e_{k}$ 的反函数，因此，构造的上述 $\alpha_k$ 是合理的，同时可以发现只有当 $e_{k}<\frac{1}{2}$ 时， $\alpha_{k}>0$ ，这样的学习器才是有意义。

（4）更新训练样本的权值分布：

$D(k+1) = (w_{k+1,1}, w_{k+1,2}, ...w_{k+1,m})$

$w_{k+1,i} = \frac{w_{ki}}{Z_k}exp(-\alpha_ky_iG_k(x_i))$

其中， $Z_k$ 为规范化因子,

$Z_k = \sum\limits_{i=1}^{m}w_{ki}exp(-\alpha_ky_iG_k(x_i))$

这里需要解释一下，规范化因子的目的，主要为了保证第 $k + 1$ 轮训练样本的权值之和为1。加大本轮学习器 $G_{k}(x)$ 分错样本的权值 $w_{k}$ ，降低分类正确的权值。因此，可以通过上一个学习器的误差率（加权错误率）来调整样本权值，又因学习器的权重 $\alpha_{k}$ 是误差 $e_{k}$ 的反函数，因此，就可以用本轮学习器的权重 $\alpha_{k}$ 的反函数来调整下一轮学习器训练样本权值 $w_{k+1}$ 。由公式可看出，通过指数损失函数 $e x p (x)$ 调整权重，当分类正确时，权重 $w$ 会降低， $y_i$ 和 $G_k(x_i)$ 同号（ $y_iG_k(x_i)>0$ ），分类错误的增加权重 $w$ 。因此，构造上述的权值更新公式是合理的。记住喽：权重是用来计算误差的，为了降低误差，选择阈值时会倾向把权重大的分类正确。