Adaboost 算法【python，机器学习，算法】

本文主要是介绍Adaboost 算法【python，机器学习，算法】，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

算法步骤

初始化样本数据，样本数据集大小为N，每个样本的权重设置为1/N。
相关公式： $D_1=(w_{11},w_{12},w_{13},w_{14},...,w_{1i},...,w_{1N}),w_{1i}=\frac{1}{N},i=1,2,3,4,...,N$
其中D1表示，第一次迭代每个样本的权值。w11表示，第1次迭代时的第一个样本的权值。
迭代。
1. 根据前一个分类器分类结果，对样本进行加权处理（分类正确的样本权重减小，分类错误的样本权重增加）。
2. 按照新的权重，对当前样本进行重新训练，得到一个新的弱分类器。
3. 计算公式如下：
  
  $W_{k+1,i} = \frac{W_{k,i}}{Z_k} e^{-\alpha_k y_{k,i} G_k(x_i)}\\ Z_k=\sum\limits_{i=1}^{m} e^{-\alpha_k y_{k,i} G_k(x_i)}$
  
  推导出如下公式
  
  $w_{i}^{new}= \begin{cases} \frac{1}{2(1-\varepsilon)} w_{i}^{old}, 样本被正确分类 \\ \frac{1}{2(\varepsilon)} w_{i}^{old}, 样本被错误分类 \end{cases}$
  
  其中 $\varepsilon=\sum\limits_{i=1}^{N} w_i I(f_i\neq y_i)$ 表示当前训练器的错误率,即所有错误分类的样本权重之和除以所有的权重之和。
  I 是指示函数，如果条件成立则为 1，否则为 0。
当迭代到一定的次数，或者得到的分类器的误差很小时，结束迭代循环。
组合弱分类器。公式如下：
$\overline{F}=\alpha_{1} f_{1}+\alpha_{2} f_{2}+\alpha_{3} f_{3}+...+\alpha_{k} f_{k}$
其中 $\alpha_{k}=\frac{1}{2}\ln{\frac{1-\varepsilon_k}{\varepsilon_k}}$ ， $f_k$ 表示第 $k$ 次迭代训练得到的训练器。

根据损失函数进行优化

整体是一个强学习器，是由一个一个弱学习器迭代而来。公式如下：
$F_m(x)=F_{m-1}(x)+\alpha_m G(x)$ , 强学习器需要通过 $s i g n (F (x))$ 函数转换输出。
其中 $F_m(x)$ 表示第 $m$ 代强学习器， $\alpha_m$ 表示当前弱学期器的权重， $G(x)=\{-1,1\}$ 表示弱学习器。
怎样求取弱学习器的权重 $\alpha_m$ 。
假设有 N 个样本，那么样本的初始权重为 $\frac{1}{N}$ 。
定义损失函数 $L(F_m,y)=\sum\limits_{i=1}^{N}e^{-y_i F_m(x_i)}$ 。
根据损失函数进行化简推导：

$\sum\limits_{i=1}^{N}e^{-y_i F_m(x_i)} \\ = \sum\limits_{i=1}^{N} e^{-y_i[F_{m-1}(x_i)+\alpha_m G_m(x_i)]} \\ = \sum\limits_{i=1}^{N} e^{-y_i F_{m-1}(x_i) -y_i\alpha_m G_m(x_i)} \\ = \sum\limits_{i=1}^{N} w_{mi}\times e^{-y_i\alpha_m G_m(x_i)} \\ = \sum\limits_{y_i=G(x_i)}^{N} w_{mi}\times e^{-\alpha_m} + \sum\limits_{y_i \neq G(x_i)}^{N} w_{mi}\times e^{\alpha_m} \\ = \sum\limits_{y_i=G(x_i)}^{N} w_{mi}\times e^{-\alpha_m} + \sum\limits_{y_i \neq G(x_i)}^{N} w_{mi}\times e^{\alpha_m} +\sum\limits_{y_i \neq G( x_i)}^{N} w_{mi}\times e^{-\alpha_m} -\sum\limits_{y_i \neq G(x_i)}^{N} w_{mi}\times e^{-\alpha_m} \\ = \sum\limits_{i=1}^{N} w_{mi}\times e^{-\alpha_m} + (e^{\alpha_m}-e^{-\alpha_m})\sum\limits_{y_i \neq G(x_i)}^{N} w_{mi}$

上面的推导用定义了权重 $w_{mi}=e^{-y_i F_{m-1}(x_i)}$ 。

接着对损失函数求导，当损失函数对 $\alpha_m$ 求偏导，导数为 0 时，取得极小值，这时可以得到 $\alpha_m$ 的值。

${Loss}^\prime(\alpha_m)=-e^{-\alpha_m}\sum\limits_{i=1}^{N} w_{mi} + (e^{\alpha_m}+e^{-\alpha_m})\sum\limits_{y_i \neq G(x_i)}^{N} w_{mi}$

令 ${Loss}^\prime(\alpha_m)=0$ 得到

$\frac{e^{-\alpha_m}}{e^{\alpha_m}+e^{-\alpha_m}}\\ =\frac{\sum\limits_{y_i \neq G(x_i)}^{N} w_{mi}}{\sum\limits_{i=1}^{N} w_{mi}} \\ =\frac{\sum\limits_{i}^{N} w_{mi} I(y_i\neq G(x_i))}{\sum\limits_{i=1}^{N} w_{mi}}\\ = e_m$

求解 $\alpha_m=\frac{1}{2}\ln{\frac{1-e_m}{e_m}}$ ,
其中 $e_m=\frac{\sum\limits_{i}^{N} w_{mi} I(y_i\neq G(x_i))}{\sum\limits_{i=1}^{N} w_{mi}}$ 表示分类误差率，
$I(y_i\neq G(x_i))$ 表示条件函数，条件成立时为 1，不成立时为 0。
怎样在迭代中求取样本的权重 $w_i$ 。
根据以下公式组

$F_{m+1}(x_i)=F_{m}(x_i)+\alpha_{m+1} G_{m+1}(x_i)\\ W_{m+1,i}=e^{-y_i F_{m}(x_i)}$

推导权重的递推公式

$W_{m+1,i}=e^{-y_i F_{m}(x_i)}\\ W_{m+1,i}=e^{-y_i (F_{m-1}(x_i)+\alpha_{m} G_{m}(x_i))}\\ W_{m+1,i}=W_{m,i} * e^{-y_i \alpha_{m} G_{m}(x_i))}\\$

其中初始值 $\alpha_0=1$ , $w_{[0]i}=\frac{1}{N}$ 。