集成学习----“三个臭皮匠，赛过诸葛亮”

本文主要是介绍集成学习----“三个臭皮匠，赛过诸葛亮”，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

集成学习(Ensemble Learning)通过使用一些方法改变原始训练样本的分布，来构建多个不同的学习器，再结合这多个学习器来完成学习任务，常可获得比单一学习器显著优越的泛化性能。该过程中多个不同的分类器，叫做个体学习器或者基学习器。个体分类器之间要具备一定的差异性和准确性，即尽可能“好而不同”，个体分类器的准确度要大于0.5。集成学习的研究核心有二个内容：一者是如何构建具备一定差异性和准确率的基学习器，二者为如何整合多个不同的学习器，提升学习性能。

根据个体学习器的生成方式，当前集成学习方法大致可分为二类：1.个体学习器之间存在强依赖关系，必须串行生成的序列化方法，以Boosting为代表；2.个体学习器之间不存在依赖关系，可以同时生成的并行方法，以Bagging、随机森林（Random Forest）为代表。

在正式介绍上述二类方法之前，先回顾二方面内容：

1.偏差-方差

如图所示，蓝色点为样本的训练期望值，红色区域为样本的真实值。偏差（Bias）指的是样本期望值与真实值之间的误差，方差指的是随机变量在其期望值附近的波动程度。

2.Bootstrap采样法

Bootstrap是一种自助采样法，“有放回抽样”的经典样本估计算法。其假设观察样本即为数据总样本，再由假定总体抽取子样本，即再抽样。后续的Bagging、Boosting、随机森林等算法的样本抽样算法用的都是Bootstrap。

Boosting

Boosting是一种可把弱学习器提升为强学习器的算法。先从初始训练集训练出一个基学习器，再根据基学习器的表现改变原始训练样本的分布进行调整，使得先前学习器做错的训练样本在后续得到更高的关注，再进一步学习新的学习器。典型的算法是AdaBoost：对训练样本初始化相同的权重，训练一个基学习器，根据该学习器的表现，给予判断错误的样本更高的权重，改变训练样本的权重分布，在训练新的学习器；迭代进行上述步骤。

从偏差-方差的角度来看，Boosting主要关注降低偏差。每一次迭代都是在上一轮的基础上拟合训练样本，因此偏差逐渐降低。那么对于基分类器来说，目标是降低方差，故而常选择更简单的深度很浅的决策树；若基学习器过于复杂，则方差较大，容易产生过拟合，因此，Boosting的基本模型必须是“弱模型”，具备“高偏差低方差”的特点。

Bagging

给定包含m个样本的数据集，随机取出一个样本放入采样集中，再放回数据集。经过m次随机采样操作，得到包含m个样本的采样集。初始采样集中，可能存在样本多次出现。采样出T个包含m个训练样本的采样集，分别训练基学习器，再将T个基学习器进行整合，这就是Bagging算法。T个基学习器间相互独立，可以并行生成，性能较为平均，方差小，因此基分类器的目标是降低偏差，常采用较深而且不剪枝的决策树、神经网络。从偏差-方差的角度来看，Bagging主要关注降低方差。与Boosting相比，Boosting的拟合效果更好（偏差更小）；Bagging的方差更小，更不易发生过拟合。Bagging的基本模型必须是“强模型”，具备“高方差低偏差”的特点。