本文主要是介绍【机器学习】集成学习 Bagging Boosting 综述,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
集成学习 Ensemble learning:
主要包括三种形似的集成方式【Bagging、Boosting、Stacking】
指将若干弱分类器 (或基(础)分类器) 组合之后产生一个强分类器 (可以是不同类型的分类器)
·并不算是一种分类器,而是一种分类器的结合方法;
·一个集成分类器的性能会好于单个分类器;
1.Bagging 算法(bootstrap aggregation):
多个分类器同时对一个样本进行分类计算,对它们的结果 取平均 【并行训练,结果取平均值】
设共有N个(弱)分类器, 第n个分类器的 分类模型为 fn(x)
则这个集成的强分类器的分类模型为 fa(x) = (1/N)Σ[fn(x)] 其中n = 1,2,...,N 【1.1】
·随机森林 (Random Forest):
Bagging 思想的最典型代表
随机:数据采样 随机(采样量相同,常用0.6~0.8D),特征选择 随机(特征选取量相同,常用0.6~0.8K,K为特征总数)
森林:多个决策树 并行放在一起
2.Boosting 算法(Boostrapping):
一种把若干个(弱)分类器 (前后串联) 整合为一个(强)分类器的方法 【串行训练,对前者的预测值相对真实值的残差弥补】
对于一个含有 m-1 个弱分类器的 模型fm-1(x),在添加一个 弱分类器 h(x) 后
集成的强分类器的模型为 :fm(x) = fm-1(x) + argmin_h { Σ[L(yi, fm-1(xi) + h(xi))] } 【2.1】
【2.1】中函数 argmin_x { f(x) } 是指 使得函数 f(x) 取得其最小值时所有自变量 x 的集合 (f 取最小值时 x 的值)
Boosting
|->XGBoost (Xtreme Gradient Boosting 极限 梯度 增强)
|->AdaBoost (Adaptive Boosting 自适应 增强)
|->GBDT (Gradient Boosting Decision Tree 梯度提升决策树)
|->LightGBM (Light Gradient Boosting Machine 轻量级 梯度提升机)
这篇关于【机器学习】集成学习 Bagging Boosting 综述的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!