本文主要是介绍[百面机器学习]集成学习QA,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
目录
1、集成学习分为哪几种?有何异同?
2、集成学习有哪些基本步骤?请举例说明
3、常用的基分类器有什么?
4、随机森林中的基分类器是否能替换成线性或者K临近?
5、偏差和方差是什么意思?
6、如何从减小方差和偏差的角度来解释BOOSTING和BAGGING?
7、GBDT的基本原理是什么?
8、梯度提升和梯度下降的区别和联系是什么?
9、XGBOOST和GBDT的联系和区别有哪些?
10、GBDT的有点和局限性体现在什么地方?
1、集成学习分为哪几种?有何异同?
BOOSTING:分类器串行,各个基分类器之间互相有依赖,进行迭代式学习。
BAGGING:分类器并行学习,同时每个基分类器的数据集是总数据集的子集。
2、集成学习有哪些基本步骤?请举例说明
1、找到误差相互独立的基分类器
2、训练基分类器
3、合并基分类器的结果
3、常用的基分类器有什么?
决策树,原因如下:
1)较为方便的调整权重
2)表达方式和泛化能力可以通过层数进行调节
3)决策树对于样本的扰动影响很大,更加容易出现随机性。
神经网络也可以作为基分类器
4、随机森林中的基分类器是否能替换成线性或者K临近?
效果不好。BAGGING类属于并行学习,那么对于基分类器的随机性和敏感性要求较高,不能太稳定。
5、偏差和方差是什么意思?
偏差:预测数值的均值和实际数值的偏离程度
方差:预测数值和实际数值的离散程度
6、如何从减小方差和偏差的角度来解释BOOSTING和BAGGING?
BAGGING:降低了弱分类器的方差
BOOSTING:降低了若分类的偏差
7、GBDT的基本原理是什么?
GBDT属于BOOSTING算法大类
根据样本的负梯度以及残差进行优化。
8、梯度提升和梯度下降的区别和联系是什么?
他们都是基于负梯度进行优化。但是梯度下降针对于参数空间,梯度提升针对于函数空间
9、XGBOOST和GBDT的联系和区别有哪些?
XGBOOST在构建基分类器阶段就加入了正则项,是GBDT在工程上的实现
XGBOOST对代价函数使用了二阶泰勒公式展开,从而计算梯度时可以采用二阶导数
XGBOOST也支持线性分类器作为基分类器
GDBT使用全部数据集,而XGBOOST则对数据集进行了采样
XGBOOST自带对于缺失值的处理
10、GBDT的有点和局限性体现在什么地方?
优点:
1)预测时计算速度快
2)对于稠密数据的表现很好
3)对于预处理的要求比较弱,鲁棒性比较强
缺点:
1)在高维稀疏数据上表现不如SVM和神经网络
2)处理文本分类上效果弱于处理数值分类上
3)训练速度难以有较大的提高
这篇关于[百面机器学习]集成学习QA的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!