本文主要是介绍Random Forest GBDT XGBOOST LightGBM面试问题整理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
一.知识点
二.特征重要性评估
基于树的集成算法有一个很好的特性,就是模型训练结束后可以输出模型所使用的特征的相对重要性,便于理解哪些因素是对预测有关键影响,有效筛选特征。
Random Forest
袋外数据错误率评估
由于RF采用bootstrapping有放回采样, 一个样本不被采样到的概率为
limm→∞(1−1m)m=1e≈0.368 lim m → ∞ ( 1 − 1 m ) m = 1 e ≈ 0.368因此约有 13 1 3 样本可用于”包外估计”(out-of-bag estimate, OOB)。袋外数据错误率定义为:袋外数据自变量值发生轻微扰动后的分类正确率与扰动前分类正确率的平均减少量。
Gini系数评价指标
特征 xj x j 在单棵树的变量重要性(variable importance measures)定义为:特征在所有非叶节点分裂时加权不纯度(weighted impurity)的减少量。
假设有数据集有
这篇关于Random Forest GBDT XGBOOST LightGBM面试问题整理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!