集成学习之GBDT、XGBOOST、RF

2024-08-31 11:38
文章标签 学习 集成 xgboost rf gbdt

本文主要是介绍集成学习之GBDT、XGBOOST、RF,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

GBDT&&XGBOOST

都属于GBM(GradientBoosting Machine)方法,传统GBDT以CART(分类回归树)作为基分类器,利用损失函数的负梯度方向在当前模型的值作为残差的近似值,可以说在RF的基础上又有进一步提升,能灵活的处理各种类型的数据,在相对较小的调参时间下,预测的准确度较高。

XGBOOST基学习器除了树,还支持线性分类器;XGBOOST在代价函数中加入了正则项,用于控制模型的复杂度,防止模型过拟合,当正则项系数为0时与传统的GBDT目标函数相同;XGBOOST支持并行计算(特征排序为block结构,可以运行在MPI和YARN上,自动调用CPU多线程进行并行计算),适合处理大数据;支持列抽样,防止过拟合,减少计算;XGBOOST有shrinkage(缩减)策略,相当于学习速率;XGBOOST用到了二阶导,GBDT只用到一阶导(联想梯度下降和牛顿法);XGBOOST增加了缺失值处理方案,自动学习分裂方向,GBDT的求解不断寻找分割点,将样本集进行分割,分配到分裂开的子节点上,选择依据是减少Loss,用于加速和减小内存消耗XGBOOS可以通过求函数极值点(求导)的方式获得最优解析解,GBDT用梯度下降法迭代求解XGBOOST实现利用了分块、预取、压缩、多线程协作的思想。


GBDT模型的参数:n_estimators:最大弱学习器的个数;learning_rate:弱学习器的权重缩减系数,步长;subsample:不放回子采样,(0,1];init:初始化时候的弱学习器;loss:GBDT模型的损失函数,分类有对数似然损失函数和指数损失函数两种选择,回归有均方差ls,绝对损失lad,huber损失,分位数损失等;alpha:做回归时才有的分位数值。max_features:划分时最大特征数;max_depth:决策树最大深度(10-100常用);min_samples_split:内部节点再划分所需最小样本数;min_samples_leaf:叶子节点最少样本数;min_weight_fraction_leaf:叶子节点最小的样本权重和;max_leaf_nides:最大叶子节点数;min_impurity_split:节点划分最小不纯度(默认1e-7)。

XGBOOST模型的参数:通用参数booster: gbtree和gblinear;silent:0/1,默认为0;nthread:默认为最大可能的线程数。

Booster参数:eta学习率,类似于learningrate,默认0.3;min_child_weight最小叶子节点样本权重和,用于避免过拟合,默认为1;max_depth:决策树的最大深度,用于避免过拟合,默认为6;max_leaf_nodes:树上最大的节点或叶子的数目;gamma:节点分裂所需最小损失函数下降值,默认为0;max_delta_step:每棵树权重改变的最大步长,默认为0;subsample:随机采样的比例,默认值为1;colsample_bytree:随机采样列数的占比,默认为1;colsample_bylevel:树的每一级分裂,列数采样的比例,默认为1;lambda:L2正则化项系数,默认为1;scale_pos_weight:样本类别不均衡时设置为正值可以加快算法的收敛,默认值为1。

学习目标参数:objective:损失函数类型,有binary二分类(logistic),multi多分类(softmax),默认linear;eval_metric:评价指标,有MSE,MAE,RMSE,ERROR,AUC等;seed:随机数的种子,可以复现随机数据的结果,默认为0。


RF

集成学习根据基学习器的生成方式,可分为两大类:即基学习器之间存在强依赖关系,必须串行生成的序列化方法;基学习器之间不存在强依赖关系,可同时生成的并行化方法,前者的代表是Boosting,后者的代表是Bagging和RF。

RF:Random Forest是Bagging的扩展变体,以决策树为基学习器,在决策树的训练过程中引入了随机特征选择,可概括为四部分:随机选择样本、随机选择特征(从样本集的特征集合中随机选择部分特征)、构建决策树、随机森林投票。RF每棵决策树都最大可能的进行生长而不剪枝,在对预测输出进行结合时,RF通常对分类问题使用简单投票法,回归问题使用简单平均法。RF和Bagging的对比:RF的起始性能较差,随着学习器数目增多,随机森林通常会收敛到更低的泛化误差,使用随机性选择的特征,训练效率高。噪声较大时容易产生过拟合

这篇关于集成学习之GBDT、XGBOOST、RF的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1123797

相关文章

SpringCloud集成AlloyDB的示例代码

《SpringCloud集成AlloyDB的示例代码》AlloyDB是GoogleCloud提供的一种高度可扩展、强性能的关系型数据库服务,它兼容PostgreSQL,并提供了更快的查询性能... 目录1.AlloyDBjavascript是什么?AlloyDB 的工作原理2.搭建测试环境3.代码工程1.

SpringBoot使用注解集成Redis缓存的示例代码

《SpringBoot使用注解集成Redis缓存的示例代码》:本文主要介绍在SpringBoot中使用注解集成Redis缓存的步骤,包括添加依赖、创建相关配置类、需要缓存数据的类(Tes... 目录一、创建 Caching 配置类二、创建需要缓存数据的类三、测试方法Spring Boot 熟悉后,集成一个外

Docker集成CI/CD的项目实践

《Docker集成CI/CD的项目实践》本文主要介绍了Docker集成CI/CD的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录一、引言1.1 什么是 CI/CD?1.2 docker 在 CI/CD 中的作用二、Docke

SpringBoot集成SOL链的详细过程

《SpringBoot集成SOL链的详细过程》Solanaj是一个用于与Solana区块链交互的Java库,它为Java开发者提供了一套功能丰富的API,使得在Java环境中可以轻松构建与Solana... 目录一、什么是solanaj?二、Pom依赖三、主要类3.1 RpcClient3.2 Public

SpringBoot3集成swagger文档的使用方法

《SpringBoot3集成swagger文档的使用方法》本文介绍了Swagger的诞生背景、主要功能以及如何在SpringBoot3中集成Swagger文档,Swagger可以帮助自动生成API文档... 目录一、前言1. API 文档自动生成2. 交互式 API 测试3. API 设计和开发协作二、使用

SpringBoot如何集成Kaptcha验证码

《SpringBoot如何集成Kaptcha验证码》本文介绍了如何在Java开发中使用Kaptcha生成验证码的功能,包括在pom.xml中配置依赖、在系统公共配置类中添加配置、在控制器中添加生成验证... 目录SpringBoot集成Kaptcha验证码简介实现步骤1. 在 pom.XML 配置文件中2.

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;