XGBOOST(Extreme Gradient Boosting)算法原理详细总结

2023-10-24 07:50

本文主要是介绍XGBOOST(Extreme Gradient Boosting)算法原理详细总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        上篇我们对传统的GBDT算法原理进行了探讨,本篇我们来探讨一个具有王者地位的算法:XGBOOST(Extreme Gradient Boosting
)。XGBOOST是来自于华盛顿大学的一个研究项目,2016年由陈天奇和Carlos Guestrin在KDD上发表:XGBoost: A Scalable Tree Boosting System。自此之后,XGBOOST不仅在kaggle比赛中赢得一席之地,而且也推动了工业领域的一些前沿应用的发展。XGBOOST是我们处理中小型结构化数据必须要掌握的一个杀手锏。
        本篇我们主要参考陈天奇博士介绍XGBOOST的PPT:Boosted Trees 。

1)CART回归树

        CART回归树既可以处理分类任务又可以处理回归任务。CART算法对训练样本集的每个特征递归的进行二分判断,将特征空间划分为有限的单元,每个单元具有一定的权重。简单的可以认为,CART回归树是一个叶子节点具有权重的二叉决策树。CART回归树有两个特点:

  • 决策规则和决策树是一样的;
  • 决策树的每个叶子节点都包含一个权重;

下图就是一个回归决策树的示例:
在这里插入图片描述
        假如某决策树的叶子节点数目为 T T T,每个叶子节点的权重为 w → = { w 1 , w 2 , . . . w T } \overrightarrow{w}=\left\{w_1,w_2,...w_T\right\} w ={w1,w2,...wT},样本 x x x落在叶节点 q q q中,决策树模型 f ( x ) f(x) f(x)可以定义为:
f t ( x ) = w q ( x ) w ∈ w → , q : R d → { 1 , 2 , . . . T } f_t(x) = w_{q(x)} \quad w \in \overrightarrow{w},q:R^d\rightarrow \left\{1,2,...T\right\} ft(x)=wq(x)ww ,q:Rd{1,2,...T}
        从上式中可以看出,决策树的两个核心为:树的结构 q q q,叶节点的权重 w w w。确定树的结构和叶节点的权重便可以确定一颗决策树。
        在决策树算法原理中我们了解到,决策树比较容易过拟合,因此会对决策树进行剪枝操作。那么我们该如何衡量决策树的复杂度呢?我们可以使用,树的深度,叶节点数量,叶子节点权重的 L 2 L2 L2正则等。这里我们使用叶节点的数量和叶子节点权重的 L 2 L2 L2正则表示决策树模型的复杂度,数学表达式为:
Ω ( f t ) = γ T + 1 2 λ ∑ j = 1 T w j 2 \Omega(f_t) =\gamma T+\frac{1}{2} \lambda \sum_{j=1}^Tw_j^2 Ω(ft)=γT+21λj=1Twj2
其中, T T T为叶节点的个数, w w w为叶节点所对应的权重, γ \gamma γ为收缩系数, λ \lambda λ L 2 L2 L2平滑系数。下图即为一个决策树模型复杂度的示例:
在这里插入图片描述

2)XGBOOST目标函数

        XGBOOST基于Boosting框架,它采用的是前向优化算法,即从前往后,逐渐建立基模型来优化逼近目标函数,具体过程如下:
y ^ i ( 0 ) = 0 \hat y_i^{(0)}=0 y^i(0)=0
y ^ i ( 1 ) = f 1 ( x i ) = y ^ i ( 0 ) + f 1 ( x i ) \hat y_i^{(1)}=f_1(x_i)=\hat y_i^{(0)} +f_1(x_i) y^i(1)=f1(xi)=y^i(0)+f1(xi)
y ^ i ( 2 ) = f 1 ( x i ) + f 2 ( x i ) = y ^ i ( 1 ) + f 2 ( x i ) \hat y_i^{(2)}=f_1(x_i) + f_2(x_i)=\hat y_i^{(1)} +f_2(x_i) y^i(2)=f1(xi)+f2(xi)=y^i(1)+f2(xi)
. . . ... ...
y ^ i ( t ) = ∑ k = 1 t f k ( x i ) = y ^ i ( t − 1 ) + f t ( x i ) \hat y_i^{(t)}=\sum_{k=1}^tf_k(x_i)=\hat y_i^{(t-1)} +f_t(x_i) y^i(t)=k=1tfk(xi)=y^i(t1)+ft(xi)
        从上式中,我们可以看出,每一步我们都是要训练一个新的基模型 f t ( x i ) f_t(x_i) ft(xi),那么我们的目标就是让训练的新模型使得误差最小,即目标函数为:
O b j ( t ) = ∑ i = 1 n l ( y i , y ^ i ) + ∑ i = 1 t Ω ( f i ) Obj^{(t)}=\sum_{i=1}^nl(y_i,\hat y_i) +\sum_{i=1}^t\Omega(f_i) Obj(t)=i=1nl(yi,y^i)+i=1tΩ(fi)
= ∑ i = 1 n l ( y i , y ^ i ( t − 1 ) + f t ( x i ) ) + Ω ( f t ) + c o n s t a n t =\sum_{i=1}^nl(y_i,\hat y_i^{(t-1)} +f_t(x_i))+\Omega(f_t)+constant =i=1nl(yi,y^i(t1)+ft(xi))+Ω(ft)+constant
其中 Ω ( f t ) \Omega(f_t) Ω(ft)为模型复杂度,用来防止模型过拟合,平衡模型偏差和方差的。
        由泰勒二阶展开式可知:
f ( x + Δ x ) ≈ f ( x ) + f ′ ( x ) Δ x + 1 2 f ′ ′ ( x ) Δ x 2 f(x+\Delta x)\approx f(x)+f'(x)\Delta x+\frac{1}{2}f''(x)\Delta x^2 f(x+Δx)f(x)+f(x)Δx+21f

这篇关于XGBOOST(Extreme Gradient Boosting)算法原理详细总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/273777

相关文章

SpringBoot集成图片验证码框架easy-captcha的详细过程

《SpringBoot集成图片验证码框架easy-captcha的详细过程》本文介绍了如何将Easy-Captcha框架集成到SpringBoot项目中,实现图片验证码功能,Easy-Captcha是... 目录SpringBoot集成图片验证码框架easy-captcha一、引言二、依赖三、代码1. Ea

Spring Cloud Hystrix原理与注意事项小结

《SpringCloudHystrix原理与注意事项小结》本文介绍了Hystrix的基本概念、工作原理以及其在实际开发中的应用方式,通过对Hystrix的深入学习,开发者可以在分布式系统中实现精细... 目录一、Spring Cloud Hystrix概述和设计目标(一)Spring Cloud Hystr

Rust格式化输出方式总结

《Rust格式化输出方式总结》Rust提供了强大的格式化输出功能,通过std::fmt模块和相关的宏来实现,主要的输出宏包括println!和format!,它们支持多种格式化占位符,如{}、{:?}... 目录Rust格式化输出方式基本的格式化输出格式化占位符Format 特性总结Rust格式化输出方式

Java集合中的List超详细讲解

《Java集合中的List超详细讲解》本文详细介绍了Java集合框架中的List接口,包括其在集合中的位置、继承体系、常用操作和代码示例,以及不同实现类(如ArrayList、LinkedList和V... 目录一,List的继承体系二,List的常用操作及代码示例1,创建List实例2,增加元素3,访问元

golang字符串匹配算法解读

《golang字符串匹配算法解读》文章介绍了字符串匹配算法的原理,特别是Knuth-Morris-Pratt(KMP)算法,该算法通过构建模式串的前缀表来减少匹配时的不必要的字符比较,从而提高效率,在... 目录简介KMP实现代码总结简介字符串匹配算法主要用于在一个较长的文本串中查找一个较短的字符串(称为

SpringBoot整合easy-es的详细过程

《SpringBoot整合easy-es的详细过程》本文介绍了EasyES,一个基于Elasticsearch的ORM框架,旨在简化开发流程并提高效率,EasyES支持SpringBoot框架,并提供... 目录一、easy-es简介二、实现基于Spring Boot框架的应用程序代码1.添加相关依赖2.添

通俗易懂的Java常见限流算法具体实现

《通俗易懂的Java常见限流算法具体实现》:本文主要介绍Java常见限流算法具体实现的相关资料,包括漏桶算法、令牌桶算法、Nginx限流和Redis+Lua限流的实现原理和具体步骤,并比较了它们的... 目录一、漏桶算法1.漏桶算法的思想和原理2.具体实现二、令牌桶算法1.令牌桶算法流程:2.具体实现2.1

Java调用DeepSeek API的最佳实践及详细代码示例

《Java调用DeepSeekAPI的最佳实践及详细代码示例》:本文主要介绍如何使用Java调用DeepSeekAPI,包括获取API密钥、添加HTTP客户端依赖、创建HTTP请求、处理响应、... 目录1. 获取API密钥2. 添加HTTP客户端依赖3. 创建HTTP请求4. 处理响应5. 错误处理6.

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

Goland debug失效详细解决步骤(合集)

《Golanddebug失效详细解决步骤(合集)》今天用Goland开发时,打断点,以debug方式运行,发现程序并没有断住,程序跳过了断点,直接运行结束,网上搜寻了大量文章,最后得以解决,特此在这... 目录Bug:Goland debug失效详细解决步骤【合集】情况一:Go或Goland架构不对情况二: