你听过CatBoost吗?本文教你如何使用CatBoost进行快速梯度提升

2024-03-30 06:58

本文主要是介绍你听过CatBoost吗?本文教你如何使用CatBoost进行快速梯度提升,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在本文中,我们将仔细研究一个名为CatBoost的梯度增强库。


在梯度提升中,预测是由一群弱学习者做出的。与为每个样本创建决策树的随机森林不同,在梯度增强中,树是一个接一个地创建的。模型中的先前树不会更改。前一棵树的结果用于改进下一棵树。在本文中,我们将仔细研究一个名为CatBoost的梯度增强库。

CatBoost 是Yandex开发的深度方向梯度增强库 。它使用遗忘的决策树来生成平衡树。相同的功能用于对树的每个级别进行左右拆分。

(CatBoost官方链接:https://github.com/catboost)

与经典树相比,遗忘树在CPU上实现效率更高,并且易于安装。

处理分类特征

 
在机器学习中处理分类的常见方法是单热编码和标签编码。CatBoost允许您使用分类功能,而无需对其进行预处理。

使用CatBoost时,我们不应该使用一键编码,因为这会影响训练速度以及预测质量。相反,我们只需要使用cat_features 参数指定分类特征即可 。

 

使用CatBoost的优点

 
以下是考虑使用CatBoost的一些原因:

  • CatBoost允许在多个GPU上训练数据。

  • 使用默认参数可以提供很好的结果,从而减少了参数调整所需的时间。

  • 由于减少了过度拟合,因此提高了精度。

  • 使用CatBoost的模型应用程序进行快速预测。

  • 经过训练的CatBoost模型可以导出到Core ML进行设备上推理(iOS)。

  • 可以在内部处理缺失值。

  • 可用于回归和分类问题。

 

训练参数

 
让我们看一下CatBoost中的常用参数:

  • loss_function 别名为 objective -用于训练的指标。这些是回归指标,例如用于回归的均方根误差和用于分类的对数损失。

  • eval_metric —用于检测过度拟合的度量。

  • iterations -待建的树的最大数量,默认为1000。别名是 num_boost_round, n_estimators和 num_trees

  • learning_rate 别名 eta -学习速率,确定模型将学习多快或多慢。默认值通常为0.03。

  • random_seed 别名 random_state —用于训练的随机种子。

  • l2_leaf_reg 别名 reg_lambda —成本函数的L2正则化项的系数。默认值为3.0。

  • bootstrap_type —确定对象权重的采样方法,例如贝叶斯,贝努利,MVS和泊松。

  • depth —树的深度。

  • grow_policy —确定如何应用贪婪搜索算法。它可以是 SymmetricTree, Depthwise或 Lossguide。 SymmetricTree 是默认值。在中 SymmetricTree,逐级构建树,直到达到深度为止。在每个步骤中,以相同条件分割前一棵树的叶子。当 Depthwise 被选择,一棵树是内置一步步骤,直到指定的深度实现。在每个步骤中,将最后一棵树级别的所有非终端叶子分开。使用导致最佳损失改善的条件来分裂叶子。在中 Lossguide,逐叶构建树,直到达到指定的叶数。在每个步骤中,将损耗改善最佳的非终端叶子进行拆分

  • min_data_in_leaf 别名 min_child_samples —这是一片叶子中训练样本的最小数量。此参数仅与 Lossguide 和 Depthwise 增长策略一起使用。

  • max_leaves alias  num_leaves —此参数仅与Lossguide 策略一起使用, 并确定树中的叶子数。

  • ignored_features —表示在培训过程中应忽略的功能。

  • nan_mode —处理缺失值的方法。选项包括 Forbidden,  Min,和 Max。默认值为 Min。当 Forbidden 使用时,缺失值导致错误的存在。使用 Min,缺少的值将作为该功能的最小值。在中 Max,缺失值被视为特征的最大值。

  • leaf_estimation_method —用于计算叶子中值的方法。在分类中,使用10 Newton 次迭代。使用分位数或MAE损失的回归问题使用一次 Exact 迭代。多分类使用一次 Netwon 迭代。

  • leaf_estimation_backtracking —在梯度下降过程中使用的回溯类型。默认值为 AnyImprovement。 AnyImprovement 减小下降步长,直至损失函数值小于上次迭代的值。 Armijo 减小下降步长,直到满足 Armijo条件 。

  • boosting_type —加强计划。它可以plain 用于经典的梯度增强方案,也可以 用于或 ordered,它在较小的数据集上可以提供更好的质量。

  • score_function — 分数类型, 用于在树构建过程中选择下一个拆分。 Cosine 是默认选项。其他可用的选项是 L2, NewtonL2和 NewtonCosine

  • early_stopping_rounds —当时 True,将过拟合检测器类型设置为, Iter 并在达到最佳度量时停止训练。

  • classes_count —多重分类问题的类别数。

  • task_type —使用的是CPU还是GPU。CPU是默认设置。

  • devices —用于训练的GPU设备的ID。

  • cat_features —具有分类列的数组。

  • text_features -用于在分类问题中声明文本列。

 

回归示例

 
CatBoost在其实施中使用scikit-learn标准。让我们看看如何将其用于回归。

与往常一样,第一步是导入回归器并将其实例化。

拟合模型时,CatBoost还可以通过设置来使用户可视化 plot=true

它还允许您执行交叉验证并使过程可视化:

同样,您也可以执行网格搜索并将其可视化:

我们还可以使用CatBoost绘制树。这是第一棵树的情节。从树上可以看到,每个级别的叶子都在相同的条件下被分割,例如297,值> 0.5。

CatBoost还为我们提供了包含所有模型参数的字典。我们可以通过遍历字典来打印它们。

结尾

在本文中,我们探讨了CatBoost的优点和局限性以及主要的训练参数。然后,我们使用scikit-learn完成了一个简单的回归实现。希望这可以为您提供有关库的足够信息,以便您可以进一步探索它。

往期精彩链接:

《统计学习基础:数据挖掘、推理和预测》-斯坦福大学人工智能学科专用教材

数值方法的圣经-《应用数值方法(MATLAB实现)》第二版


这篇关于你听过CatBoost吗?本文教你如何使用CatBoost进行快速梯度提升的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/860794

相关文章

Python调用Orator ORM进行数据库操作

《Python调用OratorORM进行数据库操作》OratorORM是一个功能丰富且灵活的PythonORM库,旨在简化数据库操作,它支持多种数据库并提供了简洁且直观的API,下面我们就... 目录Orator ORM 主要特点安装使用示例总结Orator ORM 是一个功能丰富且灵活的 python O

Nginx设置连接超时并进行测试的方法步骤

《Nginx设置连接超时并进行测试的方法步骤》在高并发场景下,如果客户端与服务器的连接长时间未响应,会占用大量的系统资源,影响其他正常请求的处理效率,为了解决这个问题,可以通过设置Nginx的连接... 目录设置连接超时目的操作步骤测试连接超时测试方法:总结:设置连接超时目的设置客户端与服务器之间的连接

Java中String字符串使用避坑指南

《Java中String字符串使用避坑指南》Java中的String字符串是我们日常编程中用得最多的类之一,看似简单的String使用,却隐藏着不少“坑”,如果不注意,可能会导致性能问题、意外的错误容... 目录8个避坑点如下:1. 字符串的不可变性:每次修改都创建新对象2. 使用 == 比较字符串,陷阱满

Python使用国内镜像加速pip安装的方法讲解

《Python使用国内镜像加速pip安装的方法讲解》在Python开发中,pip是一个非常重要的工具,用于安装和管理Python的第三方库,然而,在国内使用pip安装依赖时,往往会因为网络问题而导致速... 目录一、pip 工具简介1. 什么是 pip?2. 什么是 -i 参数?二、国内镜像源的选择三、如何

使用C++实现链表元素的反转

《使用C++实现链表元素的反转》反转链表是链表操作中一个经典的问题,也是面试中常见的考题,本文将从思路到实现一步步地讲解如何实现链表的反转,帮助初学者理解这一操作,我们将使用C++代码演示具体实现,同... 目录问题定义思路分析代码实现带头节点的链表代码讲解其他实现方式时间和空间复杂度分析总结问题定义给定

Linux使用nload监控网络流量的方法

《Linux使用nload监控网络流量的方法》Linux中的nload命令是一个用于实时监控网络流量的工具,它提供了传入和传出流量的可视化表示,帮助用户一目了然地了解网络活动,本文给大家介绍了Linu... 目录简介安装示例用法基础用法指定网络接口限制显示特定流量类型指定刷新率设置流量速率的显示单位监控多个

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

C++ Primer 多维数组的使用

《C++Primer多维数组的使用》本文主要介绍了多维数组在C++语言中的定义、初始化、下标引用以及使用范围for语句处理多维数组的方法,具有一定的参考价值,感兴趣的可以了解一下... 目录多维数组多维数组的初始化多维数组的下标引用使用范围for语句处理多维数组指针和多维数组多维数组严格来说,C++语言没