XGB-24:使用Scikit-Learn估计器接口

2024-03-27 16:52

本文主要是介绍XGB-24:使用Scikit-Learn估计器接口,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

概览

除了原生接口之外,XGBoost还提供了一个符合sklearn估计器指南的sklearn估计器接口。它支持回归、分类和学习排名。sklearn估计器接口的生存训练仍在进行中。
你可以在使用sklearn接口的示例集合中找到一些快速入门示例。使用sklearn接口的主要优势在于,它可以与sklearn提供的大多数实用程序一起工作,例如sklearn.model_selection.cross_validate()。此外,由于其流行度,许多其他库也认识sklearn估计器接口。
使用sklearn估计器接口,我们只需要几行Python代码就可以训练一个分类模型。下面是训练一个分类模型的示例:

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_splitimport xgboost as xgbX, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=94)# Use "hist" for constructing the trees, with early stopping enabled.
clf = xgb.XGBClassifier(tree_method="hist", early_stopping_rounds=2)# Fit the model, test sets are used for early stopping.
clf.fit(X_train, y_train, eval_set=[(X_test, y_test)])# Save model into JSON format.
clf.save_model("clf.json")

tree_method参数指定了构建树的方法,而early_stopping_rounds参数则启用了提前停止。提前停止可以帮助防止过拟合,并在训练过程中节省时间。

提前停止Early Stopping

可以通过参数early_stopping_rounds启用提前停止。另外,还可以使用回调函数xgboost.callback.EarlyStopping来指定有关提前停止行为的更多细节,包括XGBoost是否应返回最佳模型而不是完整的树栈:

early_stop = xgb.callback.EarlyStopping(rounds=2, metric_name='logloss', data_name='Validation_0', save_best=True
)
clf = xgb.XGBClassifier(tree_method="hist", callbacks=[early_stop])
clf.fit(X_train, y_train, eval_set=[(X_test, y_test)])

目前,XGBoost在估计器中没有实现数据拆分逻辑,而是依赖于xgboost.XGBModel.fit()方法的eval_set参数。如果要使用提前停止来防止过拟合,需要使用sklearn库中的sklearn.model_selection.train_test_split()函数手动将数据拆分为训练集和测试集。一些其他的机器学习算法,比如sklearn中的算法,将提前停止作为估计器的一部分,并且可以与交叉验证一起使用。然而,在交叉验证过程中使用提前停止可能并不是一个完美的方法,因为它会改变每个验证折叠的模型树的数量,导致不同的模型。一个更好的方法是在交叉验证后使用最佳的超参数以及提前停止重新训练模型。如果想尝试使用提前停止进行交叉验证的想法,这是一个开始的代码片段:

from sklearn.base import clone
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import StratifiedKFold, cross_validateimport xgboost as xgbX, y = load_breast_cancer(return_X_y=True)def fit_and_score(estimator, X_train, X_test, y_train, y_test):"""Fit the estimator on the train set and score it on both sets"""estimator.fit(X_train, y_train, eval_set=[(X_test, y_test)])train_score = estimator.score(X_train, y_train)test_score = estimator.score(X_test, y_test)return estimator, train_score, test_scorecv = StratifiedKFold(n_splits=5, shuffle=True, random_state=94)clf = xgb.XGBClassifier(tree_method="hist", early_stopping_rounds=3)results = {}for train, test in cv.split(X, y):X_train = X[train]X_test = X[test]y_train = y[train]y_test = y[test]est, train_score, test_score = fit_and_score(clone(clf), X_train, X_test, y_train, y_test)results[est] = (train_score, test_score)

获取原生 booster 对象

**Sklearn 估计器接口主要用于训练,并没有实现 XGBoost 中所有可用的功能。**例如,为了获得缓存的预测结果,需要使用 xgboost.Booster.predict() 方法配合 xgboost.DMatrix。可以通过 xgboost.XGBModel.get_booster() 方法从 sklearn 接口中获取 booster 对象。

booster = clf.get_booster()
print(booster.num_boosted_rounds())

预测

当启用提前停止时,包括xgboost.XGBModel.predict()xgboost.XGBModel.score()xgboost.XGBModel.apply()在内的预测函数将自动使用最佳模型。这意味着xgboost.XGBModel.best_iteration用于指定在预测中使用的树的范围。
为了获得增量预测的缓存结果,可以使用xgboost.Booster.predict()方法。

并行线程数

在处理XGBoost和其他sklearn工具时,可以通过使用n_jobs参数来指定想要使用的线程数。默认情况下,XGBoost会使用计算机上所有可用的线程,这可能会在与sklearn的其他功能(如sklearn.model_selection.cross_validate())结合使用时产生一些有趣的结果。**如果XGBoost和sklearn都设置为使用所有线程,计算机可能会因为所谓的“线程颠簸”而显著变慢。**为了避免这种情况,只需将XGBoost的n_jobs参数设置为None(这使用了所有线程),并将sklearn的n_jobs参数设置为1。这样,这两个程序就能够顺畅地一起工作,而不会给计算机造成任何不必要的负担。

参考

  • https://scikit-learn.org/stable/developers/develop.html#rolling-your-own-estimator
  • https://xgboost.readthedocs.io/en/latest/python/examples/sklearn_examples.html#sphx-glr-python-examples-sklearn-examples-py
  • https://xgboost.readthedocs.io/en/latest/python/sklearn_estimator.html

这篇关于XGB-24:使用Scikit-Learn估计器接口的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/852808

相关文章

SpringBoot条件注解核心作用与使用场景详解

《SpringBoot条件注解核心作用与使用场景详解》SpringBoot的条件注解为开发者提供了强大的动态配置能力,理解其原理和适用场景是构建灵活、可扩展应用的关键,本文将系统梳理所有常用的条件注... 目录引言一、条件注解的核心机制二、SpringBoot内置条件注解详解1、@ConditionalOn

Python中使用正则表达式精准匹配IP地址的案例

《Python中使用正则表达式精准匹配IP地址的案例》Python的正则表达式(re模块)是完成这个任务的利器,但你知道怎么写才能准确匹配各种合法的IP地址吗,今天我们就来详细探讨这个问题,感兴趣的朋... 目录为什么需要IP正则表达式?IP地址的基本结构基础正则表达式写法精确匹配0-255的数字验证IP地

使用Python实现全能手机虚拟键盘的示例代码

《使用Python实现全能手机虚拟键盘的示例代码》在数字化办公时代,你是否遇到过这样的场景:会议室投影电脑突然键盘失灵、躺在沙发上想远程控制书房电脑、或者需要给长辈远程协助操作?今天我要分享的Pyth... 目录一、项目概述:不止于键盘的远程控制方案1.1 创新价值1.2 技术栈全景二、需求实现步骤一、需求

Spring LDAP目录服务的使用示例

《SpringLDAP目录服务的使用示例》本文主要介绍了SpringLDAP目录服务的使用示例... 目录引言一、Spring LDAP基础二、LdapTemplate详解三、LDAP对象映射四、基本LDAP操作4.1 查询操作4.2 添加操作4.3 修改操作4.4 删除操作五、认证与授权六、高级特性与最佳

Qt spdlog日志模块的使用详解

《Qtspdlog日志模块的使用详解》在Qt应用程序开发中,良好的日志系统至关重要,本文将介绍如何使用spdlog1.5.0创建满足以下要求的日志系统,感兴趣的朋友一起看看吧... 目录版本摘要例子logmanager.cpp文件main.cpp文件版本spdlog版本:1.5.0采用1.5.0版本主要

Java中使用Hutool进行AES加密解密的方法举例

《Java中使用Hutool进行AES加密解密的方法举例》AES是一种对称加密,所谓对称加密就是加密与解密使用的秘钥是一个,下面:本文主要介绍Java中使用Hutool进行AES加密解密的相关资料... 目录前言一、Hutool简介与引入1.1 Hutool简介1.2 引入Hutool二、AES加密解密基础

使用Python将JSON,XML和YAML数据写入Excel文件

《使用Python将JSON,XML和YAML数据写入Excel文件》JSON、XML和YAML作为主流结构化数据格式,因其层次化表达能力和跨平台兼容性,已成为系统间数据交换的通用载体,本文将介绍如何... 目录如何使用python写入数据到Excel工作表用Python导入jsON数据到Excel工作表用

鸿蒙中@State的原理使用详解(HarmonyOS 5)

《鸿蒙中@State的原理使用详解(HarmonyOS5)》@State是HarmonyOSArkTS框架中用于管理组件状态的核心装饰器,其核心作用是实现数据驱动UI的响应式编程模式,本文给大家介绍... 目录一、@State在鸿蒙中是做什么的?二、@Spythontate的基本原理1. 依赖关系的收集2.

Python基础语法中defaultdict的使用小结

《Python基础语法中defaultdict的使用小结》Python的defaultdict是collections模块中提供的一种特殊的字典类型,它与普通的字典(dict)有着相似的功能,本文主要... 目录示例1示例2python的defaultdict是collections模块中提供的一种特殊的字

C++ Sort函数使用场景分析

《C++Sort函数使用场景分析》sort函数是algorithm库下的一个函数,sort函数是不稳定的,即大小相同的元素在排序后相对顺序可能发生改变,如果某些场景需要保持相同元素间的相对顺序,可使... 目录C++ Sort函数详解一、sort函数调用的两种方式二、sort函数使用场景三、sort函数排序