lightgbm实战-二分类问题(贝叶斯优化下调参方法)

2023-10-14 05:58

本文主要是介绍lightgbm实战-二分类问题(贝叶斯优化下调参方法),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

# use bayes_opt
from sklearn.datasets import make_classification
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score,KFold
from bayes_opt import BayesianOptimization
import numpy as np
# 产生随机分类数据集,10个特征, 2个类别
x, y = make_classification(n_samples=1000,n_features=10,n_classes=2)# 尝试一下用未调参的随机森林模型进行交叉验证
rf = RandomForestClassifier()
# 这里会输出5个值,取得均值
cv_score = cross_val_score(rf, x, y, scoring="f1", cv=5).mean()
cv_score# 定义一个函数,输入一些超参数,这些超参数就是需要进行调整的参数
def rf_cv(n_estimators, min_samples_split, max_features, max_depth):cv_score = cross_val_score(RandomForestClassifier(n_estimators=int(n_estimators),min_samples_split=int(min_samples_split),max_features=float(max_features), max_depth=int(max_depth),random_state=2),x, y, scoring="f1", cv=5).mean()# 必须返回一个值,如果像误差的话(回归算法)这里是需要加上一个负号的return cv_score
rf_bo = BayesianOptimization(rf_cv,{'n_estimators': (10, 250),'min_samples_split': (2, 25),'max_features': (0.1, 0.999),'max_depth': (5, 15)})
# 输出不同迭代参数组合下的得分
rf_bo.maximize()
# 输出最高得分下的参数组合
rf_bo.max

在这里插入图片描述
在这里插入图片描述

# 带入最佳参数进行计算
rf = RandomForestClassifier(random_state=2,max_depth=12,max_features=0.2694,min_samples_split=6,n_estimators=103)
np.mean(cross_val_score(rf, x, y, cv=4, scoring='f1'))

使用lightgbm尝试一波

# 设置几个参数
def lgb_cv(colsample_bytree, min_child_samples, num_leaves, subsample, max_depth):model = lgb.LGBMClassifier(boosting_type='gbdt',objective='binary',colsample_bytree=float(colsample_bytree), learning_rate=0.01,min_child_samples=int(min_child_samples), min_child_weight=0.001, n_estimators=800, n_jobs=-1, num_leaves=int(num_leaves),random_state=None, reg_alpha=0.0, reg_lambda=0.0,max_depth=int(max_depth),subsample=float(subsample))cv_score = cross_val_score(model, x, y, scoring="f1", cv=5).mean()return cv_score
# 使用贝叶斯优化
lgb_bo = BayesianOptimization(lgb_cv,{'colsample_bytree': (0.7,1),'min_child_samples': (2, 25),'num_leaves': (5, 250),'subsample': (0.7, 1),'max_depth':(2,10)})
lgb_bo.maximize()
lgb_bo.max
# 将优化好的参数带入进行使用
model = lgb.LGBMClassifier(boosting_type='gbdt',objective='binary',colsample_bytree=0.7111, learning_rate=0.01,min_child_samples=9, min_child_weight=0.001, n_estimators=800, n_jobs=-1, num_leaves=188,random_state=None, reg_alpha=0.0, reg_lambda=0.0,max_depth=2,subsample=0.91)
cv_score = cross_val_score(model, x, y, scoring="f1", cv=5).mean()
cv_score
# 结果就不放出来了,也就是一个值,大家可以模仿一下,跑跑代码。

接下里是采用lightgbm的自带的train方法配合交叉验证

def LGB_CV(max_depth,num_leaves,min_data_in_leaf,feature_fraction,bagging_fraction,lambda_l1):# 这里就不采用交叉验证的cv_score = cross_val_score(model, x, y, scoring="f1", cv=5)kf = KFold(n_splits=5,shuffle=True)# f是准备存储预测值的,交叉验证下,用五份数据作为验证集,最后将这五份数据放回f里f = np.zeros(x.shape[0])for index, (train_index, val_index) in enumerate(kf.split(x)):print("fold--{}".format(index))train_data = lgb.Dataset(x[train_index], label=y[train_index])val_data = lgb.Dataset(x[val_index], label=y[val_index])params = {'num_leaves': int(num_leaves),'min_data_in_leaf': int(min_data_in_leaf), 'objective':'binary','max_depth': int(max_depth),'learning_rate': 0.01,"boosting": "gbdt","feature_fraction": feature_fraction,"bagging_fraction": bagging_fraction ,"metric": 'auc',"lambda_l1": lambda_l1,}# 因为是交叉验证的算法,这里直接使用train,valid_sets就是要评估的数据集model = lgb.train(params, train_data, valid_sets=[train_data, val_data],num_boost_round=700, verbose_eval=500,early_stopping_rounds = 20)# 返回迭代中最好的数据,这里的predict里面的数据(不需要经过dataset)不需要再进行转化,如果是xgboost就需要,需要把x_test进行转化DMatrix(x_test),这里x_test不包含类别特征f[val_index] = model.predict(x[val_index], num_iteration=model.best_iteration)# predict里面的验证集不需要进行dataset,但是xgboost算法时需要dmatrix,并且只需要DMatrix(x_test),这里x_test不包含类别特征,很多地方这里都会出错,直接带着类别就去预测del model, train_index, val_index# 由于输出的是概率值,转化为0,1的整型值 f = np.array([1 if i>0.5 else 0 for i in oof])return metrics.f1_score(f, y)# 最后进行调参
LGB_CV(max_depth=5,num_leaves=32,min_data_in_leaf=15,feature_fraction=0.8,bagging_fraction=0.8,lambda_l1=None)# 采用贝叶斯优化算法
lgb_ba = BayesianOptimization(LGB_CV, {"max_depth":(2,12),"num_leaves":(5,130),"min_data_in_leaf":(5,30),"feature_fraction":(0.7,1),"bagging_fraction":(0.7,1),"lambda_l1":(0,6)})
lgb_ba.maximize()
lgb_ba.max["params"]

在这里插入图片描述

# 把设置好的参数带入
kf = KFold(n_splits=5,shuffle=True)
f = np.zeros(x.shape[0])
# 设置测试集数据
x_test = x[:200]
y_test = y[:200]
prediction = np.zeros(x_test.shape[0])
for index, (train_index, val_index) in enumerate(kf.split(x)):print("fold--{}".format(index))train_data = lgb.Dataset(x[train_index], label=y[train_index])val_data = lgb.Dataset(x[val_index], label=y[val_index])params = {'num_leaves': 44,'min_data_in_leaf': 19, 'objective':'binary','max_depth': 11,'learning_rate': 0.01,"boosting": "gbdt","feature_fraction": 0.81,"bagging_fraction": 0.84 ,"metric": 'auc',"lambda_l1": 1.8,}# 因为是交叉验证的算法,这里直接使用train,valid_sets就是要评估的数据集model = lgb.train(params, train_data, valid_sets=[train_data, val_data],num_boost_round=700, verbose_eval=500,early_stopping_rounds=20)f[val_index] = model.predict(x[val_index], num_iteration=model.best_iteration)# predict里面的数据不需要进行datasetprediction +=model.predict(x_test)num_iteration=model.best_iteration)/kf.n_splits
metrics.f1_score(np.array([1 if i>0.5 else 0 for i in prediction]), y_test)

在这里插入图片描述

题外话

这是kaggle上面的一种做法,也是非常高效的

这篇关于lightgbm实战-二分类问题(贝叶斯优化下调参方法)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/208611

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象