LR+GBDT的工作原理

2024-04-13 13:48

文章标签 工作原理 lr gbdt

本文主要是介绍LR+GBDT的工作原理，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

简介

因为梯度提升树训练过于复杂，而逻辑回归过于简单，只能发现线性简单，而对于交互项和非线性关系没有辨识度。
于是用梯度提升树训练模型，基于树模型，就有了交叉和非线性，然后把叶子节点放到逻辑回归模型里，解决了逻辑回归算法的缺点。

简单来说，就是将梯度提升树的输出作为逻辑回归的输入，最终得到逻辑回归模型。

如梯度提升树中有三棵树， $T_1$ 、 $T_2$ 和 $T_3$ ，每棵树的叶子节点树为4。设第 $i$ 棵树的第 $j$ 个叶子节点为 $L_{ij}$ 。

梯度提升树模型训练完成后，样本 $X$ 经过 $T_1$ 后落在了第3个节点上，即 $L_{13}$ ，样本在 $T_1$ 的向量表达为 $(0, 0, 1, 0)$ 。随后样本经过 $T_2$ 后落在了第一个节点，经过 $T_3$ 后落在了第4个节点，即 $L_{21}$ 、 $L_{34}$ ，向量表达分别为 $(1, 0, 0, 0)$ 、 $(0, 0, 0, 1)$ 。则样本在梯度提升树模型上的表达为 $(0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1)$ ，随后输入逻辑回归模型参于训练或者预测。

实现

from sklearn.preprocessing import OneHotEncoder
from sklearn.ensemble import GradientBoostingClassifiergbm1 = GradientBoostingClassifier(n_estimators=50, random_state=10, subsample=0.6, max_depth=7,min_samples_split=900)
gbm1.fit(X_train, Y_train)
train_new_feature = gbm1.apply(X_train)
train_new_feature = train_new_feature.reshape(-1, 50)enc = OneHotEncoder()enc.fit(train_new_feature)# # 每一个属性的最大取值数目
# print('每一个特征的最大取值数目:', enc.n_values_)
# print('所有特征的取值数目总和:', enc.n_values_.sum())train_new_feature2 = np.array(enc.transform(train_new_feature).toarray())