【R语言】基于多模型的变量重要性图 (Variable Importance Plots)

2024-08-23 00:52

本文主要是介绍【R语言】基于多模型的变量重要性图 (Variable Importance Plots),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

变量重要性图 Variable Importance Plots

  • 1. 写在前面
  • 2.1数据导入
  • 2.2 模型训练
  • 2.3 变量重要性
  • 2.4 变量重要性图
  • 2.5 模型模拟验证
  • 3.基于caret包计算变量重要性

1. 写在前面

  好久没有更新博客了,正好最近在帮老师做一个项目,里面涉及到了不同环境变量的重要性制图,所以在这里把我的理解进行分享,这应该是大家都可能遇到的问题。笔者水平有限,大家发现什么问题可以给我指出。
  变量重要度图(Variable importance plots) 可以非常直观的展示各个变量在模型中的重要度,从而可以更好的理解和解释所建立的模型。

2.1数据导入

  这里我随机生成了一个数据集,包含了10个x变量

## 基于树模型的变量重要度图(Variable Importance Plots)-------------------------
library(vip) # 制作变量重要度图
library(rpart) # 决策树
library(randomForest) # 随机森林
library(xgboost) # 梯度提升决策树
library(mgcv)
library(caret)
library(ggplot2) # 作图mydata <- gen_friedman( # 创建数据n_samples = 100, # 行数sigma = 1,       # 标准差seed = 123       # 让数据可以重复
)
nrow(mydata)
head(mydata)

数据集结构:
在这里插入图片描述

2.2 模型训练

  这里包括了四个模型:决策树(Decision trees)、随机森林(Random forests)、梯度提升决策树(GBMs)、广义可加模型(GAM)

# 1、拟合回归决策树模型-------------------------------------------
model_tree <- rpart(y ~ ., data = mydata)# 2、拟合随机森林模型---------------------------------------------
model_rf <- randomForest(y ~ .,data = mydata,importance = TRUE)  # 计算变量的重要度   # 3、拟合梯度提升决策树模型(GBMs)---------------------------------
model_gbm <- xgboost(data = data.matrix(subset(mydata, select = -y)), # 剔除y后将数据转化为矩阵格式label = mydata$y, # 指定因变量ynrounds = 100, # 提升迭代的最大次数max_depth = 5, # 树的最大深度为5,默认为6verbose = 0  # 不输出模型的运行信息
)# 4、拟合广义可加模型 (GAM)----------------------------------------
# 自动创建公式字符串:将所有自变量包裹在平滑函数 s() 中
gam_formula <- as.formula(paste("y ~", paste0("s(", names(mydata)[-1], ")", collapse = " + ")))
model_gam <- gam(gam_formula, data = mydata)
# # 拟合广义可加模型 (GAM)
# model_gam <- gam(y ~ s(x1) + s(x2) + s(x3) + s(x4) + s(x5)
#                  + s(x6) + s(x7) + s(x8) + s(x9) + s(x10),
#                  data = mydata)

2.3 变量重要性

  使用vi()函数可以得到不同模型模拟的变量的重要性值

# 决策树
vi(model_tree)
# 随机森林
vi(model_rf)
# GBMs
vi(model_gbm)
# 计算GAM模型的变量重要度
vi_gam <- vi(model_gam, method = "permute", target = "y", metric = "rmse", pred_wrapper = predict)

简单列出其中一个模型的结果:
在这里插入图片描述

2.4 变量重要性图

  这可能是大家最关心的地方

# 制作变量重要度图
p1 <- vip(model_tree) + ggtitle("Single tree")
p2 <- vip(model_rf) + ggtitle("Random forest")
p3 <- vip(model_gbm) + ggtitle("Gradient boosting")
p4 <- vip(vi_gam) + ggtitle("GAM (Generalized Additive Model)")# 将图片合并成1行3列
grid.arrange(p1, p2, p3, p4, nrow = 2)

结果展示:
在这里插入图片描述
可以看出,不同模型模拟的结果基本上是一致的。

2.5 模型模拟验证

  这里用到了三个指标:R2、MAE和RMSE,具体公式如下,这里我没有使用Adjusted R2:
在这里插入图片描述

## 模型模拟效果----------------------------------------------------------------
# 定义计算 R2的函数
calc_r2 <- function(actual, predicted) {ss_res <- sum((actual - predicted) ^ 2)ss_tot <- sum((actual - mean(actual)) ^ 2)1 - (ss_res / ss_tot)
}# 定义计算 MAE 的函数
calc_mae <- function(actual, predicted) {mean(abs(actual - predicted))
}# 定义计算 RMSE 的函数
calc_rmse <- function(actual, predicted) {sqrt(mean((actual - predicted) ^ 2))
}# 获取实际值
actual_values <- mydata$y# 计算每个模型的预测值
pred_tree <- predict(model_tree, mydata)
pred_rf <- predict(model_rf, mydata)
pred_gbm <- predict(model_gbm, data.matrix(subset(mydata, select = -y)))
pred_gam <- predict(model_gam, mydata)# 计算 R2
r2_tree <- calc_r2(actual_values, pred_tree)
r2_rf <- calc_r2(actual_values, pred_rf)
r2_gbm <- calc_r2(actual_values, pred_gbm)
r2_gam <- calc_r2(actual_values, pred_gam)# 计算 MAE
mae_tree <- calc_mae(actual_values, pred_tree)
mae_rf <- calc_mae(actual_values, pred_rf)
mae_gbm <- calc_mae(actual_values, pred_gbm)
mae_gam <- calc_mae(actual_values, pred_gam)# 计算 RMSE
rmse_tree <- calc_rmse(actual_values, pred_tree)
rmse_rf <- calc_rmse(actual_values, pred_rf)
rmse_gbm <- calc_rmse(actual_values, pred_gbm)
rmse_gam <- calc_rmse(actual_values, pred_gam)# 输出结果
cat("Decision Tree:               R2 =", r2_tree,  "MAE =", mae_tree, "RMSE =", rmse_tree, "\n","Random Forest:              R2 =", r2_rf,  "MAE =", mae_rf, "RMSE =", rmse_rf, "\n","Gradient Boosting:          R2 =", r2_gbm,  "MAE =", mae_gbm, "RMSE =", rmse_gbm, "\n","Generalized Additive Model: R2 =", r2_gam,  "MAE =", mae_gam, "RMSE =", rmse_gam, "\n"
)

结果展示:
在这里插入图片描述

3.基于caret包计算变量重要性

  以上内容没有涉及到交叉验证,并且所有的模型评价指标都是手动计算的,现在我将使用caret包提供的函数进行计算。
  caret(Classification and Regression Ensemble Training)包 是 R 语言中一个非常强大的工具,用于分类和回归模型的训练和评估。它提供了一个统一的接口来实现不同的机器学习算法,并支持模型的调参、训练、预测和评估。
主要功能和特点

  • 统一的接口 : caret 提供了一个统一的接口来训练和评估各种机器学习模型,无论是分类模型还是回归模型。这样,你可以在不同的算法之间进行比较和选择。
  • 模型训练 : 使用 train() 函数可以训练模型,支持多种模型算法,如决策树、随机森林、支持向量机(SVM)、梯度提升、线性回归、广义可加模型(GAM)等。
  • 调参(Tuning): caret 允许你通过网格搜索(grid search)和随机搜索(random search)来调节模型的超参数,以找到最佳的参数组合。使用 train() 函数时,可以通过 tuneGrid 或 tuneLength 参数来指定需要调节的参数范围。
  • 交叉验证(Cross-Validation): 提供了多种交叉验证方法,如 k 折交叉验证(k-fold cross-validation)来评估模型的性能。你可以通过 trainControl() 函数设置交叉验证的参数。
  • 性能评估 : caret 可以计算模型的性能指标,如准确率(accuracy)、均方根误差(RMSE)、均方误差(MSE)、调整后的 R²(Adjusted R²)等。可以通过 postResample() 函数来提取模型的性能度量。
  • 数据预处理 : 支持数据预处理操作,如数据标准化(standardization)、归一化(normalization)、特征选择(feature selection)等。这些操作可以通过 preProcess() 函数实现。
  • 模型集成 : 支持多种模型集成方法,如堆叠(stacking)和集成(ensembling),以提高模型的预测性能。
## caret ----------------------------------------------------------------------
# Set up 10-fold cross-validation
train_control <- trainControl(method = "cv", number = 10)# glm with 10-fold cross-validation
model_glm_cv <- train(y ~ .,data = mydata,method = "glm",trControl = train_control,metric = "RMSE"
)# GAM with 10-fold cross-validation
model_gam_cv <- train(y ~ .,data = mydata,method = "gamSpline",trControl = train_control,metric = "RMSE"
)# Random Forest with 10-fold cross-validation
model_rf_cv <- train(y ~ .,data = mydata,method = "rf",trControl = train_control,metric = "RMSE"
)# Gradient Boosting with 10-fold cross-validation
model_gbm_cv <- train(y ~ .,data = mydata,method = "xgbTree",trControl = train_control,metric = "RMSE"
)# 计算并绘制变量重要性
vip(model_glm_cv)
vip(model_gam_cv)
vip(model_rf_cv)
vip(model_gbm_cv)# make Variable Importance Plots
p11 <- vip(model_glm_cv) + ggtitle("Generalized linear Model")
p21 <- vip(model_gam_cv) + ggtitle("Random forest")
p31 <- vip(model_rf_cv) + ggtitle("Gradient boosting")
p41 <- vip(model_gbm_cv) + ggtitle("Generalized Additive Model")grid.arrange(p11, p21, p31, p41, nrow = 2)# Extract the results
results_glm <- model_glm_cv$results
results_rf <- model_rf_cv$results
results_gbm <- model_gbm_cv$results
results_gam <- model_gam_cv$results# Print results
cat("Generalized linear Model (GLM):   R2 =", max(results_glm$Rsquared), "MAE =", min(results_tree$MAE), "RMSE =", min(results_tree$RMSE), "\n","Random Forest (RF):              R2 =", max(results_rf$Rsquared), "MAE =", min(results_rf$MAE), "RMSE =", min(results_rf$RMSE), "\n","Gradient Boosting (GBM):         R2 =", max(results_gbm$Rsquared), "MAE =", min(results_gbm$MAE), "RMSE =", min(results_gbm$RMSE), "\n","Generalized Additive Model(GAM): R2 =", max(results_gam$Rsquared), "MAE =", min(results_gam$MAE), "RMSE =", min(results_gam$RMSE), "\n"
)

结果展示:
在这里插入图片描述

模型模拟精度验证:
在这里插入图片描述

这篇关于【R语言】基于多模型的变量重要性图 (Variable Importance Plots)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1097892

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

变量与命名

引言         在前两个课时中,我们已经了解了 Python 程序的基本结构,学习了如何正确地使用缩进来组织代码,并且知道了注释的重要性。现在我们将进一步深入到 Python 编程的核心——变量与命名。变量是我们存储数据的主要方式,而合理的命名则有助于提高代码的可读性和可维护性。 变量的概念与使用         在 Python 中,变量是一种用来存储数据值的标识符。创建变量很简单,

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU