Boruta 和 SHAP :不同特征选择技术之间的比较以及如何选择

2024-04-13 20:18

本文主要是介绍Boruta 和 SHAP :不同特征选择技术之间的比较以及如何选择,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

来源:DeepHub IMBA本文约1800字,建议阅读5分钟 在这篇文章中,我们演示了正确执行特征选择的实用程序。

当我们执行一项监督任务时,我们面临的问题是在我们的机器学习管道中加入适当的特征选择。只需在网上搜索,我们就可以访问讨论特征选择过程的各种来源和内容。

总而言之,有不同的方法来进行特征选择。文献中最著名的是基于过滤器和基于包装器的技术。在基于过滤器的过程中,无监督算法或统计数据用于查询最重要的预测变量。在基于包装器的方法中,监督学习算法被迭代拟合以排除不太重要的特征。

通常,基于包装器的方法是最有效的,因为它们可以提取特征之间的相关性和依赖性。另一方面,它们更容易过拟合。为了避免这种问题并充分利用基于包装器的技术,我们需要做的就是采用一些简单而强大的技巧。我们可以通过一点数据理解和一个特殊的技巧来实现更好的特征选择。别担心,我们使用的不是黑暗魔法,而是SHAP(SHApley Additive exPlanations)的力量。

为了在特征选择过程中更好地利用 SHAP 的功能,我们发布了 shap-hypetune:一个用于同时调整超参数和特征选择的 Python 包。它允许在为梯度提升模型定制的单个管道中组合特征选择和参数调整。它支持网格搜索或随机搜索,并提供基于包装的特征选择算法,如递归特征消除 (RFE) 或 Boruta。进一步添加包括使用 SHAP 重要性进行特征选择,而不是经典的基于原生树的特征重要性。

在这篇文章中,我们演示了正确执行特征选择的实用程序。如果我们高估了梯度提升的解释能力,或者只是我们没有一般的数据理解,这表明并不像预期的那么简单。我们的范围是检测各种特征选择技术的表现如何以及为什么使用 SHAP 会有所帮助。


什么是Boruta?

每个人都知道(或很容易理解)RFE 递归特征消除是如何工作的。考虑到较小的特征集,它递归地拟合监督算法。其中排除的特征是根据某些权重的大小(例如,线性模型的系数或基于树的模型的特征重要性)被认为不太重要的特征。

Boruta 与 RFE 一样,是一种基于包装器的特征选择技术。可能很少有人听过它的名字,但是它同样强大。Boruta 背后的想法非常简单。给定一个表格数据集,我们在数据的扩展版本上迭代地拟合监督算法(通常是基于树的模型)。在每次迭代中,扩展版本由原始数据与水平连接的混洗列的副本组成。我们只维护在每次迭代中的特征:

  1. 比最好的随机排序特征具有更高的重要性;

  2. 比随机因素(使用二项式分布)好于预期。

RFE 和 Boruta 都使用提供特征重要性排名的监督学习算法。这个模型是这两种技术的核心,因为它判断每个特征的好坏。这里可能会出现问题。决策树的标准特征重要性方法倾向于高估高频或高基数变量的重要性。对于 Boruta 和 RFE,这可能会导致错误的特征选择。

本次实验

我们从 Kaggle 收集了一个数据集。我们选择了一个银行客户数据集,我们尝试预测客户是否很快就会流失。在开始之前,我们将一些由简单噪声构成的随机列添加到数据集中。我们这样做是为了了解我们的模型如何计算特征重要性。我们开始拟合和调整我们的梯度提升(LGBM)。我们用不同的分裂种子重复这个过程不同的时间来覆盖数据选择的随机性。下面提供了平均特征重要性。

令人惊讶的是,随机特征对我们的模型非常重要。另一个错误的假设是将 CustomerId 视为有用的预测器。这是客户的唯一标识符,梯度提升错误地认为它很重要。

鉴于这些前提,让我们在我们的数据上尝试一些特征选择技术。我们从RFE开始。我们将参数的调整与特征选择过程相结合。和以前一样,我们对不同的分裂种子重复整个过程,以减轻数据选择的随机性。对于每个试验,我们考虑标准的基于树的特征重要性和 SHAP 重要性来存储选定的特征。通过这种方式,我们可以绘制在试验结束时选择某个特征的次数。

使用 RFE 选择某个特征的次数(左);使用 RFE + SHAP 选择某个特征的次数(右)

在我们的案例中,具有标准重要性的 RFE 显示是不准确的。它通常选择与 CustomerId 相关的随机预测变量。SHAP + RFE 最好不要选择无用的特征,但同时承认一些错误的选择。

作为最后一步,我们重复相同的过程,但使用 Boruta。

Boruta(左)选择一个特征的次数;使用 Boruta + SHAP 选择某个特征的次数(右)

单独的标准 Boruta 在不考虑随机变量和 CustomerId 方面做得很好。SHAP + BORUTA 似乎也能更好地减少选择过程中的差异。

总结

在这篇文章中,我们介绍了 RFE 和 Boruta(来自 shap-hypetune)作为两种有价值的特征选择包装方法。此外,我们使用 SHAP 替换了特征重要性计算。SHAP 有助于减轻选择高频或高基数变量的影响。综上所述,当我们对数据有完整的理解时,可以单独使用RFE。Boruta 和 SHAP 可以消除对正确验证的选择过程的任何疑虑。

最后源代码在这里:

https://github.com/cerlymarco/MEDIUM_NoteBook/tree/master/ShapBoruta_FeatureSelection

本文作者:Marco Cerliani

编辑:文婧

这篇关于Boruta 和 SHAP :不同特征选择技术之间的比较以及如何选择的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901116

相关文章

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

Vue中组件之间传值的六种方式(完整版)

《Vue中组件之间传值的六种方式(完整版)》组件是vue.js最强大的功能之一,而组件实例的作用域是相互独立的,这就意味着不同组件之间的数据无法相互引用,针对不同的使用场景,如何选择行之有效的通信方式... 目录前言方法一、props/$emit1.父组件向子组件传值2.子组件向父组件传值(通过事件形式)方

MySQL中慢SQL优化的不同方式介绍

《MySQL中慢SQL优化的不同方式介绍》慢SQL的优化,主要从两个方面考虑,SQL语句本身的优化,以及数据库设计的优化,下面小编就来给大家介绍一下有哪些方式可以优化慢SQL吧... 目录避免不必要的列分页优化索引优化JOIN 的优化排序优化UNION 优化慢 SQL 的优化,主要从两个方面考虑,SQL 语

Python实现PDF与多种图片格式之间互转(PNG, JPG, BMP, EMF, SVG)

《Python实现PDF与多种图片格式之间互转(PNG,JPG,BMP,EMF,SVG)》PDF和图片是我们日常生活和工作中常用的文件格式,有时候,我们可能需要将PDF和图片进行格式互转来满足... 目录一、介绍二、安装python库三、Python实现多种图片格式转PDF1、单张图片转换为PDF2、多张图

基于Python实现多语言朗读与单词选择测验

《基于Python实现多语言朗读与单词选择测验》在数字化教育日益普及的今天,开发一款能够支持多语言朗读和单词选择测验的程序,对于语言学习者来说无疑是一个巨大的福音,下面我们就来用Python实现一个这... 目录一、项目概述二、环境准备三、实现朗读功能四、实现单词选择测验五、创建图形用户界面六、运行程序七、

Java对象和JSON字符串之间的转换方法(全网最清晰)

《Java对象和JSON字符串之间的转换方法(全网最清晰)》:本文主要介绍如何在Java中使用Jackson库将对象转换为JSON字符串,并提供了一个简单的工具类示例,该工具类支持基本的转换功能,... 目录前言1. 引入 Jackson 依赖2. 创建 jsON 工具类3. 使用示例转换 Java 对象为

前端知识点之Javascript选择输入框confirm用法

《前端知识点之Javascript选择输入框confirm用法》:本文主要介绍JavaScript中的confirm方法的基本用法、功能特点、注意事项及常见用途,文中通过代码介绍的非常详细,对大家... 目录1. 基本用法2. 功能特点①阻塞行为:confirm 对话框会阻塞脚本的执行,直到用户作出选择。②

Python如何计算两个不同类型列表的相似度

《Python如何计算两个不同类型列表的相似度》在编程中,经常需要比较两个列表的相似度,尤其是当这两个列表包含不同类型的元素时,下面小编就来讲讲如何使用Python计算两个不同类型列表的相似度吧... 目录摘要引言数字类型相似度欧几里得距离曼哈顿距离字符串类型相似度Levenshtein距离Jaccard相