6、特征选择(filter):WOE迹象权数与IV值检验

2024-02-24 17:59

本文主要是介绍6、特征选择(filter):WOE迹象权数与IV值检验,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  WOE(Weight of Evidence)迹象权数,表示当前分箱中好坏客户的各自占总体好坏客户比例的差异,描述了预测变量与目标变量之间的关系。

  IV(information value)信息值,又称VOI(Value Of Information),用来表示变量预测能力的强度,可用于单变量筛选。

  其数学表达为:

I V = ∑ i = 1 N I V i = ∑ i = 1 N ( P g o o d ( i ) − P B a d ( i ) ) ∗ W O E i = ∑ i = 1 N ( P g o o d ( i ) − P B a d ( i ) ) ∗ l n P G o o d ( i ) P B a d ( i ) \begin{aligned} IV&= \sum^{N}_{i=1}IV_i \\ &=\sum^{N}_{i=1}(P_{good}^{(i)}-P_{Bad}^{(i)})*WOE_i \\ &=\sum^{N}_{i=1}(P_{good}^{(i)}-P_{Bad}^{(i)})*ln\frac{P_{Good}^{(i)}}{P_{Bad}^{(i)}}\\ \end{aligned} IV=i=1NIVi=i=1N(Pgood(i)PBad(i))WOEi=i=1N(Pgood(i)PBad(i))lnPBad(i)PGood(i)

  其中 P G o o d ( i ) = 特征取值为 i 的 G o o d 样本 / 总体 G o o d 样本 P_{Good}^{(i)}=特征取值为i的Good样本/总体Good样本 PGood(i)=特征取值为iGood样本/总体Good样本

  其中 P B a d ( i ) = 特征取值为 i 的 B a d 样本 / 总体 B a d 样本 P_{Bad}^{(i)}=特征取值为i的Bad样本/总体Bad样本 PBad(i)=特征取值为iBad样本/总体Bad样本

  一般来说,IV值越大表示特征越有效,并且一般认为IV值和特征效果有如下对应关系:

IV值解释能力
<0.03无预测力
[0.03, 0.09)具有较弱判别效果
[0.1, 0.29)具有一定的判别效果
[0.3, 0.49)具有较好的判别效果
>=0.5具有极强的判别效果

  举例说明:假设为二分类问题,数据分布如下,现衡量特征变量"是否为老人"对“是否流失”的影响程度。

在这里插入图片描述
  则:

I V = ∑ i = 1 2 I V i = ∑ i = 1 2 ( P g o o d ( i ) − P B a d ( i ) ) ∗ l n P G o o d ( i ) P B a d ( i ) = ( 5700 6000 − 400 1000 ) ∗ l n ( 5700 / 6000 400 / 1000 ) + ( 300 6000 − 600 1000 ) ∗ l n ( 300 / 6000 600 / 1000 ) = 1.84 \begin{aligned} IV&= \sum^{2}_{i=1}IV_i \\ &=\sum^{2}_{i=1}(P_{good}^{(i)}-P_{Bad}^{(i)})*ln\frac{P_{Good}^{(i)}}{P_{Bad}^{(i)}}\\ &=(\frac{5700}{6000}-\frac{400}{1000})*ln(\frac{5700/6000}{400/1000})\\ &+(\frac{300}{6000}-\frac{600}{1000})*ln(\frac{300/6000}{600/1000})\\ & = 1.84 \end{aligned} IV=i=12IVi=i=12(Pgood(i)PBad(i))lnPBad(i)PGood(i)=(600057001000400)ln(400/10005700/6000)+(60003001000600)ln(600/1000300/6000)=1.84

WOE优势

  • 能够作为特征重要性评估手段,可提升模型的预测效果;
  • WOE可以将非线性变量线性化处理(不一定单调),提高业务解释性;
  • WOE能消除异常值的影响(通过分箱离散化处理),提高变量的抗干扰能力;
  • 处理缺失值(将缺失值单独作为一个分箱),提高模型的效果;
  • 经常用于对连续字段分箱中,尤其常见于评分卡模型。
  • WOE编码(得先对连续变量先分箱)与one-hot编码相比,可以保证变量的完整性,同时避免稀疏矩阵和维度灾难并加快收敛;

WOE劣势

  • 小概率事件导致woe对比较不同变量预测能力失效

WOE可以将非线性变量线性化处理

  逻辑回归的假设函数为:
p = 1 1 + e − θ T x p=\frac{1}{1+e^{-\theta^Tx}} p=1+eθTx1
  对于二分类问题,p为样本为坏客户的概率,1-p为样本为好客户的概率,可得:
l o g ( p 1 − p ) = 1 1 + e − θ T x 1 − 1 1 + e − θ T x = 1 1 + e − θ T x 1 + e − θ T x 1 + e − θ T x − 1 1 + e − θ T x

这篇关于6、特征选择(filter):WOE迹象权数与IV值检验的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/742899

相关文章

2024年高教社杯数学建模国赛最后一步——结果检验-事关最终奖项

2024年国赛已经来到了最后一天,有必要去给大家讲解一下,我们不需要过多的去关注模型的结果,因为模型的结果的分值设定项最多不到20分。但是如果大家真的非常关注的话,那有必要给大家讲解一下论文结果相关的问题。很多的论文,上至国赛优秀论文下至不获奖的论文并不是所有的论文都可以进行完整的复现求解,大部分数模论文都为存在一个灰色地带。         白色地带即认为所有的代码均可运行、公开

Hbase Filter+Scan 查询效率优化

Hbase Filter+Scan 查询效率问题 众所周知,Hbase利用filter过滤器查询时候会进行全表扫描,查询效率低下,如果没有二级索引,在项目中很多情况需要利用filter,下面针对这种情况尝试了几种优化的方案,仅供参考,欢迎交流。 根据业务要求,作者需要根据时间范围搜索所需要的数据,所以作者设计的rowKey是以时间戳为起始字符串的。 正确尝试: 1.scan 设置 开始行和结

Filter基本原理和使用

https://www.cnblogs.com/xdp-gacl/p/3948353.html 一、Filter简介   Filter也称之为过滤器,它是Servlet技术中最激动人心的技术,WEB开发人员通过Filter技术,对web服务器管理的所有web资源:例如Jsp, Servlet, 静态图片文件或静态 html 文件等进行拦截,从而实现一些特殊的功能。例如实现URL级别的权限访问控

医院检验系统LIS源码,LIS系统的定义、功能结构以及样本管理的操作流程

本文将对医院检验系统LIS进行介绍,包括LIS系统的定义、功能结构以及样本管理的操作流程方面。 LIS系统定义 LIS系统(Laboratory Information System)是一种专门为临床检验实验室开发的信息管理系统,其主要功能包括实验室信息管理、样本管理、检验结果管理、质量控制管理、数据分析等。其主要作用是管理医院实验室的各项业务,包括样本采集、检验、结果录入和报告生成等。Li

【ML--05】第五课 如何做特征工程和特征选择

一、如何做特征工程? 1.排序特征:基于7W原始数据,对数值特征排序,得到1045维排序特征 2. 离散特征:将排序特征区间化(等值区间化、等量区间化),比如采用等量区间化为1-10,得到1045维离散特征 3. 计数特征:统计每一行中,离散特征1-10的个数,得到10维计数特征 4. 类别特征编码:将93维类别特征用one-hot编码 5. 交叉特征:特征之间两两融合,x+y、x-y、

在UE的内容浏览器中添加自定义的Filter

目标需求 在UE的内容浏览器中,可以使用Filter来过滤资源: 目标需求是在这之中添加一个自定义的Filter。 其代码上是非常简单的,在本文末尾。 然而我觉得找到方法的过程也是挺有意思的,因此我也记录了下来。 探索过程 1. 在哪定义? 首先,我猜测Other Filters下的各个项目,也都是通过代码添加的。因此,我调了其中一项,比如Show Redirectors,然后对代码进

Flink实例(六十八):布隆过滤器(Bloom Filter)的原理和实现

什么情况下需要布隆过滤器? 先来看几个比较常见的例子 字处理软件中,需要检查一个英语单词是否拼写正确在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上在网络爬虫里,一个网址是否被访问过yahoo, gmail等邮箱垃圾邮件过滤功能 这几个例子有一个共同的特点: 如何判断一个元素是否存在一个集合中? 常规思路 数组链表树、平衡二叉树、TrieMap (红黑树)哈希表 虽然上面描述的

【python因果推断库7】使用 pymc 模型的工具变量建模 (IV)2

目录 与普通最小二乘法 (OLS) 的比较 应用理论:政治制度与GDP 拟合模型:贝叶斯方法  多变量结果和相关性度量 结论 与普通最小二乘法 (OLS) 的比较 simple_ols_reg = sk_lin_reg().fit(X.reshape(-1, 1), y)print("Intercept:", simple_ols_reg.intercept_, "Bet

过滤器(Filter)和拦截器(Interceptor)

在Web开发中,过滤器(Filter)和拦截器(Interceptor)都是重要的组件,它们都可以对HTTP请求进行预处理、后处理以及一些额外的操作。然而,它们之间在多个方面存在明显的区别 1. 运行位置 过滤器(Filter):运行在Web服务器和Servlet容器之间的组件,可以拦截所有进出该容器的请求和响应。过滤器是Servlet规范的一部分,不依赖于特定的框架。拦截器(Intercep

结合sklearn说一下特征选择

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解 拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉或者