本文主要是介绍6、特征选择(filter):WOE迹象权数与IV值检验,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
WOE(Weight of Evidence)迹象权数,表示当前分箱中好坏客户的各自占总体好坏客户比例的差异,描述了预测变量与目标变量之间的关系。
IV(information value)信息值,又称VOI(Value Of Information),用来表示变量预测能力的强度,可用于单变量筛选。
其数学表达为:
I V = ∑ i = 1 N I V i = ∑ i = 1 N ( P g o o d ( i ) − P B a d ( i ) ) ∗ W O E i = ∑ i = 1 N ( P g o o d ( i ) − P B a d ( i ) ) ∗ l n P G o o d ( i ) P B a d ( i ) \begin{aligned} IV&= \sum^{N}_{i=1}IV_i \\ &=\sum^{N}_{i=1}(P_{good}^{(i)}-P_{Bad}^{(i)})*WOE_i \\ &=\sum^{N}_{i=1}(P_{good}^{(i)}-P_{Bad}^{(i)})*ln\frac{P_{Good}^{(i)}}{P_{Bad}^{(i)}}\\ \end{aligned} IV=i=1∑NIVi=i=1∑N(Pgood(i)−PBad(i))∗WOEi=i=1∑N(Pgood(i)−PBad(i))∗lnPBad(i)PGood(i)
其中 P G o o d ( i ) = 特征取值为 i 的 G o o d 样本 / 总体 G o o d 样本 P_{Good}^{(i)}=特征取值为i的Good样本/总体Good样本 PGood(i)=特征取值为i的Good样本/总体Good样本。
其中 P B a d ( i ) = 特征取值为 i 的 B a d 样本 / 总体 B a d 样本 P_{Bad}^{(i)}=特征取值为i的Bad样本/总体Bad样本 PBad(i)=特征取值为i的Bad样本/总体Bad样本。
一般来说,IV值越大表示特征越有效,并且一般认为IV值和特征效果有如下对应关系:
IV值 | 解释能力 |
---|---|
<0.03 | 无预测力 |
[0.03, 0.09) | 具有较弱判别效果 |
[0.1, 0.29) | 具有一定的判别效果 |
[0.3, 0.49) | 具有较好的判别效果 |
>=0.5 | 具有极强的判别效果 |
举例说明:假设为二分类问题,数据分布如下,现衡量特征变量"是否为老人"对“是否流失”的影响程度。
则:
I V = ∑ i = 1 2 I V i = ∑ i = 1 2 ( P g o o d ( i ) − P B a d ( i ) ) ∗ l n P G o o d ( i ) P B a d ( i ) = ( 5700 6000 − 400 1000 ) ∗ l n ( 5700 / 6000 400 / 1000 ) + ( 300 6000 − 600 1000 ) ∗ l n ( 300 / 6000 600 / 1000 ) = 1.84 \begin{aligned} IV&= \sum^{2}_{i=1}IV_i \\ &=\sum^{2}_{i=1}(P_{good}^{(i)}-P_{Bad}^{(i)})*ln\frac{P_{Good}^{(i)}}{P_{Bad}^{(i)}}\\ &=(\frac{5700}{6000}-\frac{400}{1000})*ln(\frac{5700/6000}{400/1000})\\ &+(\frac{300}{6000}-\frac{600}{1000})*ln(\frac{300/6000}{600/1000})\\ & = 1.84 \end{aligned} IV=i=1∑2IVi=i=1∑2(Pgood(i)−PBad(i))∗lnPBad(i)PGood(i)=(60005700−1000400)∗ln(400/10005700/6000)+(6000300−1000600)∗ln(600/1000300/6000)=1.84
WOE优势
- 能够作为特征重要性评估手段,可提升模型的预测效果;
- WOE可以将非线性变量线性化处理(不一定单调),提高业务解释性;
- WOE能消除异常值的影响(通过分箱离散化处理),提高变量的抗干扰能力;
- 处理缺失值(将缺失值单独作为一个分箱),提高模型的效果;
- 经常用于对连续字段分箱中,尤其常见于评分卡模型。
- WOE编码(得先对连续变量先分箱)与one-hot编码相比,可以保证变量的完整性,同时避免稀疏矩阵和维度灾难并加快收敛;
WOE劣势
- 小概率事件导致woe对比较不同变量预测能力失效
WOE可以将非线性变量线性化处理
逻辑回归的假设函数为:
p = 1 1 + e − θ T x p=\frac{1}{1+e^{-\theta^Tx}} p=1+e−θTx1
对于二分类问题,p为样本为坏客户的概率,1-p为样本为好客户的概率,可得:
l o g ( p 1 − p ) = 1 1 + e − θ T x 1 − 1 1 + e − θ T x = 1 1 + e − θ T x 1 + e − θ T x 1 + e − θ T x − 1 1 + e − θ T x
这篇关于6、特征选择(filter):WOE迹象权数与IV值检验的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!