6、特征选择(filter)：WOE迹象权数与IV值检验

本文主要是介绍6、特征选择(filter)：WOE迹象权数与IV值检验，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

WOE（Weight of Evidence）迹象权数，表示当前分箱中好坏客户的各自占总体好坏客户比例的差异，描述了预测变量与目标变量之间的关系。

IV(information value)信息值，又称VOI（Value Of Information），用来表示变量预测能力的强度，可用于单变量筛选。

其数学表达为：

$\begin{aligned} IV&= \sum^{N}_{i=1}IV_i \\ &=\sum^{N}_{i=1}(P_{good}^{(i)}-P_{Bad}^{(i)})*WOE_i \\ &=\sum^{N}_{i=1}(P_{good}^{(i)}-P_{Bad}^{(i)})*ln\frac{P_{Good}^{(i)}}{P_{Bad}^{(i)}}\\ \end{aligned}$

其中 $P_{Good}^{(i)}=特征取值为i的Good样本/总体Good样本$ 。

其中 $P_{Bad}^{(i)}=特征取值为i的Bad样本/总体Bad样本$ 。

一般来说，IV值越大表示特征越有效，并且一般认为IV值和特征效果有如下对应关系：

IV值	解释能力
<0.03	无预测力
[0.03, 0.09)	具有较弱判别效果
[0.1, 0.29)	具有一定的判别效果
[0.3, 0.49)	具有较好的判别效果
>=0.5	具有极强的判别效果

举例说明：假设为二分类问题，数据分布如下，现衡量特征变量"是否为老人"对“是否流失”的影响程度。

在这里插入图片描述
则：

$\begin{aligned} IV&= \sum^{2}_{i=1}IV_i \\ &=\sum^{2}_{i=1}(P_{good}^{(i)}-P_{Bad}^{(i)})*ln\frac{P_{Good}^{(i)}}{P_{Bad}^{(i)}}\\ &=(\frac{5700}{6000}-\frac{400}{1000})*ln(\frac{5700/6000}{400/1000})\\ &+(\frac{300}{6000}-\frac{600}{1000})*ln(\frac{300/6000}{600/1000})\\ & = 1.84 \end{aligned}$