[基本功]决策树

2023-12-21 16:52

文章标签 决策树基本功

本文主要是介绍[基本功]决策树，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

决策树

信息增益（ID3）
- 信息熵，可以度量样本集合纯度
$Ent(D)=-\sum_{k=1}^{|y|}p_klog_2p_k$
- 熵越小，则D的纯度越高
- 用A属性对D样本集合进行划分，得到的信息增益为：
- 信息增益准则对可取值数目较多的属性有所偏好（比如ID，一人一个）
- 【必须离散属性，多叉树或二叉树】
增益率（C4.5）
- 增益率准则对可取值数目较少的属性有所偏好，因此C4.5并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性。再从中选择增益率最高的。
- 【可连续可离散，多叉树或二叉树】
基尼指数（CART）
- 分类和回归都可用
  - 数据集D的基尼值：
  $Gini(p)=\sum_{k=1}^Kp_k(1-p_k)=1-\sum_{k=1}^Kp_k^2(越大越不纯)$
  - 属性A的基尼指数：
    $Gini\_index(D,a)=\sum_{v=1}^V\frac{|D^v|}{|D|}Gini(D^v)$
  - 选最小的
- 【可连续可离散，必须二叉树】

连续值处理
- C4.5：二分法
- 对连续属性a，可考察包含n-1个元素的候选划分点集合
  $T_a=\{\frac{a_i+a_{i+1}}2|1<=i<=n-1\}$
- 与离散属性不同，若当前结点划分属性为连续属性，该属性还可作为其后代结点的划分属性
缺失值处理
- C4.5有自己的一套处理缺失值的方法
噪音数据可能影响决策树，在数据带有噪声的情况下，通过剪枝可将决策树的泛化性能提高25%
多变量决策树
- 非叶节点不再是仅对某个属性，而是对属性的线性组合进行测试