统计学习-决策树

本文主要是介绍统计学习-决策树，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

决策树（decision tree）是一种基本的分类和回归方法。
主要优点：模型具有可读性（直观），分类速度快。
决策树学习通常包含三个步骤，特征选择，决策树的生成和决策树的剪枝。经典的决策树算法包括：Quinlan在1986年提出的ID3算法，1993年提出的C4.5算法以及由Breiman等人在1984年提出的CART算法。

决策树的模型

分类决策树模型是一种描述对实例进行分类的树形结构。用决策树分类，从根节点出发，对实例的某一个特征进行测试，根据测试结果将实例分配到其子节点，递归进行直至到某叶子节点，最后将实例分到叶子节点的类中。下图就是一个依据天气进行来判断是否playing的决策树：
这里写图片描述

特征选择

通常特征选择的准则是信息增益或者信息增益比。
信息增益：
在信息论与概率统计中，熵（entropy）是表示随机变量不确定性的度量。设 $X$ 是一个取有限个值得离散随机变量，其概率分布为：
$P(X=x_i)=p_i,i=1,2,...,n$
则随机变量 $X$ 的熵定义为：
$H(p)=-\sum_{i=1}^{n}p_ilog(p_i)$
1.熵越大，随机变量的不确定性越大；
2.理论上当随机变量是均匀分布时不确定性最大，对应的信息熵 $log(n)$
下图是二元信息熵的分布图：
这里写图片描述
1.信息熵 $H(p)\in[0,1]$
2.当 $H(p)=0$ ,说明随机变量完全确定；
3.当 $H(p)=1$ ,说明随机变量不确定最大；
经验熵： $H(p)=-\sum_{i=1}^{n}p_ilog(p_i)$
经验条件熵： $H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i)$
$特征A对数据集D的信息增益g(D,A)代表了特征A对数据集D的不确定性减少的程度，定义如下$ ：
信息增益： $g(D,A)=H(D)-H(D|A)$
下表是一个贷款申请的样本数据，分别求出经验熵和经验条件熵，从而确定根节点处的特征：
这里写图片描述
经验熵 $H(p)=-\sum_{i=1}^{n}p_ilog(p_i)=-[\frac{6}{15}log\frac{6}{15}+\frac{9}{15}log\frac{9}{15}]=0.971$ ;
经验条件熵：
$H(Y|年龄)=p_{青年}H(Y|X=青年)+p_{中年}H(Y|X=中年)+p_{老年}H(Y|X=老年)=\frac{5}{15}H(Y|X=青年)+\frac{5}{15}H(Y|X=中年)+\frac{5}{15}H(Y|X=老年)=\frac{5}{15}(-(\frac{3}{5}log\frac{3}{5}+\frac{2}{5}log\frac{2}{5}))+\frac{5}{15}(-(\frac{2}{5}log\frac{2}{5}+\frac{3}{5}log\frac{3}{5}))+\frac{5}{15}(-(\frac{1}{5}log\frac{1}{5}+\frac{4}{5}log\frac{4}{5}))=0.888$
故 $g(D,年龄)=0.971-0.888=0.083$
同理可以计算：
$g(D,有工作)=0.324$
$g(D,有房子)=0.420$
$g(D,信贷情况)=0.363$
对比发现有自己的房子的信息增益最大，故在根节点处将选择“是否有自己的房子”作为选择特征。

信息增益比
以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题，使用信息增益比（information gain ratio）可以对这一个问题进行矫正。定义如下：
$g_R(D,A)=\frac{g(D,A)}{H_A(D)}$
其中 $H_A(D)=-\sum_{i=1}^{n}\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|}$ ，n是特征A取值的个数。比如对于 $A=年龄$ ， $H_A(D)=-(\frac{5}{15}log\frac{5}{15}+\frac{5}{15}log\frac{5}{15}+\frac{5}{15}log\frac{5}{15})=log_23$

决策树的生成

1.ID3 算法
这里写图片描述

ID 3算法只有树的生成，所以该算法生成的树容易过拟合。

2.C4.5算法只是在ID3的基础上，用信息增益比进行特征选择;

决策树的剪枝

决策树生成算法通过递归地产生决策树，直到不能继续下去为止。这样产生的树的容易出现过拟合的现象，导致训练模型泛化能力不足，我们可以通过剪枝（pruning）简化模型，提高其泛化能力。

而决策树的剪枝往往通过极小化决策树整体损失函数来实现，所以我们
首先需要定义决策树的整体损失函数:
设树T的叶子节点个数 $|T|$ ， $t$ 是树 $T$ 的叶节点，该叶节点有 $N_t$ 个样本点，其中k类样本点 $N_{tk}$ 个， $k=1,2,...,K,H_t(T)$ 为叶节点 $t$ 上的经验熵， $\alpha\geqslant0$ 为参数，则决策树学习的损失函数可以定义为：
$C_{\alpha}(T)=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha|T|=C(T)+\alpha|T|$

前者表示模型对训练数据的预测误差，即模型和与训练数据的拟合程度（假设某一个叶子节点对应的样本点都是同一类，那么该叶子节点对应的 $H_t(T)=0$ ,也就说明带来的损失函数为0），后者代表模型的复杂度（比较直观，叶子节点越多，说明模型越复杂）， $\alpha$ 控制两者之间的影响。

输入：生成算法产生的整个树T，参数α
输出：修剪后的子树
1.计算每个节点的经验熵
2.递归地从叶子节点向上回溯
设一组叶子节点回缩到其父节点之前与之后的整体树分别为TA和TB，计算对应的损失函数值，如果剪枝后使得损失函数值减小，说明该剪枝是有效的。

其他剪枝方法比如：Reduced-Error Pruning(REP,错误率降低剪枝）
和Pessimistic Error Pruning(PEP，悲观剪枝）
可以参考该文。

CART生成（classification and regression tree）

决策树的生成就是递归地构建二叉决策树的过程。对回归树用平方误差最小化准则，对分类树用基尼指数（Gini index）最小化准则，进行特征选择，生成二叉树。

1.回归树的生成
假设 $X$ 和 $Y$ 分别为输入和输出变量，并且 $Y$ 是连续变量，给定训练数据集 $D={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$ ,考虑如何生成回归树。
回归树的模型： $f(x)=\sum_{m=1}^{M}c_mI(x\in{R_m})$ ,
其中输入空间由 $M个R_m单元$ 划分，根据每个样本 $x$ 落于哪个单元进行回归预测；每个单元的确定，由 $(j,s)$ 二元组确定， $j$ 是指样本 $x$ 的第 $j$ 维特征，也叫切分变量， $s$ 则是将空间一分为二的切分点，二元组主要是通过求解下式得到：
$min_{j,s}[min_{c_1}\sum_{x_i\in{R_1(j,s)}}(y_i-c_1)^2+min_{c_2}\sum_{x_i\in{R_2(j,s)}}(y_i-c_2)^2]$

其中 $c_1\approx ave(y_i|x_i\in{R_1(j,s)})$ , $c_2\approx ave(y_i|x_i\in{R_2(j,s)})$ ;固定 $j$ ，我们可以得到对应的最优切分点，从而得到一个二元组 $(j,s)$ ，遍历找到最优的二元组；

2.分类树的生成

基尼指数：分类问题中，假设有K个类，样本点属于第k类的概率为 $p_k$ ，则概率分布的基尼指数定义为： $Gini(p)=\sum_{k=1}^{K}p_k(1-p_k)=1-\sum_{k=1}^{K}p_k^2$ ,基尼指数同信息熵一样代表了数据集合的不确定性，后面的过程同C4.5的过程是类似的，在这里就不再赘述。