Decision Tree 决策树: 决策树是属于机器学习监督学习分类算法中比较简单的一种,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 下面来看个范例,就能很快理解了。
1.基本概念 在正式介绍决策树的生成算法前,我们先将之前的几个概念梳理一下: 1.1 信息熵 设 X X X是一个取有限个值的离散型随机变量,其分布概率为 P ( X = x i ) = p i , i = 1 , 2 , . . . , n P(X=x_i)=p_i,i=1,2,...,n P(X=xi)=pi,i=1,2,...,n 则随机变量 X X X的熵定义为 H ( X
一、决策树的理论依据: 1、熵的概念: 熵代表了数据分布的"稳定程度"(书上写的所谓纯度),或者说是"分布的离散程度"。用掰开揉碎的方式解释如下: 如以下数据: 技术能力 积极度 年龄 前途 6 8 old normal 8 9 old yes 3 3 old no 7 5 old normal 7 7 young normal 7 6 old normal 8 5 old no
算法流程 输入:约束决策树生长参数(最大深度,节点最小样本数,可选),训练集(特征值离散或连续,标签离散)。 输出:决策树。 过程:每次选择信息增益最大的属性决策分类,直到当前节点样本均为同一类,或者信息增益过小。 信息增益 设样本需分为 K K K 类,当前节点待分类样本中每类样本的个数分别为 n 1 , n 2 , … , n K n_1, n_2, …, n_K n1,n2,…