本文主要是介绍决策树----第一部分(熵),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数,建立决策树主要有一下三种算法。
ID3 (J. Ross Quinlan-1975)核心:信息熵 (信息增益算法)
C4.5—ID3的改进,核心:信息增益比
CART(Breiman-1984),核心:基尼指数
下面是对熵的介绍
熵表示随机变量的不确定性的度量,熵越大,随机变量的不确定性就越大。
熵-就分类而言,所有成员都属于一类,熵为零;不同类别,数目相等,则熵等于1,类别数目不等,则熵介于0,1之间。
•当随机变量只有两个值,例如1,0时,即X的分布为
P(X=1)=p , P(X=0)=1-p , 0<=p<=1.
则熵??=−?????−(1−?)???(1−?) H(p)=-plogp-(1-p) log (1-p)
•熵H(p)随概率p变化的曲线如右图:
•可知,当p=0或p=1时,H(p)=0,随机变量完全没有不确定性。
(信息增益算法)ID3算法步骤
•输入:训练数据集D和特征A;
•输出:特征A对训练数据集D的信息增益g(D,A).
•(1) 计算数据集D的经验熵H(D)
(2)计算特征A对数据集D的经验条件熵H(D|A)
(3)计算信息增益 g(D,A)=H(D)-H(D|A)
信息增益越大则对最终的结果影响更大。
补充:以信息增益作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题。
为了解决该问题,提出了信息增益比。 C4.5算法
问题一
过拟合的原因:1、样本原因 2、构造决策树的方法问题
解决过拟合的方法: 1、对数据进行合理、有效的抽样 2、剪枝
这篇关于决策树----第一部分(熵)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!