决策树----第一部分（熵）

2024-09-01 13:18

文章标签 决策树部分第一

本文主要是介绍决策树----第一部分（熵），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

建立决策树的关键，即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数，建立决策树主要有一下三种算法。

ID3 （J. Ross Quinlan-1975）核心：信息熵 (信息增益算法)

C4.5—ID3的改进，核心：信息增益比

CART（Breiman-1984），核心：基尼指数

下面是对熵的介绍

熵表示随机变量的不确定性的度量，熵越大，随机变量的不确定性就越大。

熵-就分类而言，所有成员都属于一类，熵为零；不同类别，数目相等，则熵等于1，类别数目不等，则熵介于0,1之间。

•当随机变量只有两个值，例如1,0时，即X的分布为

P(X=1)=p , P(X=0)=1-p , 0<=p<=1.

则熵??=−?????−（1−?）???（1−?） H(p)=-plogp-(1-p) log (1-p)

•熵H(p)随概率p变化的曲线如右图：

•可知，当p=0或p=1时，H(p)=0，随机变量完全没有不确定性。

(信息增益算法)ID3算法步骤

•输入：训练数据集D和特征A；

•输出：特征A对训练数据集D的信息增益g(D,A).

•(1) 计算数据集D的经验熵H(D)

(2)计算特征A对数据集D的经验条件熵H(D|A)

(3)计算信息增益 g(D,A)=H(D)-H(D|A)

信息增益越大则对最终的结果影响更大。

补充：以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。

为了解决该问题，提出了信息增益比。 C4.5算法

问题一

过拟合的原因：1、样本原因 2、构造决策树的方法问题

解决过拟合的方法： 1、对数据进行合理、有效的抽样 2、剪枝

这篇关于决策树----第一部分（熵）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！