决策树信息增益

2024-06-02 10:32

文章标签 信息决策树增益

本文主要是介绍决策树信息增益，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

决策树和集成算法都是树模型

决策树：从根节点一步步走到叶子节点，所有的数据都会落到叶子节点，既可以做分类也可以做回归。

一颗树有三种节点组成，根节点，中间几点，叶子节点。根节点是第一个选择节点，也是最重要的一个选择特征。叶子节点是存放最终的结果。

决策树的训练和测试

训练是建立一棵树。

测试是让数据从根节点走到叶子节点。

如何切分特征：

通过一种衡量标准，计算在不同特征下的值。选择最好的一个作为根节点。

信息增益：g(D,A)=H(D)-H(D|A) 是集合D的信息熵-在特征A条件的信息熵

决策树的三种算法：

1.ID3 信息增益

2.C4.5 信息增益率

3.CART 基尼系数

CART分为回归树和分类树，回归树是平方误差。分类树是基尼系数，作为sklearn默认选择。

决策树减枝原因：容易出现过拟合，只要树足够大，能够把所有的数据分开。

减枝分为预剪枝和后剪枝。

预剪枝：在建立树的过程中进行剪枝。---实用

后剪枝：在建立决策树以后剪枝。

剪枝策略：

预剪枝策略：限制树的深度，叶子节点的个数，信息增益量的大小等。

后剪枝策略：通过一定的衡量标准，比如叶子节点个数越多，损失越大。

决策树的优缺点：

优点

1.容易理解和解释。

2.不需要很多的数据，不需要归一化。

缺点：

1.过拟和

2.决策树不稳定，数据小的变化可能导致产生不同的树。

改进方法：

1.CART剪纸

2.随机森林

随机森林

随机森林是一种集成方法，通过随机采样样本和随机选取特征生成多颗树，产生多个分类器，通过投票表决的方式产生最终的结果。

随机森林的特点：两个特点又放回的采样，采样样本和采样特征。

随机森林的特点：

1.具有极高的准确率

2.能够运行在大数据集上

3.能够处理高维的样本，不需要降维。

4.能够评估各个特征在分类问题上的重要性。

5.对于缺失值也有很好的效果。

这篇关于决策树信息增益的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

决策树信息增益

相关文章

Java中读取YAML文件配置信息常见问题及解决方法

Linux查看系统盘和SSD盘的容量、型号及挂载信息的方法

SpringBoot如何对密码等敏感信息进行脱敏处理

自研四振子全向增益天线! 中兴问天BE6800Pro+路由器拆机和详细评测

springboot实现配置文件关键信息加解密

Go语言开发实现查询IP信息的MCP服务器

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

Linux下如何使用C++获取硬件信息

一文详解SQL Server如何跟踪自动统计信息更新

Python如何获取域名的SSL证书信息和到期时间