matlab 决策树分类调参,ID3决策树算法 - osc_dwi1do0o的个人空间 - OSCHINA - 中文开源技术交流社区...

本文主要是介绍matlab 决策树分类调参,ID3决策树算法 - osc_dwi1do0o的个人空间 - OSCHINA - 中文开源技术交流社区...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一,简介

ID3(Iterative Dichotmizer 3)

1.什么是决策树学习

决策树学习是以训练或样本数据集为基础的归纳学习算法,是用于分类和预测的重要技术。

2.ID3核心思想

核心思想是利用信息熵原理选择信息增益最大的属性作为分类属性,递归地拓展决策树的分枝,完成决策树的构造

3.决策树学习本质是什么

决策树学习本质上是从训练数据集中归纳出一组分类规则

二,基础概念

a.信息熵

熵(entropy)表示随机变量不确定性的度量,也就是熵越大,变量的不确定性就越大。设

25e9032d01337cb7d68c8f35118185a8.png是一个有限值的离散随机变量,其概率分布为:

7a5bb11c8c182fb6d6ff3744aaedba06.png

ca8f8b6cbf875fdeaafb920ad017956b.png

则随机变量

1e985b35fc368f6cee47f0dd4d32cf4b.png的熵定义为

eaac0a0f1e3b15253f5f79deca70afe1.png

(若

1d2120b0b87211b60f5898045c825c3a.png,定义

6ff1b3c115785ecd7b96d36fa1e90640.png)

b.条件熵

条件熵

fb1486dd34070d9898486bea35913fa4.png表示在已知随机变量

2141ebb7e4fecbe882856ef6d96e8df7.png条件下随机变量

f16070db028d20203b19d6318969682b.png的不确定性。随机变量

ae4386ebdc01f2ec037966d2d90cf8a6.png给定的条件下随机变量

f959e66e9f527b9e96a850b00810eae8.png的条件熵为

f93c48a20d365453304d87bc2fc56a94.png

abb57228d7c0967d8c344ef7b8e14857.png

c.信息增益

特征

8ef1e75acf861266112108fde7839ac2.png对训练数据集

5749700a6008a470eade93d9a95134c0.png的信息增益

7b1532802dce68ea5bb1fbf62c5c9178.png,定义为集合

00e8ebb460a12b5b4dac37acd4e5a7d9.png的经验熵

dea4037432550b4cc9dd818888807467.png与特征A给定条件下

6b4b00ad713ed49799664b19e4bc4be8.png的经验条件熵

b18102bbb3810355aa9cb5ae0721456b.png之差,即

94db008cea6b3c1877381923bd914e4e.png

信息增益大的特征具有更强的分类能力

d.总结

给定训练数据集

91c1331e22aab22864cfc5c48df817a5.png和特征

c2c99433ab2e0cbe1649858abaaf989f.png

经验熵

6aec528649a77bf99cc7c5bb09a6a7fb.png表示对数据集

1abcf24ca149c9e2f841d87e211b4fc7.png进行分类的不确定性

经验条件熵

a77ed824de00b2f325502b59cb670b15.png表示在特征

c58d1090ec4217b753812848d7057a1a.png给定的条件下对数据集

0ff70a979e137d94eaf56ccbc7400221.png进行分类的不确定性

904dd41729d05f22a4f7f847e365186a.png表示由于特征

dce9aa908141d080c0fbdf3229c41c1f.png而使得对数据

61d882ebf9383d66c46ce6371caebd5c.png的分类的不确定性减少的程度。

e.决策树进行分类的步骤

利用样本数据集构造一颗决策树,并通过构造的决策树建立相应的分类模型。这个过程实际上是从一个数据中获取知识,进行规制提炼的过程。

利用已经建立完成的决策树模型对数据集进行分类。即对未知的数据集元组从根节点依次进行决策树的游历,通过一定的路径游历至某叶子节点,从而找到该数据元组所在的类或类的分布。

三、示例

银行客户信用卡额度预测和判断

客户

信用记录

收入

年龄

工作性质

额度

C1

正常

较低

偏大

稳定

C2

正常

较低

偏大

一般

C3

良好

较低

偏大

稳定

C4

欠佳

普通

偏大

稳定

C5

欠佳

较高

正常

稳定

C6

欠佳

较高

正常

一般

C7

良好

较高

正常

一般

C8

正常

普通

偏大

稳定

C9

正常

较高

正常

稳定

C10

欠佳

普通

正常

稳定

C11

正常

普通

正常

一般

C12

良好

普通

偏大

一般

C13

良好

较低

正常

稳定

C14

欠佳

普通

偏大

一般

目标分类:信用卡额度:高=9,低=5

用来建立ID3决策树的客户情况的四个属性:

信用记录={良好、正常、欠佳}

收入={较低、普通、较高}

年龄={偏大、正常}

工作性质={稳定=8、一般=6}

ID3决策树的生成步骤

选择决策树的根节点,选着标准:根据属性的信息增益

节点属性划分

对划分的子集按照上述过程进行反复迭代来获得树的所有内部节点

最后根据节点、内部节点以及叶节点间的关系构建决策树

(1)计算分类属性'"额度"的熵

"额度"共有14条记录,其中高额度9条,低额度5条。

2f4e59fe8899c17591c46bd9cf980757.png

8ab41c049b99979b85c9c4e60dfa12a6.png是类

b0f4c895d28f573144ebac5a13a4d7d2.png

48b83f9d319dc29357175ebc653c8b4e.png中的比例或概率。

959d8fda5206b1119002ca1b200bf646.png

(2)计算各条件属性的熵

首先计算出不同属性值的熵:

4b4764808953b6b2842aa876d230b515.png

接着再计算整个属性的熵:

b1dcb19343450ae933970e4faa7d1879.png

其中,

11e2b597b5f828a9853db72de977a097.png

ee82e3fbe4269649d44a21a582697897.png中属性

962d1cd2aa13e5dc8724de4b2d76f3e4.png的值为

6150407be86f06083c28a4201776e537.png的子集,

234eac2041af01185567ab281652a4f6.png是类

4c33e7fecda6a4ea5bb66adb74e4e1f6.png

15008f1511ed705a271cd711d26c8d5d.png中的比例或概率。

a."工作性质"的熵

稳定(wd):8=6高+2低

一般(yb):6=3高+3低

81b698870dd421b5628eac03dc1c37cf.png

c13b515511d0fb580e79c800bdd65c94.png

由"稳定"和一般"一般"的熵可求得属性"工作性质"的熵为:

f6d6ef3873be2b4672d6809d03f405fe.png

b. 信用记录的熵

正常:5 =2高+3低

良好:4=4高+0低

欠佳:5=3高+2低

db6f6f4a728fbffd85ab3f58117cc406.png

934c6dd64407c0ea1f3f5390ca395119.png

b0806b7f08e20b99f56e9c4d12033a00.png

可得属性"信用记录"的熵为

7cea090f421fa243bd846679d1375e61.png

c."收入"的熵

较高:4=3高+1低

7c99dd277598548b95bc04423c0789a1.png

普通:6=4高+2低

654440e11934cb3094ad46cac2f9f0a1.png

较低:4=2高+2低

587da7f5086128b14b8b100212b4943c.png

可得属性收入的熵为

8a7187d464e21c5d6d3a64d007e81b8e.png

d."年龄"的熵

正常:7=6高+1低

偏大:7=3高+4低

3d0e64dcfdfc972f47191490b6fca2ae.png

0503dcf382b30fc3f35ed9a7a5ab0c98.png

可得属性为"年龄"的熵:

0c9148899622517686b2aca1d4a94f43.png

(3)计算各条件属性的增益

9470c60b7da5d27a86e36ac7cb32001a.png,计算各个条件属性的增益

ead96aee6838b000f1a0451e95362c10.png

a2d5ffe221806d1de7c5a695ed997529.png

5cd30bff0faf1c6534cda2169494532f.png

df751e0bc7750e0755d0244a9f62eb81.png

"信用记录"有着最大的增益,所以选择"信用记录"属性作为ID3决策树的根节点。

(4)计算和选择各分支节点

完成了根节点的选择后接下来选择各分支节点。因为"信用记录"有三种类型,所以根节点就有三个分支"良好","正常"和"欠佳",由于其中"良好"的熵为0就不考虑它了,只处理"正常"和"欠佳"

a."正常"分支节点的选择

"信用记录"为正常的有5条,

8d865557a8df109c98d37499a3e18f83.png。通过之前的计算已经得到了"信用记录"为正常的熵:

0ed176cc83e346cfe8b5daa132b2ed51.png,接着计算"信用记录"为正常的条件下各属性的熵

客户

信用记录

收入

年龄

工作性质

额度

C1

正常

较低

偏大

稳定

C2

正常

较低

偏大

一般

C8

正常

普通

偏大

稳定

C9

正常

较高

正常

稳定

C11

正常

普通

正常

一般

(a)"收入"的熵

收入有三个属性值"较高"、"普通"和"较低",它们的熵分别为:

正常+较高:1=1高

c9b06f00bfc99a0fe08d476e9bffea53.png

正常+普通:2 =1高+1低

3d423a33824cfc6020f9469137bff360.png

正常+较低:2=2低

d99f315c59914e4f101167f523e0c2b4.png

可得属性"收入"的熵:

04ec4ff056c8cb91fbe57ab2ec1853ee.png

(b)"年龄"的熵

"年龄"={正常,偏大}

正常+正常:2=2高

f0ee6770e73955815361238fd308ea4b.png

正常+偏大:3=3低

536c129ed099243e75b6bcba27de2011.png

可得属性"年龄"的熵

c147be04318df082e391daab464067bc.png

(c)"工作性质"的熵

"工作性质"={"一般","稳定"}

正常+一般:2=1高+1低

45ff5b34573700acd81d8e6db5543f5f.png

正常+稳定:3=1高+2低

3870ab4deace1fa6d30f9ea4b510d503.png

可得"工作性质"的熵

4bbb3450793d1d7d35f854d923c38c8a.png

(d)计算

31218de8e7a80235cd4f41ecaddcb93b.png的各属性增益

根据上面计算所得的熵值可以得到"信用记录"为"正常"的记录中其余三个属性的增益分别为:

fe1fe4c6a15437ac3fd156f0800a86b0.png

7c8606e7e03ed697752c5e2261fd19f5.png

b63dc6dbd0bbf31289c8d40bcf23e3c5.png

"年龄"在

e1bf5e2e4c82a478ff0558799b6bf238.png的三个属性中有着最大的增益,所以将"年龄"作为

9e0438fafa5325f660c2f8d40aff638f.png的分类点,又由于

72977190018fbf59667108d53b051b9f.png,所以这一分支结束。

b."欠佳"分支节点的选择

"信用记录"为"欠佳"的有

客户

信用记录

收入

年龄

工作性质

额度

C4

欠佳

普通

偏大

稳定

C5

欠佳

较高

正常

稳定

C6

欠佳

较高

正常

一般

C10

欠佳

普通

正常

稳定

C14

欠佳

普通

偏大

一般

b2db6db6fe0b6ed2f0546393123cd4a9.png

收入的熵

欠佳+较高:2=1高+1低

192b8ae375b9f7a1321ddc3ba476d0be.png

欠佳+普通:3=2高+1低

88ad0f655990fda830b5baa76220bd49.png

欠佳+较低:0

25aa14dd9a60e52796c5c97659c4e13a.png

可得属性"收入"的熵为:

c6db9a0337fed08755e433b6a7820d2c.png

(b)"年龄"的熵

欠佳+正常 :3=2高+1低

30c6f41abb4f9028981d7db88f5da5aa.png

欠佳+偏大:2=1高+1低

cc8621203ba8241d30980e793d71c289.png

(c)"工作性质"的熵

欠佳+稳定: 3=3高

46ce3306e41c1b39970bcb6e0ced1a64.png

欠佳+一般:2=2低

0f787a50a18da2ffbbf9365e051da55b.png

(d)计算

2347e1f37386a6a88fad0ac8d17bef70.png的各属性增益

4baac56a3e4b92b053fb2d71c06b6ec0.png

e1f57d8f63e2d3462b8f120e5bdf3297.png

5c7e4cd92be98b540a0f6bde660f18fb.png

可以看到"工作性质"在

9828f056dce6abef26e494a2cea6d1e6.png三个属性中有着最大的增益,所以将"工作性质"作为

2ad880175cb3a52767e44107466d37cb.png的分类节点

(5)生成叶节点

因为

0938effaf8657e43479af10744fb756b.png的"年龄"属性中"高"和"正常"的熵都为0,所以这一支的非叶节点划分结束,并以"低"和"高"作为"高"和"正常"分支的叶节点。

ae3e7ae636c25862160419da394c26da.png的"工作性质"中"一般"和"稳定"的熵为0,所以这一支的非叶节点也结束划分,并以"低"和高作为"一般"和"稳定"的分支的节点

c9dda4915975043ae0772bedc0c3c8e5.png

可得如下描述:

a, 如果"信用记录"为"正常"并且"年龄"偏大,那么授予的额度低

b, 如果"信用记录"为"正常"并且"年龄"正常,那么授予的额度高

c, 如果"信用记录"为"良好",那么授予额度高

d, 如果"信用记录"为"欠佳"并且"工作性质"一般,那么授予的额度低

e, 如果"信用记录"为"欠佳"并且"工作性质"稳定,那么授予的额度高

四、参考与致谢

1.李航《统计学习方法》

2.张睿《ID3决策树算法分析与改进》

这篇关于matlab 决策树分类调参,ID3决策树算法 - osc_dwi1do0o的个人空间 - OSCHINA - 中文开源技术交流社区...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/415193

相关文章

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时

一文教你解决Python不支持中文路径的问题

《一文教你解决Python不支持中文路径的问题》Python是一种广泛使用的高级编程语言,然而在处理包含中文字符的文件路径时,Python有时会表现出一些不友好的行为,下面小编就来为大家介绍一下具体的... 目录问题背景解决方案1. 设置正确的文件编码2. 使用pathlib模块3. 转换路径为Unicod

如何通过Golang的container/list实现LRU缓存算法

《如何通过Golang的container/list实现LRU缓存算法》文章介绍了Go语言中container/list包实现的双向链表,并探讨了如何使用链表实现LRU缓存,LRU缓存通过维护一个双向... 目录力扣:146. LRU 缓存主要结构 List 和 Element常用方法1. 初始化链表2.

无需邀请码!Manus复刻开源版OpenManus下载安装与体验

《无需邀请码!Manus复刻开源版OpenManus下载安装与体验》Manus的完美复刻开源版OpenManus安装与体验,无需邀请码,手把手教你如何在本地安装与配置Manus的开源版OpenManu... Manus是什么?Manus 是 Monica 团队推出的全球首款通用型 AI Agent。Man

golang字符串匹配算法解读

《golang字符串匹配算法解读》文章介绍了字符串匹配算法的原理,特别是Knuth-Morris-Pratt(KMP)算法,该算法通过构建模式串的前缀表来减少匹配时的不必要的字符比较,从而提高效率,在... 目录简介KMP实现代码总结简介字符串匹配算法主要用于在一个较长的文本串中查找一个较短的字符串(称为

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图