matlab 决策树分类调参,ID3决策树算法 - osc_dwi1do0o的个人空间 - OSCHINA - 中文开源技术交流社区...

本文主要是介绍matlab 决策树分类调参,ID3决策树算法 - osc_dwi1do0o的个人空间 - OSCHINA - 中文开源技术交流社区...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一,简介

ID3(Iterative Dichotmizer 3)

1.什么是决策树学习

决策树学习是以训练或样本数据集为基础的归纳学习算法,是用于分类和预测的重要技术。

2.ID3核心思想

核心思想是利用信息熵原理选择信息增益最大的属性作为分类属性,递归地拓展决策树的分枝,完成决策树的构造

3.决策树学习本质是什么

决策树学习本质上是从训练数据集中归纳出一组分类规则

二,基础概念

a.信息熵

熵(entropy)表示随机变量不确定性的度量,也就是熵越大,变量的不确定性就越大。设

25e9032d01337cb7d68c8f35118185a8.png是一个有限值的离散随机变量,其概率分布为:

7a5bb11c8c182fb6d6ff3744aaedba06.png

ca8f8b6cbf875fdeaafb920ad017956b.png

则随机变量

1e985b35fc368f6cee47f0dd4d32cf4b.png的熵定义为

eaac0a0f1e3b15253f5f79deca70afe1.png

(若

1d2120b0b87211b60f5898045c825c3a.png,定义

6ff1b3c115785ecd7b96d36fa1e90640.png)

b.条件熵

条件熵

fb1486dd34070d9898486bea35913fa4.png表示在已知随机变量

2141ebb7e4fecbe882856ef6d96e8df7.png条件下随机变量

f16070db028d20203b19d6318969682b.png的不确定性。随机变量

ae4386ebdc01f2ec037966d2d90cf8a6.png给定的条件下随机变量

f959e66e9f527b9e96a850b00810eae8.png的条件熵为

f93c48a20d365453304d87bc2fc56a94.png

abb57228d7c0967d8c344ef7b8e14857.png

c.信息增益

特征

8ef1e75acf861266112108fde7839ac2.png对训练数据集

5749700a6008a470eade93d9a95134c0.png的信息增益

7b1532802dce68ea5bb1fbf62c5c9178.png,定义为集合

00e8ebb460a12b5b4dac37acd4e5a7d9.png的经验熵

dea4037432550b4cc9dd818888807467.png与特征A给定条件下

6b4b00ad713ed49799664b19e4bc4be8.png的经验条件熵

b18102bbb3810355aa9cb5ae0721456b.png之差,即

94db008cea6b3c1877381923bd914e4e.png

信息增益大的特征具有更强的分类能力

d.总结

给定训练数据集

91c1331e22aab22864cfc5c48df817a5.png和特征

c2c99433ab2e0cbe1649858abaaf989f.png

经验熵

6aec528649a77bf99cc7c5bb09a6a7fb.png表示对数据集

1abcf24ca149c9e2f841d87e211b4fc7.png进行分类的不确定性

经验条件熵

a77ed824de00b2f325502b59cb670b15.png表示在特征

c58d1090ec4217b753812848d7057a1a.png给定的条件下对数据集

0ff70a979e137d94eaf56ccbc7400221.png进行分类的不确定性

904dd41729d05f22a4f7f847e365186a.png表示由于特征

dce9aa908141d080c0fbdf3229c41c1f.png而使得对数据

61d882ebf9383d66c46ce6371caebd5c.png的分类的不确定性减少的程度。

e.决策树进行分类的步骤

利用样本数据集构造一颗决策树,并通过构造的决策树建立相应的分类模型。这个过程实际上是从一个数据中获取知识,进行规制提炼的过程。

利用已经建立完成的决策树模型对数据集进行分类。即对未知的数据集元组从根节点依次进行决策树的游历,通过一定的路径游历至某叶子节点,从而找到该数据元组所在的类或类的分布。

三、示例

银行客户信用卡额度预测和判断

客户

信用记录

收入

年龄

工作性质

额度

C1

正常

较低

偏大

稳定

C2

正常

较低

偏大

一般

C3

良好

较低

偏大

稳定

C4

欠佳

普通

偏大

稳定

C5

欠佳

较高

正常

稳定

C6

欠佳

较高

正常

一般

C7

良好

较高

正常

一般

C8

正常

普通

偏大

稳定

C9

正常

较高

正常

稳定

C10

欠佳

普通

正常

稳定

C11

正常

普通

正常

一般

C12

良好

普通

偏大

一般

C13

良好

较低

正常

稳定

C14

欠佳

普通

偏大

一般

目标分类:信用卡额度:高=9,低=5

用来建立ID3决策树的客户情况的四个属性:

信用记录={良好、正常、欠佳}

收入={较低、普通、较高}

年龄={偏大、正常}

工作性质={稳定=8、一般=6}

ID3决策树的生成步骤

选择决策树的根节点,选着标准:根据属性的信息增益

节点属性划分

对划分的子集按照上述过程进行反复迭代来获得树的所有内部节点

最后根据节点、内部节点以及叶节点间的关系构建决策树

(1)计算分类属性'"额度"的熵

"额度"共有14条记录,其中高额度9条,低额度5条。

2f4e59fe8899c17591c46bd9cf980757.png

8ab41c049b99979b85c9c4e60dfa12a6.png是类

b0f4c895d28f573144ebac5a13a4d7d2.png

48b83f9d319dc29357175ebc653c8b4e.png中的比例或概率。

959d8fda5206b1119002ca1b200bf646.png

(2)计算各条件属性的熵

首先计算出不同属性值的熵:

4b4764808953b6b2842aa876d230b515.png

接着再计算整个属性的熵:

b1dcb19343450ae933970e4faa7d1879.png

其中,

11e2b597b5f828a9853db72de977a097.png

ee82e3fbe4269649d44a21a582697897.png中属性

962d1cd2aa13e5dc8724de4b2d76f3e4.png的值为

6150407be86f06083c28a4201776e537.png的子集,

234eac2041af01185567ab281652a4f6.png是类

4c33e7fecda6a4ea5bb66adb74e4e1f6.png

15008f1511ed705a271cd711d26c8d5d.png中的比例或概率。

a."工作性质"的熵

稳定(wd):8=6高+2低

一般(yb):6=3高+3低

81b698870dd421b5628eac03dc1c37cf.png

c13b515511d0fb580e79c800bdd65c94.png

由"稳定"和一般"一般"的熵可求得属性"工作性质"的熵为:

f6d6ef3873be2b4672d6809d03f405fe.png

b. 信用记录的熵

正常:5 =2高+3低

良好:4=4高+0低

欠佳:5=3高+2低

db6f6f4a728fbffd85ab3f58117cc406.png

934c6dd64407c0ea1f3f5390ca395119.png

b0806b7f08e20b99f56e9c4d12033a00.png

可得属性"信用记录"的熵为

7cea090f421fa243bd846679d1375e61.png

c."收入"的熵

较高:4=3高+1低

7c99dd277598548b95bc04423c0789a1.png

普通:6=4高+2低

654440e11934cb3094ad46cac2f9f0a1.png

较低:4=2高+2低

587da7f5086128b14b8b100212b4943c.png

可得属性收入的熵为

8a7187d464e21c5d6d3a64d007e81b8e.png

d."年龄"的熵

正常:7=6高+1低

偏大:7=3高+4低

3d0e64dcfdfc972f47191490b6fca2ae.png

0503dcf382b30fc3f35ed9a7a5ab0c98.png

可得属性为"年龄"的熵:

0c9148899622517686b2aca1d4a94f43.png

(3)计算各条件属性的增益

9470c60b7da5d27a86e36ac7cb32001a.png,计算各个条件属性的增益

ead96aee6838b000f1a0451e95362c10.png

a2d5ffe221806d1de7c5a695ed997529.png

5cd30bff0faf1c6534cda2169494532f.png

df751e0bc7750e0755d0244a9f62eb81.png

"信用记录"有着最大的增益,所以选择"信用记录"属性作为ID3决策树的根节点。

(4)计算和选择各分支节点

完成了根节点的选择后接下来选择各分支节点。因为"信用记录"有三种类型,所以根节点就有三个分支"良好","正常"和"欠佳",由于其中"良好"的熵为0就不考虑它了,只处理"正常"和"欠佳"

a."正常"分支节点的选择

"信用记录"为正常的有5条,

8d865557a8df109c98d37499a3e18f83.png。通过之前的计算已经得到了"信用记录"为正常的熵:

0ed176cc83e346cfe8b5daa132b2ed51.png,接着计算"信用记录"为正常的条件下各属性的熵

客户

信用记录

收入

年龄

工作性质

额度

C1

正常

较低

偏大

稳定

C2

正常

较低

偏大

一般

C8

正常

普通

偏大

稳定

C9

正常

较高

正常

稳定

C11

正常

普通

正常

一般

(a)"收入"的熵

收入有三个属性值"较高"、"普通"和"较低",它们的熵分别为:

正常+较高:1=1高

c9b06f00bfc99a0fe08d476e9bffea53.png

正常+普通:2 =1高+1低

3d423a33824cfc6020f9469137bff360.png

正常+较低:2=2低

d99f315c59914e4f101167f523e0c2b4.png

可得属性"收入"的熵:

04ec4ff056c8cb91fbe57ab2ec1853ee.png

(b)"年龄"的熵

"年龄"={正常,偏大}

正常+正常:2=2高

f0ee6770e73955815361238fd308ea4b.png

正常+偏大:3=3低

536c129ed099243e75b6bcba27de2011.png

可得属性"年龄"的熵

c147be04318df082e391daab464067bc.png

(c)"工作性质"的熵

"工作性质"={"一般","稳定"}

正常+一般:2=1高+1低

45ff5b34573700acd81d8e6db5543f5f.png

正常+稳定:3=1高+2低

3870ab4deace1fa6d30f9ea4b510d503.png

可得"工作性质"的熵

4bbb3450793d1d7d35f854d923c38c8a.png

(d)计算

31218de8e7a80235cd4f41ecaddcb93b.png的各属性增益

根据上面计算所得的熵值可以得到"信用记录"为"正常"的记录中其余三个属性的增益分别为:

fe1fe4c6a15437ac3fd156f0800a86b0.png

7c8606e7e03ed697752c5e2261fd19f5.png

b63dc6dbd0bbf31289c8d40bcf23e3c5.png

"年龄"在

e1bf5e2e4c82a478ff0558799b6bf238.png的三个属性中有着最大的增益,所以将"年龄"作为

9e0438fafa5325f660c2f8d40aff638f.png的分类点,又由于

72977190018fbf59667108d53b051b9f.png,所以这一分支结束。

b."欠佳"分支节点的选择

"信用记录"为"欠佳"的有

客户

信用记录

收入

年龄

工作性质

额度

C4

欠佳

普通

偏大

稳定

C5

欠佳

较高

正常

稳定

C6

欠佳

较高

正常

一般

C10

欠佳

普通

正常

稳定

C14

欠佳

普通

偏大

一般

b2db6db6fe0b6ed2f0546393123cd4a9.png

收入的熵

欠佳+较高:2=1高+1低

192b8ae375b9f7a1321ddc3ba476d0be.png

欠佳+普通:3=2高+1低

88ad0f655990fda830b5baa76220bd49.png

欠佳+较低:0

25aa14dd9a60e52796c5c97659c4e13a.png

可得属性"收入"的熵为:

c6db9a0337fed08755e433b6a7820d2c.png

(b)"年龄"的熵

欠佳+正常 :3=2高+1低

30c6f41abb4f9028981d7db88f5da5aa.png

欠佳+偏大:2=1高+1低

cc8621203ba8241d30980e793d71c289.png

(c)"工作性质"的熵

欠佳+稳定: 3=3高

46ce3306e41c1b39970bcb6e0ced1a64.png

欠佳+一般:2=2低

0f787a50a18da2ffbbf9365e051da55b.png

(d)计算

2347e1f37386a6a88fad0ac8d17bef70.png的各属性增益

4baac56a3e4b92b053fb2d71c06b6ec0.png

e1f57d8f63e2d3462b8f120e5bdf3297.png

5c7e4cd92be98b540a0f6bde660f18fb.png

可以看到"工作性质"在

9828f056dce6abef26e494a2cea6d1e6.png三个属性中有着最大的增益,所以将"工作性质"作为

2ad880175cb3a52767e44107466d37cb.png的分类节点

(5)生成叶节点

因为

0938effaf8657e43479af10744fb756b.png的"年龄"属性中"高"和"正常"的熵都为0,所以这一支的非叶节点划分结束,并以"低"和"高"作为"高"和"正常"分支的叶节点。

ae3e7ae636c25862160419da394c26da.png的"工作性质"中"一般"和"稳定"的熵为0,所以这一支的非叶节点也结束划分,并以"低"和高作为"一般"和"稳定"的分支的节点

c9dda4915975043ae0772bedc0c3c8e5.png

可得如下描述:

a, 如果"信用记录"为"正常"并且"年龄"偏大,那么授予的额度低

b, 如果"信用记录"为"正常"并且"年龄"正常,那么授予的额度高

c, 如果"信用记录"为"良好",那么授予额度高

d, 如果"信用记录"为"欠佳"并且"工作性质"一般,那么授予的额度低

e, 如果"信用记录"为"欠佳"并且"工作性质"稳定,那么授予的额度高

四、参考与致谢

1.李航《统计学习方法》

2.张睿《ID3决策树算法分析与改进》

这篇关于matlab 决策树分类调参,ID3决策树算法 - osc_dwi1do0o的个人空间 - OSCHINA - 中文开源技术交流社区...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/415193

相关文章

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业