决策树(Decision Tree) | 算法实现

2024-02-10 15:08

本文主要是介绍决策树(Decision Tree) | 算法实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

01 起

决策树相关的理论知识,我们在这篇文章中有详细讲解。

今天我们基于决策树原理,写一个函数来训练决策树吧。本文基于ID3算法构建决策树,此算法构建决策树的中心思想是:

始终寻找信息增益最大的特征作为当前分支的最优特征

信息增益,即:g(D,A)=H(D)-H(D|A)


02 实现思路(ID3)

利用训练数据,训练决策树,主要思路如下,共8个步骤,重点在于递归

  1. 自定义信息熵计算函数,用于计算数据集的信息熵
  2. 自定义数据划分函数,用于根据指定特征的指定取值,划分数据集
  3. step2的自数据集作为输入给step1的函数,可以计算出按某指定特征的某指定取值(A=ai)划分的数据集的信息熵H(Di),同时计算按某指定特征的某指定取值(A=ai)划分的数据集的样本概率|Di|/|D|
  4. 遍历该特征各个取值,计算各取值下划分的数据集的信息熵H(Di)和样本概率|Di|/|D|,相乘,再求和得到得到特征A对数据集D的经验条件熵H(D|A)
  5. 计算特征A对数据集的信息增益g(D,A)=H(D)-H(D|A)
  6. 以此类推,计算各特征对数据集的信息增益,取信息增益最大的特征为最佳划分特征,得到树T1
  7. 对T1各结点继续step3-6,选择信息增益最大的特征,继续划分数据,得到新的决策树
  8. 直到信息增益小于阈值,或无特征可划分,或每个分支下的所有实例都具有相同的分类,决策树完成

下面我们基于这8个步骤的思路,给出python代码。


03 实现

step1 自定义信息熵计算函数,用于计算数据集的信息熵

"""
输入:数据集,每一行是一条数据,最后一列是各条数据集的类别
输出:该数据集的信息熵
思路:
建立一个字典,对数据集各数据的类别计数,
从而计算各类别出现频率(作为概率pi),
最后调用信息熵公式计算 H(D)=-求和(pi*logpi)
"""
def calEntropy(dataset):n=len(dataset)labelCounts={}#对数据集各数据的类别计数for data in dataset:datalabel=data[-1] #取data最后一列,类别列if datalabel not in labelCounts.keys():labelCounts[datalabel]=0labelCounts[datalabel]+=1entropy=0.0#计算各类别出现频率(作为概率pi),调用信息熵公式计算 H(D)=-求和(pi*logpi)for key in labelCounts.keys():prob=float(labelCounts[key])/nentropy -= prob*log(prob,2)return entropy

step2 自定义数据划分函数,用于根据指定特征的指定取值,划分数据集

"""
输入:数据集、特征所在列索引、特征取值
输出:满足指定特征等于指定取值的数据子集
"""
def splitDataset(dataset,index,value):subDataset=[]for data in dataset:if data[index]==value:#抽取除了data[index]的内容(一个特征用于计算其对数据集的经验条件熵时,不需要此特征在子数据集中)splitData=data[:index] #取索引之前的元素splitData.extend(data[index+1:]) #再合并索引之后的元素subDataset.append(splitData)return subDataset

step3~6 选择信息增益最大的特征作为数据集划分特征

"""
输入:数据集
输出:该数据集的最佳划分特征
"""
def chooseFeature(dataset):#初始化numFeature=len(dataset[0])-1 #因为最后一列是类别baseEntropy=calEntropy(dataset) #H(D)bestInfoGain=0.0bestFeatureIndex=-1#创建特征A各取值a的列表for i in range(numFeature):featureList=[data[i] for data in dataset]uniqueValue=set(featureList)empEntropy=0.0 #初始化特征A对数据集D的经验条件熵H(D|A)#计算特征A各取值a的信息熵H(Di)和样本概率|Di|/|D|,并相乘for value in uniqueValue:subDataset=splitDataset(dataset,i,value) #(列索引为i的特征)特征A取value值所划分的子数据集prob=len(subDataset)/float(len(dataset)) #计算|Di|/|D|empEntropy += prob*calEntropy(subDataset) #H(D|A)#取信息增益最大的特征为最佳划分特征infoGain=baseEntropy-empEntropy #信息增益if infoGain>bestInfoGain:bestInfoGain=infoGainbestFeatureIndex=ireturn bestFeatureIndex

step7~8 递归构建决策树

def majorClass(classList):classCount={}for vote in classList:if vote not in classCount.keys():classCount[vote]=0classCount[vote]+=1#对classCount按value降序排序sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)return sortedClassCount[0][0] #返回类别最大的类别名"""
输入:数据集(list类型),数据集特征列表(按在数据集的位置排序)(list类型)
输出:该数据集的决策树
思路:【递归】1. 若数据集属于同一类,则返回该类别,划分停止2. 若数据集所有特征已经遍历,返回当前计数最多的类别为该结点类别,划分停止3. 否则继续分支,调用chooseFeature()函数,选择当前数据集最优特征4. 遍历当前最优特征各属性值,划分数据集,并递归调用自身createTree()构建子数据集的决策树5. 完成
"""
def createTree(dataset,featureLabels):classList=[data[-1] for data in dataset] #取数据集各数据类别#若数据集属于同一类,则返回该类别,划分停止if classList.count(classList[0])==len(classList):return classList[0]#若数据集所有特征已经遍历,返回当前计数最多的类别为该结点类别,划分停止if len(dataset[0])==1:return majorClass(classList)#否则继续分支,调用chooseFeature()函数,选择当前数据集最优特征bestFeatureIndex=chooseFeature(dataset)bestFeature=featureLabels[bestFeatureIndex]#用于存储决策树,字典结构存储树的所有信息,并可体现包含关系desitionTree={bestFeature:{}} del(featureLabels[bestFeatureIndex]) #删除已被用于划分数据的特征#得到当前最优划分特征的各属性值featureValues=[data[bestFeatureIndex] for data in dataset]uniqueValues=set(featureValues)#遍历当前最优特征各属性值,划分数据集,并递归调用自身createTree()构建子数据集的决策树for value in uniqueValues:#得到已删除当前最优划分特征的特征列表,用于递归调用subFeatureLabels=featureLabels[:] #用当前最优划分特征的指定值分割子数据集,用于递归调用subData=splitDataset(dataset,bestFeatureIndex,value) desitionTree[bestFeature][value]=createTree(subData,subFeatureLabels)return desitionTree

至此,决策树训练函数完成,下面我们利用西瓜分类数据集来简单测试一下吧~


04 测试

西瓜分类数据集长这样,基于西瓜的各个特征,判断西瓜是好瓜还是坏瓜:

我们直接调用刚才写好的决策树训练函数,看看西瓜分类数据的决策树吧

watermalon=pd.read_csv(r"D:\python\data\watermalon.txt",sep="\t")
watermalon_list=np.array(watermalon).tolist() #构建数据集
features=watermalon.columns.tolist()[0:-1] #提取特征列表
my_tree=createTree(watermalon_list,features)

最后训练得到的决策树长这样,这是一个嵌套格式的字典,每个子字典代表了一个分支


05 总结

本文基于ID3算法,造了个轮子,给出决策树训练函数,输入列表类型的数据集和数据集的特征列表,可以数据该数据集的分类决策树,得到的决策树使用嵌套格式的字典存储。

但是,嵌套格式的字典并不直观,不能一目了然地观察决策树结构。

别担心,下期我们会就此决策树,给出函数来绘制决策树,帮助我们更加直观地理解训练出来的决策树结构。

同时,我们会在下期给出决策树的利用方法——如何利用训练好的决策树分类测试数据?

敬请期待~~


06 参考

  1. 《统计学习方法》 李航 Chapter5
  2. 《机器学习实战》 Peter Harrington Chapter3

这篇关于决策树(Decision Tree) | 算法实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/697423

相关文章

C++对象布局及多态实现探索之内存布局(整理的很多链接)

本文通过观察对象的内存布局,跟踪函数调用的汇编代码。分析了C++对象内存的布局情况,虚函数的执行方式,以及虚继承,等等 文章链接:http://dev.yesky.com/254/2191254.shtml      论C/C++函数间动态内存的传递 (2005-07-30)   当你涉及到C/C++的核心编程的时候,你会无止境地与内存管理打交道。 文章链接:http://dev.yesky

通过SSH隧道实现通过远程服务器上外网

搭建隧道 autossh -M 0 -f -D 1080 -C -N user1@remotehost##验证隧道是否生效,查看1080端口是否启动netstat -tuln | grep 1080## 测试ssh 隧道是否生效curl -x socks5h://127.0.0.1:1080 -I http://www.github.com 将autossh 设置为服务,隧道开机启动

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测 目录 时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测基本介绍程序设计参考资料 基本介绍 MATLAB实现LSTM时间序列未来多步预测-递归预测。LSTM是一种含有LSTM区块(blocks)或其他的一种类神经网络,文献或其他资料中LSTM区块可能被描述成智能网络单元,因为

vue项目集成CanvasEditor实现Word在线编辑器

CanvasEditor实现Word在线编辑器 官网文档:https://hufe.club/canvas-editor-docs/guide/schema.html 源码地址:https://github.com/Hufe921/canvas-editor 前提声明: 由于CanvasEditor目前不支持vue、react 等框架开箱即用版,所以需要我们去Git下载源码,拿到其中两个主

代码随想录算法训练营:12/60

非科班学习算法day12 | LeetCode150:逆波兰表达式 ,Leetcode239: 滑动窗口最大值  目录 介绍 一、基础概念补充: 1.c++字符串转为数字 1. std::stoi, std::stol, std::stoll, std::stoul, std::stoull(最常用) 2. std::stringstream 3. std::atoi, std

android一键分享功能部分实现

为什么叫做部分实现呢,其实是我只实现一部分的分享。如新浪微博,那还有没去实现的是微信分享。还有一部分奇怪的问题:我QQ分享跟QQ空间的分享功能,我都没配置key那些都是原本集成就有的key也可以实现分享,谁清楚的麻烦详解下。 实现分享功能我们可以去www.mob.com这个网站集成。免费的,而且还有短信验证功能。等这分享研究完后就研究下短信验证功能。 开始实现步骤(新浪分享,以下是本人自己实现

基于Springboot + vue 的抗疫物质管理系统的设计与实现

目录 📚 前言 📑摘要 📑系统流程 📚 系统架构设计 📚 数据库设计 📚 系统功能的具体实现    💬 系统登录注册 系统登录 登录界面   用户添加  💬 抗疫列表展示模块     区域信息管理 添加物资详情 抗疫物资列表展示 抗疫物资申请 抗疫物资审核 ✒️ 源码实现 💖 源码获取 😁 联系方式 📚 前言 📑博客主页:

人工智能机器学习算法总结神经网络算法(前向及反向传播)

1.定义,意义和优缺点 定义: 神经网络算法是一种模仿人类大脑神经元之间连接方式的机器学习算法。通过多层神经元的组合和激活函数的非线性转换,神经网络能够学习数据的特征和模式,实现对复杂数据的建模和预测。(我们可以借助人类的神经元模型来更好的帮助我们理解该算法的本质,不过这里需要说明的是,虽然名字是神经网络,并且结构等等也是借鉴了神经网络,但其原型以及算法本质上还和生物层面的神经网络运行原理存在

探索蓝牙协议的奥秘:用ESP32实现高质量蓝牙音频传输

蓝牙(Bluetooth)是一种短距离无线通信技术,广泛应用于各种电子设备之间的数据传输。自1994年由爱立信公司首次提出以来,蓝牙技术已经经历了多个版本的更新和改进。本文将详细介绍蓝牙协议,并通过一个具体的项目——使用ESP32实现蓝牙音频传输,来展示蓝牙协议的实际应用及其优点。 蓝牙协议概述 蓝牙协议栈 蓝牙协议栈是蓝牙技术的核心,定义了蓝牙设备之间如何进行通信。蓝牙协议

python实现最简单循环神经网络(RNNs)

Recurrent Neural Networks(RNNs) 的模型: 上图中红色部分是输入向量。文本、单词、数据都是输入,在网络里都以向量的形式进行表示。 绿色部分是隐藏向量。是加工处理过程。 蓝色部分是输出向量。 python代码表示如下: rnn = RNN()y = rnn.step(x) # x为输入向量,y为输出向量 RNNs神经网络由神经元组成, python