基于ID3算法生成决策树

2024-03-18 10:38
文章标签 算法 生成 决策树 id3

本文主要是介绍基于ID3算法生成决策树,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

决策树的类型有很多,有CART、ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定义主要针对ID3算法。

在构造决策树时,第一个问题就是:当前的那个特征在划分数据是起着决定性的作用。为了找到决策性的特征必须对每个特征进行评估。因此本文针对ID3算法使用的信息熵方法划分数据的特征来进行实验。

信息熵

如果待分类的的事物有多种,比如有A,B,C三类,则A的信息为:

X(a)=-lon2(p(a)),即log以2为底的a出现的概率。

而熵的定义为信息的期望值,即:

这里写图片描述

在划分数据前和划分数据后信息方式的变化称为信息增益。因此我们找出信息增益最大的一个特征用来划分数据集。ID3的原理即使Gain达到最大值。信息增益即为熵的减少或者是数据无序度的减少.

计算信息熵

计算的公式见上图,在计算是要统计每个类别出现的次数,然后用公式去计算即可。
如求下列数据的信息熵,dataset为数据集,最后一列为类别,前两列为特征。

dataSet=[[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']]
def calShannon(dataSet):    #这里的dataset为python列表形式m=len(dataSet)          #得到样本个数labelCount={}for featVec in dataSet:  #遍历每一个样本label=featVec[-1]    #这里最后一列为样本的类别if label not in labelCount.keys():labelCount[label]=0labelCount[label]+=1shan=0.0for key in labelCount:prob=float(labelCount[key])/mshan -=prob * math.log(prob,2)print ("the shannon is %f " % shan) return shan

将上述代码保存到tree.py中,然后运行,即可计算此数据的信息熵

>>> import tree
>>> dataSet=[[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']]
>>> tree.calShannon(dataSet)
the shannon is 0.970951 
0.9709505944546686

划分数据集

按给定的特征划分数据集:

#特别注意这里的nFeat,所选择的数据特征,value为这个特征里的值
def split(dataSet,nFeat,value):         #the num of feature ,and using value to split,datasetretData=[]for featVec in dataSet:   #遍历样本if featVec[nFeat]==value:  reducedVec=featVec[:nFeat]reducedVec.extend(featVec[nFeat+1:])  #this mean reduce the featureretData.append(reducedVec)return retData

运行结果如下:

#第0个特征,值为1,返回的是去掉第0个特征后剩余的样本
>>> tree.split(dataSet,0,1)  
[[1, 'yes'], [1, 'yes'], [0, 'no']]
>>> tree.split(dataSet,1,1)
[[1, 'yes'], [1, 'yes'], [0, 'no'], [0, 'no']]

这里需要重点理解一下:

我如果选择第0个特征进行划分,那么在第0个特征中有许多不同的值,那么,应该计算这些不同值划分过后的信息熵之和,为以第0个特征划分后的信息熵。

举个例子,如果要以第0个特征划分数据,在第0个数据上有2个不同的值分别为0,1那么应该将数据划分为两部分,调用两次tree.split(dataSet,0,1),
tree.split(dataSet,0,0),然后分别求出他们的信息熵,再求和,就是最后所得的信息熵了。

因此理解上述的过程后,即可实现如何才是最好的样本划分方式:
这里解释一下: featList = [example[i] for example in dataSet]

python中的列表推到式,其中dataSet为样本,example每次取出一个样本,然后将这个样本的exampe[i]即第i个元素加到featlist中。
即此句的作用是快速的取出样本中第i个特征的所有值。

def chooseBestFeature(dataSet):numFeatures = len(dataSet[0]) - 1      #the last column is used for the labelsbaseEntropy = calShannon(dataSet)  # the origin shannonbestInfoGain = 0.0; bestFeature = -1for i in range(numFeatures):        #iterate over all the featuresfeatList = [example[i] for example in dataSet]#create a list of all the examples of this featureuniqueVals=set(featList) # have how many value in this featurenewShannon=0.0for value in uniqueVals:subDataSet=split(dataSet,i,value)prob=len(subDataSet)/float(len(dataSet))newShannon +=prob*calShannon(subDataSet)infoGain=baseEntropy-newShannonif infoGain>bestInfoGain:bestInfoGain=newShannonbestFeature=ireturn bestFeature 

同样将上述代码加到tree.py中,运行得到:

>>> tree.chooseBestFeature(dataSet)
the shannon is 0.970951 
the shannon is 0.000000 
the shannon is 0.918296 
the shannon is 0.000000 
the shannon is 1.000000 
0      #即最好的特质是0,它使得信息增益最大

构建决策树

这里有几点需要说明:
1. 如果用完所有的特征仍然不能区分样本,则以投票算法返回
2. 如果为用完特征样本已经同属于一类,则直接返回
3. 递归处理

投票算法:

def majorityCnt(classList):classCount={}for vote in classList:if vote not in classCount.keys(): classCount[vote] = 0classCount[vote] += 1sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)return sortedClassCount[0][0]

这里sorted我更喜欢写成:
sorted(classCount.items(), key=lambda x:x[1], reverse=True)

构造决策树:

def createTree(dataSet,labels):classList = [example[-1] for example in dataSet]if classList.count(classList[0]) == len(classList): return classList[0]#stop splitting when all of the classes are equalif len(dataSet[0]) == 1: #stop splitting when there are no more features in dataSetreturn majorityCnt(classList)bestFeat = chooseBestFeature(dataSet)bestFeatLabel = labels[bestFeat]myTree = {bestFeatLabel:{}}del(labels[bestFeat])featValues = [example[bestFeat] for example in dataSet]uniqueVals = set(featValues)for value in uniqueVals:subLabels = labels[:]       #copy all of labels, so trees don't mess up existing labelsmyTree[bestFeatLabel][value] = createTree(split(dataSet, bestFeat, value),subLabels)return myTree     

运行结果:

>>> data,label=tree.createDataSet()
>>> data
[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
>>> label
['no surfacing', 'flippers']
>>> myTree=tree.createTree(data,label)
the shannon is 0.970951 
the shannon is 0.000000 
the shannon is 0.918296 
the shannon is 0.000000 
the shannon is 1.000000 
the shannon is 0.918296 
the shannon is 0.000000 
the shannon is 0.000000 
>>> myTree
{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

myTree是用嵌套的字典来模拟树形结构。

这篇关于基于ID3算法生成决策树的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/822079

相关文章

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

Python实现自动化Word文档样式复制与内容生成

《Python实现自动化Word文档样式复制与内容生成》在办公自动化领域,高效处理Word文档的样式和内容复制是一个常见需求,本文将展示如何利用Python的python-docx库实现... 目录一、为什么需要自动化 Word 文档处理二、核心功能实现:样式与表格的深度复制1. 表格复制(含样式与内容)2

python如何生成指定文件大小

《python如何生成指定文件大小》:本文主要介绍python如何生成指定文件大小的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录python生成指定文件大小方法一(速度最快)方法二(中等速度)方法三(生成可读文本文件–较慢)方法四(使用内存映射高效生成

Maven项目中集成数据库文档生成工具的操作步骤

《Maven项目中集成数据库文档生成工具的操作步骤》在Maven项目中,可以通过集成数据库文档生成工具来自动生成数据库文档,本文为大家整理了使用screw-maven-plugin(推荐)的完... 目录1. 添加插件配置到 pom.XML2. 配置数据库信息3. 执行生成命令4. 高级配置选项5. 注意事

MybatisX快速生成增删改查的方法示例

《MybatisX快速生成增删改查的方法示例》MybatisX是基于IDEA的MyBatis/MyBatis-Plus开发插件,本文主要介绍了MybatisX快速生成增删改查的方法示例,文中通过示例代... 目录1 安装2 基本功能2.1 XML跳转2.2 代码生成2.2.1 生成.xml中的sql语句头2

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

使用Python自动化生成PPT并结合LLM生成内容的代码解析

《使用Python自动化生成PPT并结合LLM生成内容的代码解析》PowerPoint是常用的文档工具,但手动设计和排版耗时耗力,本文将展示如何通过Python自动化提取PPT样式并生成新PPT,同时... 目录核心代码解析1. 提取 PPT 样式到 jsON关键步骤:代码片段:2. 应用 JSON 样式到

SpringBoot实现二维码生成的详细步骤与完整代码

《SpringBoot实现二维码生成的详细步骤与完整代码》如今,二维码的应用场景非常广泛,从支付到信息分享,二维码都扮演着重要角色,SpringBoot是一个非常流行的Java基于Spring框架的微... 目录一、环境搭建二、创建 Spring Boot 项目三、引入二维码生成依赖四、编写二维码生成代码五

Android与iOS设备MAC地址生成原理及Java实现详解

《Android与iOS设备MAC地址生成原理及Java实现详解》在无线网络通信中,MAC(MediaAccessControl)地址是设备的唯一网络标识符,本文主要介绍了Android与iOS设备M... 目录引言1. MAC地址基础1.1 MAC地址的组成1.2 MAC地址的分类2. android与I

Springboot实现推荐系统的协同过滤算法

《Springboot实现推荐系统的协同过滤算法》协同过滤算法是一种在推荐系统中广泛使用的算法,用于预测用户对物品(如商品、电影、音乐等)的偏好,从而实现个性化推荐,下面给大家介绍Springboot... 目录前言基本原理 算法分类 计算方法应用场景 代码实现 前言协同过滤算法(Collaborativ