编程实现基于信息熵/基尼指数划分选择的决策树算法

2024-08-23 19:44

本文主要是介绍编程实现基于信息熵/基尼指数划分选择的决策树算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

编程实现基于信息熵/基尼指数划分选择的决策树算法

手动建立一个csv文件

#csv的内容为
Idx,color,root,knocks,texture,navel,touch,density,sugar_ratio,label
1,dark_green,curl_up,little_heavily,distinct,sinking,hard_smooth,0.697,0.46,1
2,black,curl_up,heavily,distinct,sinking,hard_smooth,0.774,0.376,1
3,black,curl_up,little_heavily,distinct,sinking,hard_smooth,0.634,0.264,1
4,dark_green,curl_up,heavily,distinct,sinking,hard_smooth,0.608,0.318,1
5,light_white,curl_up,little_heavily,distinct,sinking,hard_smooth,0.556,0.215,1
6,dark_green,little_curl_up,little_heavily,distinct,little_sinking,soft_stick,0.403,0.237,1
7,black,little_curl_up,little_heavily,little_blur,little_sinking,soft_stick,0.481,0.149,1
8,black,little_curl_up,little_heavily,distinct,little_sinking,hard_smooth,0.437,0.211,1
9,black,little_curl_up,heavily,little_blur,little_sinking,hard_smooth,0.666,0.091,0
10,dark_green,stiff,clear,distinct,even,soft_stick,0.243,0.267,0
11,light_white,stiff,clear,blur,even,hard_smooth,0.245,0.057,0
12,light_white,curl_up,little_heavily,blur,even,soft_stick,0.343,0.099,0
13,dark_green,little_curl_up,little_heavily,little_blur,sinking,hard_smooth,0.639,0.161,0
14,light_white,little_curl_up,heavily,little_blur,sinking,hard_smooth,0.657,0.198,0
15,black,little_curl_up,little_heavily,distinct,little_sinking,soft_stick,0.36,0.37,0
16,light_white,curl_up,little_heavily,blur,even,hard_smooth,0.593,0.042,0
17,dark_green,curl_up,heavily,little_blur,little_sinking,hard_smooth,0.719,0.103,0

代码

import csv
from sklearn.feature_extraction import DictVectorizer
from sklearn import preprocessing
from sklearn import tree
from matplotlib import pyplot as plt
import graphviz
import os     
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"os.environ["PATH"] += os.pathsep + 'C:\Program Files\Graphviz\\bin'
def is_number(n):is_number = Truetry:num = float(n)is_number = num == numexcept ValueError:# 不是float类型则返回falseis_number = Falsereturn is_numberdef loadData(filename):data = open(filename,'r',encoding='utf-8')reader = csv.reader(data)headers = next(reader) # 通过调用next方法来一行一行的读取数据featureList =[] # 添加属性数据labelList = [] # 添加结果for row in reader:# 每行每行的来labelList.append(row[len(row)-1])rowDict = {}for i in range(1,len(row)-1):# 跳过序号和结果# 对于每个属性数据,if is_number(row[i]) == True:rowDict[headers[i]] = float(row[i])else:rowDict[headers[i]] = row[i]featureList.append(rowDict)return featureList,labelListdef createDTree_information(featureList,labelList):# 对离散值进行编码处理vec = DictVectorizer()dummyX = vec.fit_transform(featureList).toarray()lb = preprocessing.LabelBinarizer()dummyY = lb.fit_transform(labelList)clf = tree.DecisionTreeClassifier(criterion='entropy')clf = clf.fit(dummyX,dummyY)target_name=['0','1']dot_data = tree.export_graphviz(clf,feature_names=vec.get_feature_names_out(),class_names=target_name,out_file=None,filled=True,rounded=True)graph = graphviz.Source(dot_data)return graphdef createDTree_GiNi(featureList,labelList):# 对离散值进行编码处理vec = DictVectorizer()dummyX = vec.fit_transform(featureList).toarray()lb = preprocessing.LabelBinarizer()dummyY = lb.fit_transform(labelList)clf = tree.DecisionTreeClassifier(criterion='entropy')clf = clf.fit(dummyX,dummyY)target_name=['0','1']dot_data = tree.export_graphviz(clf,feature_names=vec.get_feature_names_out(),class_names=target_name,out_file=None,filled=True,rounded=True)graph = graphviz.Source(dot_data)return graph
featureList,labelList = loadData('watermelo.csv')
graph = createDTree_information(featureList,labelList)
graph_gini = createDTree_GiNi(featureList,labelList)
print('以基尼指数作为划分准则的决策树')
graph_gini 
print('以信息熵作为划分准则的决策树')
graph

注意,前面导包的时候path的值是Graphviz的bin文件夹路径,这个Graphviz要手动去官网离线下载,然后记住它的安装位置
输出:以基尼指数作为划分准则的决策树
基尼指数划分
以信息熵作为划分准则的决策树
信息熵

这篇关于编程实现基于信息熵/基尼指数划分选择的决策树算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1100331

相关文章

Nginx实现高并发的项目实践

《Nginx实现高并发的项目实践》本文主要介绍了Nginx实现高并发的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录使用最新稳定版本的Nginx合理配置工作进程(workers)配置工作进程连接数(worker_co

python中列表list切分的实现

《python中列表list切分的实现》列表是Python中最常用的数据结构之一,经常需要对列表进行切分操作,本文主要介绍了python中列表list切分的实现,文中通过示例代码介绍的非常详细,对大家... 目录一、列表切片的基本用法1.1 基本切片操作1.2 切片的负索引1.3 切片的省略二、列表切分的高

基于Python实现一个PDF特殊字体提取工具

《基于Python实现一个PDF特殊字体提取工具》在PDF文档处理场景中,我们常常需要针对特定格式的文本内容进行提取分析,本文介绍的PDF特殊字体提取器是一款基于Python开发的桌面应用程序感兴趣的... 目录一、应用背景与功能概述二、技术架构与核心组件2.1 技术选型2.2 系统架构三、核心功能实现解析

使用Python实现表格字段智能去重

《使用Python实现表格字段智能去重》在数据分析和处理过程中,数据清洗是一个至关重要的步骤,其中字段去重是一个常见且关键的任务,下面我们看看如何使用Python进行表格字段智能去重吧... 目录一、引言二、数据重复问题的常见场景与影响三、python在数据清洗中的优势四、基于Python的表格字段智能去重

Spring AI集成DeepSeek实现流式输出的操作方法

《SpringAI集成DeepSeek实现流式输出的操作方法》本文介绍了如何在SpringBoot中使用Sse(Server-SentEvents)技术实现流式输出,后端使用SpringMVC中的S... 目录一、后端代码二、前端代码三、运行项目小天有话说题外话参考资料前面一篇文章我们实现了《Spring

Nginx中location实现多条件匹配的方法详解

《Nginx中location实现多条件匹配的方法详解》在Nginx中,location指令用于匹配请求的URI,虽然location本身是基于单一匹配规则的,但可以通过多种方式实现多个条件的匹配逻辑... 目录1. 概述2. 实现多条件匹配的方式2.1 使用多个 location 块2.2 使用正则表达式

使用Apache POI在Java中实现Excel单元格的合并

《使用ApachePOI在Java中实现Excel单元格的合并》在日常工作中,Excel是一个不可或缺的工具,尤其是在处理大量数据时,本文将介绍如何使用ApachePOI库在Java中实现Excel... 目录工具类介绍工具类代码调用示例依赖配置总结在日常工作中,Excel 是一个不可或缺的工http://

SpringBoot实现导出复杂对象到Excel文件

《SpringBoot实现导出复杂对象到Excel文件》这篇文章主要为大家详细介绍了如何使用Hutool和EasyExcel两种方式来实现在SpringBoot项目中导出复杂对象到Excel文件,需要... 在Spring Boot项目中导出复杂对象到Excel文件,可以利用Hutool或EasyExcel

Python如何实现读取csv文件时忽略文件的编码格式

《Python如何实现读取csv文件时忽略文件的编码格式》我们再日常读取csv文件的时候经常会发现csv文件的格式有多种,所以这篇文章为大家介绍了Python如何实现读取csv文件时忽略文件的编码格式... 目录1、背景介绍2、库的安装3、核心代码4、完整代码1、背景介绍我们再日常读取csv文件的时候经常

Golang中map缩容的实现

《Golang中map缩容的实现》本文主要介绍了Go语言中map的扩缩容机制,包括grow和hashGrow方法的处理,具有一定的参考价值,感兴趣的可以了解一下... 目录基本分析带来的隐患为什么不支持缩容基本分析在 Go 底层源码 src/runtime/map.go 中,扩缩容的处理方法是 grow