分类——决策树ID3与C4.5以及Python实现

2024-01-10 00:58

本文主要是介绍分类——决策树ID3与C4.5以及Python实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

决策树算法是一个分类算法,ID3以及C4.5决策树是多叉树。

核心思想:根据特征及对应特征值组成元组为切分点切分样本空间。

基本概念:

熵(entropy):该词最初来自于热力学,用来表示系统的混乱程度。香农借用该词表示一个随机过程的不确定性程度,即香农熵。式中Pi指随机变量取某个值的概率。

条件熵(conditional entropy):给定一个划分数据的条件X=x,那么随机变量Y的随机程度将下降。正如一个热力学系统,在外力做功的情况下,系统熵下降。下降后的熵就是基于条件X=x的条件熵。

实际计算,就是根据特征Y的取值将数据集划分成若干子数据集,分别计算子数据集的熵,然后以子数据集占比为权重求平均值。

信息增益(information gain):加入限制条件后,信息的随机性减少程度。即划分前的熵与条件熵的差。特征X对数据集D的信息增益为:

       由公式可知,计算条件熵时,特征X若取值较多,那么数据划分更细,则条件熵偏向于减小,极端情况下,每个样本都是独一无二的,那么条件熵为0。信息增益就偏向于取值多的特征,进行更多的划分,故引入信息增益比。

信息增益比(informationgain ratio):

其中,n就是特征X不同取值的个数,也即子数据集的个数。分母是数据集自身划分引起的熵变。显然,划分越多,熵越大。

 优点:

1. 容易解释,可视化。模型是“白箱”

2. 无需过多数据准备

3. 预测过程时间复杂度为log(n)

4. 能够处理连续以及离散值

5. 能够很好处理多分类问题

缺点:

1. 容易过拟合。可通过剪枝等方法减轻

2. 稳定性差。可通过集成学习改进

3. 学习过程是一个NP完全问题

4. 模型不能表示XOR等概念

5. 对类不平衡样本集敏感

算法流程:

Input: 阈值epsilon, 训练数据集X, y

Output: 决策树

  • Step1:初始化,构建特征集及空树。
  • Step2:递归构建决策树。

                  参数:特征集,子训练数据集X_data, y_data

                  递归终止条件:

                   1.集只有一个类,返回该类

                   2.特征集为空,返回最频繁的类

                   3.切分数据集前后,信息增益(比)小于epsilon

                  树的构建流程:

                  1. 计算每个特征的信息增益(比),以及切分的子数据集的索引。

                  2. 选取信息增益(比)最大的特征为最优特征,构建当前节点。

                  3. 从特征集中去除当前最优特征,并对相应的子数据集分别进行步骤1、2构建子树。

  • Step3: 运用构建好的决策树进行预测。递归搜索树,碰到叶节点则返回类标记。
"""
ID3&C4.5决策树算法
"""
import math
from collections import Counter, defaultdictimport numpy as npclass node:# 这里构建树的节点类,也可用字典来表示树结构def __init__(self, fea=-1, res=None, child=None):self.fea = feaself.res = resself.child = child  # 特征的每个值对应一颗子树,特征值为键,相应子树为值class DecisionTree:def __init__(self, epsilon=1e-3, metric='C4.5'):self.epsilon = epsilonself.tree = Noneself.metric = metricdef exp_ent(self, y_data):# 计算经验熵c = Counter(y_data)  # 统计各个类标记的个数ent = 0N = len(y_data)for val in c.values():p = val / Nent += -p * math.log2(p)return entdef con_ent(self, fea, X_data, y_data):# 计算条件熵并返回,同时返回切分后的各个子数据集fea_val_unique = Counter(X_data[:, fea])subdata_inds = defaultdict(list)  # 根据特征fea下的值切分数据集for ind, sample in enumerate(X_data):subdata_inds[sample[fea]].append(ind)  # 挑选某个值对应的所有样本点的索引ent = 0N = len(y_data)for key, val in fea_val_unique.items():pi = val / Nent += pi * self.exp_ent(y_data[subdata_inds[key]])return ent, subdata_indsdef infoGain(self, fea, X_data, y_data):# 计算信息增益exp_ent = self.exp_ent(y_data)con_ent, subdata_inds = self.con_ent(fea, X_data, y_data)return exp_ent - con_ent, subdata_indsdef infoGainRatio(self, fea, X_data, y_data):# 计算信息增益比g, subdata_inds = self.infoGain(fea, X_data, y_data)N = len(y_data)split_info = 0for val in subdata_inds.values():p = len(val) / Nsplit_info -= p * math.log2(p)return g / split_info, subdata_indsdef bestfea(self, fea_list, X_data, y_data):# 获取最优切分特征、相应的信息增益(比)以及切分后的子数据集score_func = self.infoGainRatioif self.metric == 'ID3':score_func = self.infoGainbestfea = fea_list[0]  # 初始化最优特征gmax, bestsubdata_inds = score_func(bestfea, X_data, y_data)  # 初始化最大信息增益及切分后的子数据集for fea in fea_list[1:]:g, subdata_inds = score_func(fea, X_data, y_data)if g > gmax:bestfea = feabestsubdata_inds = subdata_indsgmax = greturn gmax, bestfea, bestsubdata_indsdef buildTree(self, fea_list, X_data, y_data):# 递归构建树label_unique = np.unique(y_data)if label_unique.shape[0] == 1:  # 数据集只有一个类,直接返回该类return node(res=label_unique[0])if not fea_list:return node(res=Counter(y_data).most_common(1)[0][0])gmax, bestfea, bestsubdata_inds = self.bestfea(fea_list, X_data, y_data)if gmax < self.epsilon:  # 信息增益比小于阈值,返回数据集中出现最多的类return node(res=Counter(y_data).most_common(1)[0][0])else:fea_list.remove(bestfea)child = {}for key, val in bestsubdata_inds.items():child[key] = self.buildTree(fea_list, X_data[val], y_data[val])return node(fea=bestfea, child=child)def fit(self, X_data, y_data):fea_list = list(range(X_data.shape[1]))self.tree = self.buildTree(fea_list, X_data, y_data)returndef predict(self, X):def helper(X, tree):if tree.res is not None:  # 表明到达叶节点return tree.reselse:try:sub_tree = tree.child[X[tree.fea]]return helper(X, sub_tree)  # 根据对应特征下的值返回相应的子树except:print('input data is out of scope')return helper(X, self.tree)if __name__ == '__main__':import timestart = time.clock()data = np.array([['青年', '青年', '青年', '青年', '青年', '中年', '中年','中年', '中年', '中年', '老年', '老年', '老年', '老年', '老年'],['否', '否', '是', '是', '否', '否', '否', '是', '否','否', '否', '否', '是', '是', '否'],['否', '否', '否', '是', '否', '否', '否', '是','是', '是', '是', '是', '否', '否', '否'],['一般', '好', '好', '一般', '一般', '一般', '好', '好','非常好', '非常好', '非常好', '好', '好', '非常好', '一般'],['否', '否', '是', '是', '否', '否', '否', '是', '是','是', '是', '是', '是', '是', '否']])data = data.TX_data = data[:, :-1]y_data = data[:, -1]from machine_learning_algorithm.cross_validation import validateg = validate(X_data, y_data, ratio=0.2)for item in g:X_data_train, y_data_train, X_data_test, y_data_test = itemclf = DecisionTree()clf.fit(X_data_train, y_data_train)score = 0for X, y in zip(X_data_test,y_data_test):if clf.predict(X) == y:score += 1print(score / len(y_data_test))print(time.clock() - start)

我的GitHub
注:如有不当之处,请指正。

这篇关于分类——决策树ID3与C4.5以及Python实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/589019

相关文章

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

Android实现任意版本设置默认的锁屏壁纸和桌面壁纸(两张壁纸可不一致)

客户有些需求需要设置默认壁纸和锁屏壁纸  在默认情况下 这两个壁纸是相同的  如果需要默认的锁屏壁纸和桌面壁纸不一样 需要额外修改 Android13实现 替换默认桌面壁纸: 将图片文件替换frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.*  (注意不能是bmp格式) 替换默认锁屏壁纸: 将图片资源放入vendo

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount