机器学习:随机森林决策树学习算法及代码实现

2024-08-26 02:36

本文主要是介绍机器学习:随机森林决策树学习算法及代码实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、概念

        随机森林(Random Forest)是一种集成学习方法,它通过构建多个决策树来进行分类或回归预测。随机森林的核心原理是“集思广益”,即通过组合多个弱学习器(决策树)的预测结果来提高整体模型的准确性和健壮性。

2、集成学习(Ensemble Learning)

        集成学习是一种机器学习方法,它结合多个学习器的预测结果来提高整体模型的性能。随机森林是集成学习的一种实现方式。

3、决策树(Decision Tree)

         决策树是一种监督学习算法,它通过学习简单的决策规则来预测目标值。每个决策树都是一个二叉树,每个节点代表一个特征的测试,每个分支代表测试的结果,每个叶节点代表一个预测结果。

4、Bagging(自助采样聚合)

        随机森林使用Bagging方法来减少模型的方差。Bagging是一种通过从原始数据集中随机抽取样本(有放回抽样)来构建多个训练集的方法。每个决策树都是在这些不同的训练集上训练得到的。

5、投票机制

        对于分类问题,随机森林通过多数投票的方式来确定最终的预测结果。每个决策树都会给出一个预测,随机森林会统计每个类别的得票数,得票数最多的类别被选为最终预测结果。

6、特征重要性

        随机森林可以评估每个特征对模型预测的贡献度,即特征重要性。这通常是通过观察在构建树时,某个特征被用于分割的次数来确定的。

7、处理能力

        随机森林能够处理高维数据,并且对于缺失数据具有一定的鲁棒性。它也可以处理分类和回归问题。

8、优点:     

  • 通常具有较高的准确率。
  • 对于高维数据表现良好。
  • 能够提供特征重要性的估计。
  • 对于数据集中的异常值和噪声具有一定的鲁棒性。

9、缺点

  • 训练时间可能较长,尤其是在数据集很大或特征很多的情况下。
  • 模型可能会占用较多的内存。
  • 模型的解释性不如单个决策树。

10、数据预处理,找到数据的特征与标签

data = pd.read_csv("spambase.csv")  # 读取数据集
x = data.iloc[:, :-1]  # 选取数据集中的特征列(除了最后一列)
y = data.iloc[:, -1]  # 选取数据集中的最后一列作为标签

11、划分训练集和测试集

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=100)

12、创建随机森林分类器实例

rf = RandomForestClassifier(n_estimators=100, max_features=0.8, random_state=0)  # 创建随机森林分类器实例
rf.fit(x_train, y_train)  # 使用训练集数据训练模型

13、打印分类报告

predict_train = rf.predict(x_train)  # 使用训练集数据进行预测
print(metrics.classification_report(y_train, predict_train))  # 打印训练集的分类报告
predict_test = rf.predict(x_test)  # 使用测试集数据进行预测
print(metrics.classification_report(y_test, predict_test))  # 打印测试集的分类报告

14、数据可视化

import matplotlib.pyplot as plt  # 导入matplotlib.pyplot,用于数据可视化
from pylab import mpl  # 导入pylab的mpl模块# 获取每一项特征所占的权重(重要性)
importances = rf.feature_importances_
# 转换成数组,重新命名
im = pd.DataFrame(importances, columns=["importances"])
# 从原表格中获取所有列名称,将其转换成列表格式,除去最后一列
clos = data.columns
clos_1 = clos.values
clos_2 = clos_1.tolist()
clos = clos_2[:-1]  # 切片操作,获取除了最后一列的所有列名
# 将名称添加到im
im["clos"] = clos
# 对importances进行排序,获取前10个
im = im.sort_values(by=["importances"], ascending=False)[:10]index = range(len(im))  # 创建一个索引列表
plt.yticks(index, im.clos)  # 设置y轴的刻度标签为特征名称
plt.barh(index, im["importances"])  # 绘制水平条形图
plt.show()  # 显示图形

15、结果

16、完整代码

import pandas as pd  # 导入pandas库,用于数据处理
data = pd.read_csv("spambase.csv")  # 读取数据集
x = data.iloc[:, :-1]  # 选取数据集中的特征列(除了最后一列)
y = data.iloc[:, -1]  # 选取数据集中的最后一列作为标签from sklearn.model_selection import train_test_split  # 导入train_test_split函数# 将数据集分割为训练集和测试集,测试集占20%
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=100)from sklearn.ensemble import RandomForestClassifier  # 导入RandomForestClassifier
rf = RandomForestClassifier(n_estimators=100, max_features=0.8, random_state=0)  # 创建随机森林分类器实例
rf.fit(x_train, y_train)  # 使用训练集数据训练模型from sklearn import metrics  # 导入metrics库,用于模型评估
predict_train = rf.predict(x_train)  # 使用训练集数据进行预测
print(metrics.classification_report(y_train, predict_train))  # 打印训练集的分类报告
predict_test = rf.predict(x_test)  # 使用测试集数据进行预测
print(metrics.classification_report(y_test, predict_test))  # 打印测试集的分类报告import matplotlib.pyplot as plt  # 导入matplotlib.pyplot,用于数据可视化
from pylab import mpl  # 导入pylab的mpl模块# 获取每一项特征所占的权重(重要性)
importances = rf.feature_importances_
# 转换成数组,重新命名
im = pd.DataFrame(importances, columns=["importances"])
# 从原表格中获取所有列名称,将其转换成列表格式,除去最后一列
clos = data.columns
clos_1 = clos.values
clos_2 = clos_1.tolist()
clos = clos_2[:-1]  # 切片操作,获取除了最后一列的所有列名
# 将名称添加到im
im["clos"] = clos
# 对importances进行排序,获取前10个
im = im.sort_values(by=["importances"], ascending=False)[:10]index = range(len(im))  # 创建一个索引列表
plt.yticks(index, im.clos)  # 设置y轴的刻度标签为特征名称
plt.barh(index, im["importances"])  # 绘制水平条形图
plt.show()  # 显示图形

这篇关于机器学习:随机森林决策树学习算法及代码实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1107304

相关文章

Qt实现对Word网页的读取功能

《Qt实现对Word网页的读取功能》文章介绍了几种在Qt中实现Word文档(.docx/.doc)读写功能的方法,包括基于QAxObject的COM接口调用、DOCX模板替换及跨平台解决方案,重点讨论... 目录1. 核心实现方式2. 基于QAxObject的COM接口调用(Windows专用)2.1 环境

MySQL查看表的历史SQL的几种实现方法

《MySQL查看表的历史SQL的几种实现方法》:本文主要介绍多种查看MySQL表历史SQL的方法,包括通用查询日志、慢查询日志、performance_schema、binlog、第三方工具等,并... 目录mysql 查看某张表的历史SQL1.查看MySQL通用查询日志(需提前开启)2.查看慢查询日志3.

Java实现字符串大小写转换的常用方法

《Java实现字符串大小写转换的常用方法》在Java中,字符串大小写转换是文本处理的核心操作之一,Java提供了多种灵活的方式来实现大小写转换,适用于不同场景和需求,本文将全面解析大小写转换的各种方法... 目录前言核心转换方法1.String类的基础方法2. 考虑区域设置的转换3. 字符级别的转换高级转换

使用Python实现局域网远程监控电脑屏幕的方法

《使用Python实现局域网远程监控电脑屏幕的方法》文章介绍了两种使用Python在局域网内实现远程监控电脑屏幕的方法,方法一使用mss和socket,方法二使用PyAutoGUI和Flask,每种方... 目录方法一:使用mss和socket实现屏幕共享服务端(被监控端)客户端(监控端)方法二:使用PyA

HTML5的input标签的`type`属性值详解和代码示例

《HTML5的input标签的`type`属性值详解和代码示例》HTML5的`input`标签提供了多种`type`属性值,用于创建不同类型的输入控件,满足用户输入的多样化需求,从文本输入、密码输入、... 目录一、引言二、文本类输入类型2.1 text2.2 password2.3 textarea(严格

MyBatis-Plus逻辑删除实现过程

《MyBatis-Plus逻辑删除实现过程》本文介绍了MyBatis-Plus如何实现逻辑删除功能,包括自动填充字段、配置与实现步骤、常见应用场景,并展示了如何使用remove方法进行逻辑删除,逻辑删... 目录1. 逻辑删除的必要性编程1.1 逻辑删除的定义1.2 逻辑删php除的优点1.3 适用场景2.

C#借助Spire.XLS for .NET实现在Excel中添加文档属性

《C#借助Spire.XLSfor.NET实现在Excel中添加文档属性》在日常的数据处理和项目管理中,Excel文档扮演着举足轻重的角色,本文将深入探讨如何在C#中借助强大的第三方库Spire.... 目录为什么需要程序化添加Excel文档属性使用Spire.XLS for .NET库实现文档属性管理Sp

Python+FFmpeg实现视频自动化处理的完整指南

《Python+FFmpeg实现视频自动化处理的完整指南》本文总结了一套在Python中使用subprocess.run调用FFmpeg进行视频自动化处理的解决方案,涵盖了跨平台硬件加速、中间素材处理... 目录一、 跨平台硬件加速:统一接口设计1. 核心映射逻辑2. python 实现代码二、 中间素材处

Java数组动态扩容的实现示例

《Java数组动态扩容的实现示例》本文主要介绍了Java数组动态扩容的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录1 问题2 方法3 结语1 问题实现动态的给数组添加元素效果,实现对数组扩容,原始数组使用静态分配

JAVA项目swing转javafx语法规则以及示例代码

《JAVA项目swing转javafx语法规则以及示例代码》:本文主要介绍JAVA项目swing转javafx语法规则以及示例代码的相关资料,文中详细讲解了主类继承、窗口创建、布局管理、控件替换、... 目录最常用的“一行换一行”速查表(直接全局替换)实际转换示例(JFramejs → JavaFX)迁移建