04_使用决策树对银行贷款进行建模

2023-11-20 21:21

本文主要是介绍04_使用决策树对银行贷款进行建模,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

使用决策树对银行贷款进行建模

1、实验描述

  • 使用Python编程,输入为自定义数据集,分别为贷款对象的四个属性,年龄,是否有房,是否有工作,信用情况计算所有可能的特征的信息增益,选择最优的特征值划分数据集,进而递归地构建决策树。其中为了更加直观地呈现决策树,使用Matplotlib编程将决策树可视化。最后,根据训练好的决策树执行分类,判断银行是否贷款给相关用户。

  • 实验时长: 60 分钟

  • 主要步骤:

    • 使用Python选择最优特征递归构建决策树

    • 决策树的可视化

    • 使用决策树执行分类预测

2、实验环境

  • Anaconda 4.3.30

  • Python 3.6.6

  • Numpy 1.13.1

  • Matplotlib 2.2.2

  • scikit-learn 0.18.2

  • graphviz 2.30.1

3、相关技能

  • Python编程

  • Matplotlib编程

  • 决策树构建

  • 决策树可视化

4、相关知识点

  • 决策树的原理

  • 决策树(decision
    tree)是一种基本的分类与回归方法,是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。决策树可以看作一个if-then规则的集合:由决策树的根结点到叶结点的每一条路径构建一条规则;路径上内部结点的特征对应着规则的条件,而叶结点的类对应着规则的结论。

  • 使用决策树预测需要以下过程:收集数据、准备整理数据、分析数据、训练算法构造决策树、测试算法、使用算法。

  • 决策树的构建

  • 特征选择:特征选择在于选取对训练数据具有分类能力的特征,决定用哪个特征来划分特征空间,可以提高决策树学习的效率。通常特征选择的标准是信息增益或信息增益比。信息增益指的是划分数据集之后信息发生的变化,通过经验熵和条件熵,计算每个特征值划分数据集获得的信息增益,获得信息增益最高的特征就是最好的选择。特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即:g(D,A)=H(D)-
    H(D|A)。

  • 决策树的生成和修剪:使用C4.5、ID3、CART等算法,基于最好的属性值划分数据集,递归地构建决策树,直到不能继续下去为止。但这样产生的树往往对训练数据的分类很准确,但对未知的测试数据的分类却没有那么准确,即出现过拟合现象。针对这一问题,考虑决策树的复杂度,对已生成的决策树进行修剪简化。

  • 决策树可视化

  • 通过Python编程构建的决策树不够清晰直观,可以使用强大的Matplotlib绘制决策树。

  • 使用决策树分类预测

  • 依靠原始数据集构造好的决策树,可以对实际数据进行分类预测。执行数据分类时,需要决策树以及用于构造树的标签向量。然后,程序比较测试数据与决策树上的数值,递归执行该过程直到进入叶子结点,最后将测试数据定义为叶子结点所属的类型,完成对数据的预测。

5、实现效果

  • 贷款类决策树构建结果可视化如下图:

在这里插入图片描述

图 1

6、实验步骤

6.1进入/home/zkpk/pycharm-2017.3.5/bin目录,切换到root用户,输入密码(zkpk)

[zkpk@localhost tgz]$ cd ~/pycharm-2017.3.5/bin
[zkpk@localhost bin]$ su root

在这里插入图片描述

图 2

修改hosts文件,在/etc/hosts文件末添加一行0.0.0.0
account.jetbrains.com,注意account前面有一个空格(按I键,添加以下内容后按Esc键,输入:wq,再按Enter键即可保存退出)。修改完成后使用exit命令退出root权限。

[root@localhost bin]# vi /etc/hosts
0.0.0.0 account.jetbrains.com

在这里插入图片描述

图 3

在/home/zkpk/pycharm-2017.3.5/bin目录下,使用./pycharm.sh命令打开Pycharm,点击open,打开DecisionTree工程,
在工程下创建DCTree.py 并设置Python Interpreter。
在这里插入图片描述

图 4
![在这里插入图片描述](https://img-blog.csdnimg.cn/b4b6cccf92b54364a96e18c2c84c1945.png#pic_center)
图 5

6.2定义数据集,设置四个属性标签为年龄,是否工作,是否有房,信用等级。

def createDataSet():dataSet = [[0, 0, 0, 0, 'no'], #数据集[0, 0, 0, 1, 'no'],[0, 1, 0, 1, 'yes'],[0, 1, 1, 0, 'yes'],[0, 0, 0, 0, 'no'],[1, 0, 0, 0, 'no'],[1, 0, 0, 1, 'no'],[1, 1, 1, 1, 'yes'],[1, 0, 1, 2, 'yes'],[1, 0, 1, 2, 'yes'],[2, 0, 1, 2, 'yes'],[2, 0, 1, 1, 'yes'],[2, 1, 0, 1, 'yes'

这篇关于04_使用决策树对银行贷款进行建模的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/397521

相关文章

postgresql使用UUID函数的方法

《postgresql使用UUID函数的方法》本文给大家介绍postgresql使用UUID函数的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录PostgreSQL有两种生成uuid的方法。可以先通过sql查看是否已安装扩展函数,和可以安装的扩展函数

如何使用Lombok进行spring 注入

《如何使用Lombok进行spring注入》本文介绍如何用Lombok简化Spring注入,推荐优先使用setter注入,通过注解自动生成getter/setter及构造器,减少冗余代码,提升开发效... Lombok为了开发环境简化代码,好处不用多说。spring 注入方式为2种,构造器注入和setter

MySQL中比较运算符的具体使用

《MySQL中比较运算符的具体使用》本文介绍了SQL中常用的符号类型和非符号类型运算符,符号类型运算符包括等于(=)、安全等于(=)、不等于(/!=)、大小比较(,=,,=)等,感兴趣的可以了解一下... 目录符号类型运算符1. 等于运算符=2. 安全等于运算符<=>3. 不等于运算符<>或!=4. 小于运

使用zip4j实现Java中的ZIP文件加密压缩的操作方法

《使用zip4j实现Java中的ZIP文件加密压缩的操作方法》本文介绍如何通过Maven集成zip4j1.3.2库创建带密码保护的ZIP文件,涵盖依赖配置、代码示例及加密原理,确保数据安全性,感兴趣的... 目录1. zip4j库介绍和版本1.1 zip4j库概述1.2 zip4j的版本演变1.3 zip4

Python 字典 (Dictionary)使用详解

《Python字典(Dictionary)使用详解》字典是python中最重要,最常用的数据结构之一,它提供了高效的键值对存储和查找能力,:本文主要介绍Python字典(Dictionary)... 目录字典1.基本特性2.创建字典3.访问元素4.修改字典5.删除元素6.字典遍历7.字典的高级特性默认字典

MySQL进行数据库审计的详细步骤和示例代码

《MySQL进行数据库审计的详细步骤和示例代码》数据库审计通过触发器、内置功能及第三方工具记录和监控数据库活动,确保安全、完整与合规,Java代码实现自动化日志记录,整合分析系统提升监控效率,本文给大... 目录一、数据库审计的基本概念二、使用触发器进行数据库审计1. 创建审计表2. 创建触发器三、Java

使用Python构建一个高效的日志处理系统

《使用Python构建一个高效的日志处理系统》这篇文章主要为大家详细讲解了如何使用Python开发一个专业的日志分析工具,能够自动化处理、分析和可视化各类日志文件,大幅提升运维效率,需要的可以了解下... 目录环境准备工具功能概述完整代码实现代码深度解析1. 类设计与初始化2. 日志解析核心逻辑3. 文件处

一文详解如何使用Java获取PDF页面信息

《一文详解如何使用Java获取PDF页面信息》了解PDF页面属性是我们在处理文档、内容提取、打印设置或页面重组等任务时不可或缺的一环,下面我们就来看看如何使用Java语言获取这些信息吧... 目录引言一、安装和引入PDF处理库引入依赖二、获取 PDF 页数三、获取页面尺寸(宽高)四、获取页面旋转角度五、判断

C++中assign函数的使用

《C++中assign函数的使用》在C++标准模板库中,std::list等容器都提供了assign成员函数,它比操作符更灵活,支持多种初始化方式,下面就来介绍一下assign的用法,具有一定的参考价... 目录​1.assign的基本功能​​语法​2. 具体用法示例​​​(1) 填充n个相同值​​(2)

MySQL深分页进行性能优化的常见方法

《MySQL深分页进行性能优化的常见方法》在Web应用中,分页查询是数据库操作中的常见需求,然而,在面对大型数据集时,深分页(deeppagination)却成为了性能优化的一个挑战,在本文中,我们将... 目录引言:深分页,真的只是“翻页慢”那么简单吗?一、背景介绍二、深分页的性能问题三、业务场景分析四、