sklearn中决策树算法实例--泰坦尼克号人员生存预测

本文主要是介绍sklearn中决策树算法实例--泰坦尼克号人员生存预测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

数据集

题目

算法步骤


数据集

下载地址

titanic.csv · Yuyi Ye/ML-Decision-Tree - 码云 - 开源中国 (gitee.com)

题目

根据数据集中的数据,预测哪些乘客可以从泰坦尼克号沉船事故中幸免。

算法步骤

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier

1、数据预览

import pandas as pd
titan=pd.read_csv("data/titanic.csv")#获取数据
titan//展示数据

数据集中的数据如下所示:

2、数据处理

根据对数据的分析,可用的特征集/属性集为:pclass,age,sex

目标值/类别为survived中的数据

据此,将标签进行划分:

x=titan[["pclass","age","sex"]]
y=titan["survived"]

缺失值填充

x['age'].fillna(value=titan["age"].mean(),inplace=True)

数据集划分

划分为测试集和训练集

xtrain,xtest,ytrain,ytest=train_test_split(x,y,random_state=20,test_size=0.5)

3、提取特征

首先,将训练集和测试集中的数据转为字典格式

xtrain=xtrain.to_dict(orient='records')
xtest=xtest.to_dict(orient='records')

数据格式形如

字典特征提取

#字典特征提取
transfer=DictVectorizer()
xtrain=transfer.fit_transform(xtrain)#返回一个稀疏矩阵
xtest=transfer.fit_transform(xtest)

4、决策树

#决策树
yuce=DecisionTreeClassifier()
yuce.fit(xtrain,ytrain)
ypre=yuce.predict(xtest)
ypre

结果

5、结果评价

#结果评价
scores=yuce.score(xtest,ytest)
scores

6、可视化

from sklearn.tree import export_graphviz
export_graphviz(yuce,out_file="data/tree.dot",feature_names=['age','pclass=1st','pclass=2st','pclass=3st','female','male'])

这篇关于sklearn中决策树算法实例--泰坦尼克号人员生存预测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/912415

相关文章

golang字符串匹配算法解读

《golang字符串匹配算法解读》文章介绍了字符串匹配算法的原理,特别是Knuth-Morris-Pratt(KMP)算法,该算法通过构建模式串的前缀表来减少匹配时的不必要的字符比较,从而提高效率,在... 目录简介KMP实现代码总结简介字符串匹配算法主要用于在一个较长的文本串中查找一个较短的字符串(称为

通俗易懂的Java常见限流算法具体实现

《通俗易懂的Java常见限流算法具体实现》:本文主要介绍Java常见限流算法具体实现的相关资料,包括漏桶算法、令牌桶算法、Nginx限流和Redis+Lua限流的实现原理和具体步骤,并比较了它们的... 目录一、漏桶算法1.漏桶算法的思想和原理2.具体实现二、令牌桶算法1.令牌桶算法流程:2.具体实现2.1

前端原生js实现拖拽排课效果实例

《前端原生js实现拖拽排课效果实例》:本文主要介绍如何实现一个简单的课程表拖拽功能,通过HTML、CSS和JavaScript的配合,我们实现了课程项的拖拽、放置和显示功能,文中通过实例代码介绍的... 目录1. 效果展示2. 效果分析2.1 关键点2.2 实现方法3. 代码实现3.1 html部分3.2

mysqld_multi在Linux服务器上运行多个MySQL实例

《mysqld_multi在Linux服务器上运行多个MySQL实例》在Linux系统上使用mysqld_multi来启动和管理多个MySQL实例是一种常见的做法,这种方式允许你在同一台机器上运行多个... 目录1. 安装mysql2. 配置文件示例配置文件3. 创建数据目录4. 启动和管理实例启动所有实例

Java function函数式接口的使用方法与实例

《Javafunction函数式接口的使用方法与实例》:本文主要介绍Javafunction函数式接口的使用方法与实例,函数式接口如一支未完成的诗篇,用Lambda表达式作韵脚,将代码的机械美感... 目录引言-当代码遇见诗性一、函数式接口的生物学解构1.1 函数式接口的基因密码1.2 六大核心接口的形态学

java图像识别工具类(ImageRecognitionUtils)使用实例详解

《java图像识别工具类(ImageRecognitionUtils)使用实例详解》:本文主要介绍如何在Java中使用OpenCV进行图像识别,包括图像加载、预处理、分类、人脸检测和特征提取等步骤... 目录前言1. 图像识别的背景与作用2. 设计目标3. 项目依赖4. 设计与实现 ImageRecogni

Java操作ElasticSearch的实例详解

《Java操作ElasticSearch的实例详解》Elasticsearch是一个分布式的搜索和分析引擎,广泛用于全文搜索、日志分析等场景,本文将介绍如何在Java应用中使用Elastics... 目录简介环境准备1. 安装 Elasticsearch2. 添加依赖连接 Elasticsearch1. 创

使用C#代码计算数学表达式实例

《使用C#代码计算数学表达式实例》这段文字主要讲述了如何使用C#语言来计算数学表达式,该程序通过使用Dictionary保存变量,定义了运算符优先级,并实现了EvaluateExpression方法来... 目录C#代码计算数学表达式该方法很长,因此我将分段描述下面的代码片段显示了下一步以下代码显示该方法如

Python中的随机森林算法与实战

《Python中的随机森林算法与实战》本文详细介绍了随机森林算法,包括其原理、实现步骤、分类和回归案例,并讨论了其优点和缺点,通过面向对象编程实现了一个简单的随机森林模型,并应用于鸢尾花分类和波士顿房... 目录1、随机森林算法概述2、随机森林的原理3、实现步骤4、分类案例:使用随机森林预测鸢尾花品种4.1

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结