python实战之泰坦尼克号获救问题

2023-10-14 13:50

本文主要是介绍python实战之泰坦尼克号获救问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据来源:
Kaggle数据集 →
共有1309名乘客数据,其中891是已知存活情况(train.csv),剩下418则是需要进行分析预测的(test.csv)
字段意义:
PassengerId: 乘客编号
Survived :存活情况(存活:1 ; 死亡:0)
Pclass : 客舱等级
Name : 乘客姓名
Sex : 性别
Age : 年龄
SibSp : 同乘的兄弟姐妹/配偶数
Parch : 同乘的父母/小孩数
Ticket : 船票编号
Fare : 船票价格
Cabin :客舱号
Embarked : 登船港口
目的:通过已知获救数据,预测乘客生存情况研究问题:
1、整体来看,存活比例如何?
要求:① 读取已知生存数据train.csv② 查看已知存活数据中,存活比例如何?
提示:① 注意过程中筛选掉缺失值之后再分析② 这里用seaborn制图辅助研究
2、结合性别和年龄数据,分析幸存下来的人是哪些人?
要求:① 年龄数据的分布情况② 男性和女性存活情况③ 老人和小孩存活情况
3、结合 SibSp、Parch字段,研究亲人多少与存活的关系
要求:① 有无兄弟姐妹/父母子女和存活与否的关系② 亲戚多少与存活与否的关系
4、结合票的费用情况,研究票价和存活与否的关系
要求:① 票价分布和存活与否的关系② 比较研究生还者和未生还者的票价情况
5、利用KNN分类模型,对结果进行预测
要求:① 模型训练字段:‘Survived’,‘Pclass’,‘Sex’,‘Age’,‘Fare’,'Family_Size’②模型预测test.csv样本数据的生还率
提示:① 训练数据集中,性别改为数字表示 → 1代表男性,0代表女性

泰坦尼克号获救问题十分经典,比较初级,不过也很有练习价值。在这里我也简单记录一下自己的思路,小小分享,欢迎指正。
拿到问题,先打开数据看一看,了解一下大概情况以及分析目的。
前四问很简单,需要对数据进行描述、评判,最后一问是利用模型进行简单的预测。整体难度不高。

1 导入模块,加载数据

根据题目要求,预测需要的模块,也可以后期用到再加。然后导入数据,查看具体情况。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
import timeimport warnings
warnings.filterwarnings('ignore')os.chdir('/Users/eleven/Desktop/python/泰坦尼克号获救问题/')
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')

2 查看存活比例

存活只有两个数据值,1和0,可以直接用饼状图来体现,简单直观。

sns.set()
sns.set_style('ticks')
plt.axis('equal')
survive_per = train_data['Survived'].value_counts()
survive_per.plot.pie(autopct = '%.2f%%')

用seaborn制图,设置为正方形的绘图空间,通过value_counts计数,生成pie饼状图
生成的饼状图
得到存活比例为38.38%。

3 分析幸存下来的人群分布

(1)年龄数据的分布情况

简单的看分布情况,可以用直方图和箱型图来表示。

train_data_age = train_data[train_data['Age'].notnull()]
#去除缺失值plt.figure(figsize = (12,6))
plt.subplot(121)
train_data_age['Age'].hist(bins = 70)
plt.xlabel('age')
plt.ylabel('num')
#绘制直方图plt.subplot(122)
train_data.boxplot(column = 'Age',showfliers = False)
#绘制箱型图train_data_age['Age'].describe()
#数据描述

这篇关于python实战之泰坦尼克号获救问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/210948

相关文章

使用Python合并 Excel单元格指定行列或单元格范围

《使用Python合并Excel单元格指定行列或单元格范围》合并Excel单元格是Excel数据处理和表格设计中的一项常用操作,本文将介绍如何通过Python合并Excel中的指定行列或单... 目录python Excel库安装Python合并Excel 中的指定行Python合并Excel 中的指定列P

一文详解Python中数据清洗与处理的常用方法

《一文详解Python中数据清洗与处理的常用方法》在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战,本文总结了多种数据清洗与处理方法,文中的示例代码简洁易懂,有需要的小伙伴可以参考下... 目录缺失值处理重复值处理异常值处理数据类型转换文本清洗数据分组统计数据分箱数据标准化在数据处理与分析过

大数据小内存排序问题如何巧妙解决

《大数据小内存排序问题如何巧妙解决》文章介绍了大数据小内存排序的三种方法:数据库排序、分治法和位图法,数据库排序简单但速度慢,对设备要求高;分治法高效但实现复杂;位图法可读性差,但存储空间受限... 目录三种方法:方法概要数据库排序(http://www.chinasem.cn对数据库设备要求较高)分治法(常

Vue项目中Element UI组件未注册的问题原因及解决方法

《Vue项目中ElementUI组件未注册的问题原因及解决方法》在Vue项目中使用ElementUI组件库时,开发者可能会遇到一些常见问题,例如组件未正确注册导致的警告或错误,本文将详细探讨这些问题... 目录引言一、问题背景1.1 错误信息分析1.2 问题原因二、解决方法2.1 全局引入 Element

Python调用另一个py文件并传递参数常见的方法及其应用场景

《Python调用另一个py文件并传递参数常见的方法及其应用场景》:本文主要介绍在Python中调用另一个py文件并传递参数的几种常见方法,包括使用import语句、exec函数、subproce... 目录前言1. 使用import语句1.1 基本用法1.2 导入特定函数1.3 处理文件路径2. 使用ex

Python脚本实现自动删除C盘临时文件夹

《Python脚本实现自动删除C盘临时文件夹》在日常使用电脑的过程中,临时文件夹往往会积累大量的无用数据,占用宝贵的磁盘空间,下面我们就来看看Python如何通过脚本实现自动删除C盘临时文件夹吧... 目录一、准备工作二、python脚本编写三、脚本解析四、运行脚本五、案例演示六、注意事项七、总结在日常使用

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

python管理工具之conda安装部署及使用详解

《python管理工具之conda安装部署及使用详解》这篇文章详细介绍了如何安装和使用conda来管理Python环境,它涵盖了从安装部署、镜像源配置到具体的conda使用方法,包括创建、激活、安装包... 目录pytpshheraerUhon管理工具:conda部署+使用一、安装部署1、 下载2、 安装3

Python进阶之Excel基本操作介绍

《Python进阶之Excel基本操作介绍》在现实中,很多工作都需要与数据打交道,Excel作为常用的数据处理工具,一直备受人们的青睐,本文主要为大家介绍了一些Python中Excel的基本操作,希望... 目录概述写入使用 xlwt使用 XlsxWriter读取修改概述在现实中,很多工作都需要与数据打交

关于@MapperScan和@ComponentScan的使用问题

《关于@MapperScan和@ComponentScan的使用问题》文章介绍了在使用`@MapperScan`和`@ComponentScan`时可能会遇到的包扫描冲突问题,并提供了解决方法,同时,... 目录@MapperScan和@ComponentScan的使用问题报错如下原因解决办法课外拓展总结@