python实战之泰坦尼克号获救问题

2023-10-14 13:50

本文主要是介绍python实战之泰坦尼克号获救问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据来源:
Kaggle数据集 →
共有1309名乘客数据,其中891是已知存活情况(train.csv),剩下418则是需要进行分析预测的(test.csv)
字段意义:
PassengerId: 乘客编号
Survived :存活情况(存活:1 ; 死亡:0)
Pclass : 客舱等级
Name : 乘客姓名
Sex : 性别
Age : 年龄
SibSp : 同乘的兄弟姐妹/配偶数
Parch : 同乘的父母/小孩数
Ticket : 船票编号
Fare : 船票价格
Cabin :客舱号
Embarked : 登船港口
目的:通过已知获救数据,预测乘客生存情况研究问题:
1、整体来看,存活比例如何?
要求:① 读取已知生存数据train.csv② 查看已知存活数据中,存活比例如何?
提示:① 注意过程中筛选掉缺失值之后再分析② 这里用seaborn制图辅助研究
2、结合性别和年龄数据,分析幸存下来的人是哪些人?
要求:① 年龄数据的分布情况② 男性和女性存活情况③ 老人和小孩存活情况
3、结合 SibSp、Parch字段,研究亲人多少与存活的关系
要求:① 有无兄弟姐妹/父母子女和存活与否的关系② 亲戚多少与存活与否的关系
4、结合票的费用情况,研究票价和存活与否的关系
要求:① 票价分布和存活与否的关系② 比较研究生还者和未生还者的票价情况
5、利用KNN分类模型,对结果进行预测
要求:① 模型训练字段:‘Survived’,‘Pclass’,‘Sex’,‘Age’,‘Fare’,'Family_Size’②模型预测test.csv样本数据的生还率
提示:① 训练数据集中,性别改为数字表示 → 1代表男性,0代表女性

泰坦尼克号获救问题十分经典,比较初级,不过也很有练习价值。在这里我也简单记录一下自己的思路,小小分享,欢迎指正。
拿到问题,先打开数据看一看,了解一下大概情况以及分析目的。
前四问很简单,需要对数据进行描述、评判,最后一问是利用模型进行简单的预测。整体难度不高。

1 导入模块,加载数据

根据题目要求,预测需要的模块,也可以后期用到再加。然后导入数据,查看具体情况。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
import timeimport warnings
warnings.filterwarnings('ignore')os.chdir('/Users/eleven/Desktop/python/泰坦尼克号获救问题/')
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')

2 查看存活比例

存活只有两个数据值,1和0,可以直接用饼状图来体现,简单直观。

sns.set()
sns.set_style('ticks')
plt.axis('equal')
survive_per = train_data['Survived'].value_counts()
survive_per.plot.pie(autopct = '%.2f%%')

用seaborn制图,设置为正方形的绘图空间,通过value_counts计数,生成pie饼状图
生成的饼状图
得到存活比例为38.38%。

3 分析幸存下来的人群分布

(1)年龄数据的分布情况

简单的看分布情况,可以用直方图和箱型图来表示。

train_data_age = train_data[train_data['Age'].notnull()]
#去除缺失值plt.figure(figsize = (12,6))
plt.subplot(121)
train_data_age['Age'].hist(bins = 70)
plt.xlabel('age')
plt.ylabel('num')
#绘制直方图plt.subplot(122)
train_data.boxplot(column = 'Age',showfliers = False)
#绘制箱型图train_data_age['Age'].describe()
#数据描述

这篇关于python实战之泰坦尼克号获救问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/210948

相关文章

解读为什么@Autowired在属性上被警告,在setter方法上不被警告问题

《解读为什么@Autowired在属性上被警告,在setter方法上不被警告问题》在Spring开发中,@Autowired注解常用于实现依赖注入,它可以应用于类的属性、构造器或setter方法上,然... 目录1. 为什么 @Autowired 在属性上被警告?1.1 隐式依赖注入1.2 IDE 的警告:

使用Python创建一个能够筛选文件的PDF合并工具

《使用Python创建一个能够筛选文件的PDF合并工具》这篇文章主要为大家详细介绍了如何使用Python创建一个能够筛选文件的PDF合并工具,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录背景主要功能全部代码代码解析1. 初始化 wx.Frame 窗口2. 创建工具栏3. 创建布局和界面控件4

一文详解如何在Python中使用Requests库

《一文详解如何在Python中使用Requests库》:本文主要介绍如何在Python中使用Requests库的相关资料,Requests库是Python中常用的第三方库,用于简化HTTP请求的发... 目录前言1. 安装Requests库2. 发起GET请求3. 发送带有查询参数的GET请求4. 发起PO

Python与DeepSeek的深度融合实战

《Python与DeepSeek的深度融合实战》Python作为最受欢迎的编程语言之一,以其简洁易读的语法、丰富的库和广泛的应用场景,成为了无数开发者的首选,而DeepSeek,作为人工智能领域的新星... 目录一、python与DeepSeek的结合优势二、模型训练1. 数据准备2. 模型架构与参数设置3

Python进行PDF文件拆分的示例详解

《Python进行PDF文件拆分的示例详解》在日常生活中,我们常常会遇到大型的PDF文件,难以发送,将PDF拆分成多个小文件是一个实用的解决方案,下面我们就来看看如何使用Python实现PDF文件拆分... 目录使用工具将PDF按页数拆分将PDF的每一页拆分为单独的文件将PDF按指定页数拆分根据页码范围拆分

解决java.lang.NullPointerException问题(空指针异常)

《解决java.lang.NullPointerException问题(空指针异常)》本文详细介绍了Java中的NullPointerException异常及其常见原因,包括对象引用为null、数组元... 目录Java.lang.NullPointerException(空指针异常)NullPointer

Java实战之利用POI生成Excel图表

《Java实战之利用POI生成Excel图表》ApachePOI是Java生态中处理Office文档的核心工具,这篇文章主要为大家详细介绍了如何在Excel中创建折线图,柱状图,饼图等常见图表,需要的... 目录一、环境配置与依赖管理二、数据源准备与工作表构建三、图表生成核心步骤1. 折线图(Line Ch

Android开发中gradle下载缓慢的问题级解决方法

《Android开发中gradle下载缓慢的问题级解决方法》本文介绍了解决Android开发中Gradle下载缓慢问题的几种方法,本文给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧... 目录一、网络环境优化二、Gradle版本与配置优化三、其他优化措施针对android开发中Gradle下载缓慢的问

Python中常用的四种取整方式分享

《Python中常用的四种取整方式分享》在数据处理和数值计算中,取整操作是非常常见的需求,Python提供了多种取整方式,本文为大家整理了四种常用的方法,希望对大家有所帮助... 目录引言向零取整(Truncate)向下取整(Floor)向上取整(Ceil)四舍五入(Round)四种取整方式的对比综合示例应

python 3.8 的anaconda下载方法

《python3.8的anaconda下载方法》本文详细介绍了如何下载和安装带有Python3.8的Anaconda发行版,包括Anaconda简介、下载步骤、安装指南以及验证安装结果,此外,还介... 目录python3.8 版本的 Anaconda 下载与安装指南一、Anaconda 简介二、下载 An