Titanic沉船数据集之获救乘客预测

本文主要是介绍Titanic沉船数据集之获救乘客预测，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

项目目标：

Titanic数据集是我们进入到机器学习领域中的第一个数据集，同我们学习编程的第一句程序语言（‘hello,world’）是一样的。通过对该数据集进行机器学习建模，掌握Numpy,Pandas,Matplotlib,Sklearn等常用数据分析库的使用，并掌握机器学习的完成流程数据预处理 - 建立基础模型 - 模型评估 - 调参 - 固定模型参数。

背景介绍：

泰坦尼克沉船是震惊世界的海难事件，1912年4月15日，在它的处女航中，撞上冰川后沉没。造成了超过1502人死亡，该事件也引起了全世界对于船舶安全法规的重视。在这场灾难中，有一些因素也导致了部分乘客的获救机率比较高，如老人，小孩，上流阶层，我们的目标是利用机器学习算法来对乘客的存活情况进行预测。

数据集简介：

该数据集由两部分组成：

1.训练集：891条乘客数据

2.测试集：418条乘客数据

我们的目标是使用训练集来训练模型，使用测试集来检验模型的性能。训练集和测试集中均存在缺失值，所以在建立模型之前，需要对该数据集做预处理。

Titanic数据集中各列特征说明：

列名称	含义
PassengerID	乘客编号
Survived	是否获救（获救：1；未获救0）
Pclass	船舱等级（1：一等舱；2：二等舱；3：三等舱）
Name	乘客姓名
Sex	性别
SibSp	兄弟姐妹和妻子的人数
Parch	父母和孩子的人数
Ticket	船票编号
Fare	船票价格
Cabin	船舱编号
Embarked	登录港口
Age	乘客年龄