本文主要是介绍对titanic.csv数据进行预测生死,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
数据集:http://download.csdn.net/detail/u010343650/9844427
survived:乘客最后的生存情况,这个是我们预测的目标变量 (0代表否,1代表是)
pclass:社会经济地位 (1代表上层阶级,2代表中层阶级,3代表底层阶级)
name:姓名
sex:性别
age:年纪
sibsp:船上兄弟姐妹或者配偶的数
parch:船上父母或者孩子的数量
ticket:船票的号码
fare:船票价格
检查数据的完整性 # coding:GBK __author__ = 'Mouse' import pandas as pd full_data = pd.read_csv('titanic_dataset.csv') print full_data.info()
结果显示数据很完整:
代码一:正确率60%-70%之间
# coding:GBK
__author__ = 'Mouse'
import sys
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
reload(sys)
sys.setdefaultencoding('utf8')
from sklearn_test import *def read_data(data_file):data = pd.read_csv(data_file)data = data.drop('ticket', axis=1) #删除票信息data = data.drop('name', axis=1) #删除姓名#one-hot编码le_sex = LabelEnc
这篇关于对titanic.csv数据进行预测生死的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!