泰坦尼克专题

24/9/3算法笔记 kaggle泰坦尼克

题目：这次我用两种算法做了这道题逻辑回归二分类算法 import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.linear_model import LogisticRegr

泰坦尼克生还预测

文章目录第1关：存活率与性别和船舱等级之间的关系第2关：各个口岸的生还率第3关：统计各登船口岸的登船人数以及生还率第4关：船客兄弟姐妹妻子丈夫的数量与生存率之间的关第1关：存活率与性别和船舱等级之间的关系编程要求在右侧编辑器补充代码，读取Task1/train.csv文件，绘制包含船票类型与年龄、性别与年龄的小提琴图，具体可视化要求如下： figsize设置为(10

Kaggle入门——泰坦尼克之灾

一、实验目的与实验环境实验目的：熟练运用Python列表、字典、集合、数组等数据结构以及索引和切片等查询操作解决实际问题，熟练掌握Python读写文本文件的方法，熟练使用Python数据分析库函数，通过完成kaggle泰坦尼克之灾这个数据分析的入门项目，即“给出泰坦尼克号上的乘客的信息，预测乘客是否幸存”进行一个简单的数据分析。作为新手初步了解完成一个数据分析项目于的具体流程和实现方式，初步了

这篇文章讲述的是Kaggle上一个赛题的解决方案——Titanic幸存预测.问题背景是我们大家都熟悉的【Jack and Rose】的故事，豪华游艇与冰山相撞，大家惊慌而逃，可是救生艇的数量有限，无法人人都有。赛题官方提供训练数据和测试数据两份数据，训练数据主要是一些乘客的个人信息以及存活状况，测试数据也是乘客的个人信息但是没有存活状况的显示。所以本文的主要目的就是，根据训练数据生成合适的模型并预

【Python基础】案例分析：泰坦尼克分析

泰坦尼克分析 1 目的：熟悉数据集熟悉seaborn各种操作作 import pandas as pdimport seaborn as snsimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlinehome = r'data'df = sns.load_dataset('titanic', data

数据重构 —— 泰坦尼克任务

第二章：数据重构熟悉的开始~ # 导入numpy和pandasimport pandas as pdimport numpy as np# 载入data文件中的:train-left-up.csvleft_up = pd.read_csv('train-left-up.csv')left_up.head() 2.4 数据的合并 2.4.1 任务一：将data文件夹里面的所有数据

kaggle：泰坦尼克生存预测（ R语言机器学习分类算法）

本文在基本的多元统计分析技术理论基础上，结合机器学习基本模型，选择Kaggle（数据建模竞赛网站）的入门赛——Titanic生存预测作为实战演练，较为完整地呈现了数据建模的基本流程和思路。采用的模型有逻辑回归，决策树，SVM支持向量机以及进阶的集成学习方法——Boosting和RandomForest。在建立模型后基于混淆矩阵的模型评估方法给出了Titanic生存预测的基本结论。该数

10000+字，利用 Python 进行泰坦尼克生存预测

大家好，Titanic数据是一份经典数据挖掘的数据集，本文介绍的是kaggle排名第一的案例分享。原notebook地址：https://www.kaggle.com/startupsci/titanic-data-science-solutions 文章目录排名技术提升数据探索导入库导入数据字段信息字段分类缺失值数据假设删除字段修改、增加字段猜想统计分析可视化分析年龄与生还舱位与

[Machine Learning] 逻辑回归应用之Kaggle泰坦尼克之灾

Kaggle竞赛（1）——Tantic泰坦尼克之灾

Kaggle竞赛-Titanic泰坦尼克

#####------------------------------------------------------------------------------------------------------- 在博主的原有基础上修改了部分错误，Jupyter Notebook实现。代码链接：http://download.csdn.net/download/linxid/10230873

泰坦尼克沉船存活率（机器学习，Python）

目录 1，实验要求： 2，报告内容引言数据处理导入数据查看数据集信息数据清洗特征工程特征提取特征选择生还率预测说明模型构建建立训练数据集和测试数据集选择不同的机器学习算法训练模型，评估模型方案实施生存预测参数调优结论改进方法 1，实验要求：详细描述：按照机器学习一般流程针对“泰坦尼克沉船生存率”数据进行

R语言可视化：ggplot2冲积/桑基图sankey分析大学录取情况、泰坦尼克幸存者数据

最近我们被客户要求撰写关于桑基图的研究报告，包括一些图形和统计输出。本文介绍了冲积/桑基图，以及定义了命名方案和冲积/桑基图的基本组成部分（轴、冲积层、流）。描述了所识别的冲积/桑基图数据结构。展示了一些流行的主题。冲积/桑基图这里有一个典型的冲积/桑基图。现在，我们以该图像为参考点，定义典型冲积图的以下元素。轴是一个维度（变量），数据沿着这个维度在一个固定

数据清洗及特征处理 —— 泰坦尼克任务

第二章：数据清洗及特征处理熟悉的开始~ # 导入numpy和pandasimport pandas as pdimport numpy as np#加载数据train.csvdf = pd.read_csv('train.csv')df 2.1 缺失值观察与处理 2.1.1 任务一：缺失值观察 (1) 请查看每个特征缺失值个数 # 查看数据内缺失值字段df.info()

实战Kaggle泰坦尼克数据集，玩转Pandas透视表 | 强烈推荐

数据透视表（Pivot Table）是常用的数据汇总工具，可以通过控制数据的排列灵活地进行数据分析，进而挖掘出数据中最有价值的信息。掌握数据透视表，已经成为数据分析从业者必备的一项技能。在python中我们可以通过pandas.pivot_table函数来实现数据透视表的功能。本篇文章介绍了pandas.pivot_table具体的使用方法，在最后还准备了一个备忘单，希望能够帮助你记住如何

数据分析案例实战：泰坦尼克船员获救

学习唐宇迪《python数据分析与机器学习实战》视频一、数据分析可以看到有些数据是字符串形式，有些是数值形式，有数据缺失。 survived：1代表存活，0代表死亡，目标tag。 Pclass：船舱，较重要。 sex：性别，较重要。 age：年龄，有缺失值，较重要。 SibSp：兄弟姐妹。Parch：父母孩子。 Ticket：票。 Fare：船票价格，特征可能与船舱特征重复，也较重要

kaggle入门-泰坦尼克

机器学习流程初探数据导入数据：pd.read_csv 观察数据：head()、info()、describe() 数据可视化画子图plt.subplot2grid((2,3),(1,0)) 两行三列中第二行第一列的位置每列按照unique值统计数量画条形图：df.col_name.values_counts().plot(kind=“bar”) 在此基础上观察某X于Y之间的联系

Kaggle泰坦尼克之灾

逻辑回归应用之Kaggle泰坦尼克之灾背景训练和测试数据是一些乘客的个人信息以及存活状况，要尝试根据它生成合适的模型并预测其他人的存活状况。 1. 数据总览 train.csv和test.csv分别为训练集和测试集,ground_truth.csv为对应答案得到这些后，对这些数据读入和简单分析一下 df = pd.read_csv("train.csv")print(df.head

Kaggle 泰坦尼克

入门kaggle，开始机器学习应用之旅。参看一些入门的博客，感觉pandas，sklearn需要熟练掌握，同时也学到了一些很有用的tricks，包括数据分析和机器学习的知识点。下面记录一些有趣的数据分析方法和一个自己撸的小程序。 1.Tricks 1) df.info():数据的特征属性，包括数据缺失情况和数据类型。 df.describe(): 数据中各个特征的数目，缺失值为Na