kaggle入门-泰坦尼克

2023-10-08 05:20

文章标签 入门 kaggle 泰坦尼克

本文主要是介绍kaggle入门-泰坦尼克，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

机器学习流程

初探数据

导入数据：pd.read_csv
观察数据：head()、info()、describe()

数据可视化

画子图plt.subplot2grid((2,3),(1,0))
两行三列中第二行第一列的位置

每列按照unique值统计数量画条形图：df.col_name.values_counts().plot(kind=“bar”)
在这里插入图片描述
在此基础上观察某X于Y之间的联系

df.col_name[df.col_namevalues][df.col_namevalues].value_counts()

在这里插入图片描述

统计描述
groupby

统计每个特征值的频数
df.col_name.value_counts()

数据预处理

缺失值处理：

（1）占比高且且不重要：舍弃
（2）占比低
a. 连续变量离散化增加nan类
b. 非连续变量增加nan类
在这里插入图片描述
（3）其他方法
a. 拟合得到缺失值
b. 平均值代替

例子：随机森林拟合缺失值age

在这里插入图片描述

独热编码

perfix加前缀
dummies_col_name=pd.get_dummies(df[“col_name”],perfix=“col_name”)

在这里插入图片描述

数据归一化

import sklearn.preprocessing as preprocessing
scaler=preprocessing.StandardScaler()
scaler.fit
scaler.fit_transfrom

在这里插入图片描述

模型训练

例子：逻辑回归
linear_model.LogisticRegression
在这里插入图片描述

模型预测

测试集做与训练集一样的操作
缺失值处理独热编码归一化
在这里插入图片描述

clf.predict
在这里插入图片描述

模型优化

创建baseline 之后的改进

系数关联分析

在这里插入图片描述

交叉验证：

方便优化调试
在这里插入图片描述

bad case

找出bad case尝试优化
在这里插入图片描述

特征工程

加tricks
离散化
组合变量构造新变量

特征工程之后拟合越来越好，分辨欠拟合以及过拟合

学习曲线

上图：过拟合test以及train之间gap很大
下图：欠拟合
在这里插入图片描述

模型融合

bagging：类似于随机森林
多个模型同时做决策，多数法则，有效缓解过拟合

数据集上入手，每次从数据集的subset中训练模型，每个模型都不一样，多数法则做决策，缓解过拟合

在这里插入图片描述

流程总结

在这里插入图片描述

参考 https://blog.csdn.net/han_xiaoyang/article/details/49797143

这篇关于kaggle入门-泰坦尼克的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/162986。 23002807@qq.com

相关文章

从入门到精通MySQL联合查询

从入门到精通MySQL联合查询

《从入门到精通MySQL联合查询》：本文主要介绍从入门到精通MySQL联合查询,本文通过实例代码给大家介绍的非常详细,需要的朋友可以参考下... 目录摘要1. 多表联合查询时mysql内部原理2. 内连接3. 外连接4. 自连接5. 子查询6. 合并查询7. 插入查询结果摘要前面我们学习了数据库设计时要满

阅读更多...

从入门到精通C++11 ＜chrono＞库特性

从入门到精通C++11 ＜chrono＞库特性

《从入门到精通C++11＜chrono＞库特性》chrono库是C++11中一个非常强大和实用的库,它为时间处理提供了丰富的功能和类型安全的接口,通过本文的介绍,我们了解了chrono库的基本概念... 目录一、引言1.1 为什么需要<chrono>库1.2<chrono>库的基本概念二、时间段（Durat

阅读更多...

解析C++11 static_assert及与Boost库的关联从入门到精通

解析C++11 static_assert及与Boost库的关联从入门到精通

《解析C++11static_assert及与Boost库的关联从入门到精通》static_assert是C++中强大的编译时验证工具,它能够在编译阶段拦截不符合预期的类型或值,增强代码的健壮性,通... 目录一、背景知识：传统断言方法的局限性1.1 assert宏1.2 #error指令1.3 第三方解决

阅读更多...

从入门到精通MySQL 数据库索引(实战案例)

从入门到精通MySQL 数据库索引(实战案例)

《从入门到精通MySQL数据库索引(实战案例)》索引是数据库的目录,提升查询速度,主要类型包括BTree、Hash、全文、空间索引,需根据场景选择,建议用于高频查询、关联字段、排序等,避免重复率高或... 目录一、索引是什么？能干嘛？核心作用：二、索引的 4 种主要类型（附通俗例子）1. BTree 索引（

阅读更多...

Redis 配置文件使用建议redis.conf 从入门到实战

Redis 配置文件使用建议redis.conf 从入门到实战

《Redis配置文件使用建议redis.conf从入门到实战》Redis配置方式包括配置文件、命令行参数、运行时CONFIG命令,支持动态修改参数及持久化,常用项涉及端口、绑定、内存策略等,版本8... 目录一、Redis.conf 是什么？二、命令行方式传参（适用于测试）三、运行时动态修改配置（不重启服务

阅读更多...

MySQL DQL从入门到精通

MySQL DQL从入门到精通

《MySQLDQL从入门到精通》通过DQL,我们可以从数据库中检索出所需的数据,进行各种复杂的数据分析和处理,本文将深入探讨MySQLDQL的各个方面,帮助你全面掌握这一重要技能,感兴趣的朋友跟随小... 目录一、DQL 基础：SELECT 语句入门二、数据过滤：WHERE 子句的使用三、结果排序：ORDE

阅读更多...

Python中OpenCV与Matplotlib的图像操作入门指南

Python中OpenCV与Matplotlib的图像操作入门指南

《Python中OpenCV与Matplotlib的图像操作入门指南》：本文主要介绍Python中OpenCV与Matplotlib的图像操作指南,本文通过实例代码给大家介绍的非常详细,对大家的学... 目录一、环境准备二、图像的基本操作1. 图像读取、显示与保存使用OpenCV操作2. 像素级操作3.

阅读更多...

POI从入门到实战轻松完成EasyExcel使用及Excel导入导出功能

POI从入门到实战轻松完成EasyExcel使用及Excel导入导出功能

《POI从入门到实战轻松完成EasyExcel使用及Excel导入导出功能》ApachePOI是一个流行的Java库,用于处理MicrosoftOffice格式文件,提供丰富API来创建、读取和修改O... 目录前言:Apache POIEasyPoiEasyExcel一、EasyExcel1.1、核心特性

阅读更多...

Python中模块graphviz使用入门

Python中模块graphviz使用入门

《Python中模块graphviz使用入门》graphviz是一个用于创建和操作图形的Python库,本文主要介绍了Python中模块graphviz使用入门,具有一定的参考价值,感兴趣的可以了解一... 目录1.安装2. 基本用法2.1 输出图像格式2.2 图像style设置2.3 属性2.4 子图和聚

阅读更多...

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战：从入门到进阶优化1. MyBatis

阅读更多...