深度之眼Kaggle比赛实战项目记录—6—第二周第一节构建baseline

本文主要是介绍深度之眼Kaggle比赛实战项目记录—6—第二周第一节构建baseline，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

任务

学习时长：1/6——1/7

任务名称：构建baseline

任务简介：完成一个基本的baseline提交到kaggle上然后有成绩

详细说明：

本节将会向大家介绍利用python数据清洗和数据预处理以及模型的构建，拟合数据，进行对test数据集进行预测，提交到成绩有排名。会先从理论讲起，再到实际的的一个操作。

数据清洗和数据处理是比赛以及任何一种机器学习模型的必须要经过的过程，而且极为重要，这里只是给大家介绍一下数据清洗的几种常见的知识，包括可以利用pandas和sklearn库来进行，对数据的空值的填充，以及数据归一化，独热编码，标签编码等数据处理方面的问题，以及模型的构建问题，如何进行训练以及这个预测提交的问题。在这个过程中可能有很多同学对于很多知识不是很熟悉，那么就需要自己多多面向谷歌或者组队讨论，出现问题的时候多思考以及多查阅资料。

代码下载：

链接：https://pan.baidu.com/s/11hmFMnKqnA1j_5NnpoGzVQ

提取码：wxr6

插入构建baseline

作业名称（详解）：针对于不同的数据运用pandas和sklearn处理的方式区别是什么？说明模型只能拟合什么样子的数据，为什么数据归一化和不归一化的结果会有差距？提交成绩的截图。

作业提交形式：截图，文字，打卡提交。

打卡内容：（可以只是文字提交，或图片提交，或组合都行）

文字要求最少200字

图片要求最少1张

打卡截止日期：1/7

点我打卡！快来提交你的作业吧~

打卡

针对于不同的数据运用pandas和sklearn处理的方式区别是什么？

Pandas 主要是对数据本身进行一些操作，多是单纯的”物理“操作，集中在数据预处理阶段，包括：数据数据导入和清洗等等；而 sklearn 多是利用其包含的丰富的机器学习模块和方法对数据进行”物理“和”化学“操作，比如，完成特征选择、数据降维、模型训练和最后的预测等操作。

说明模型只能拟合什么样子的数据
这个问题，似乎问的有些模糊？模型能够拟合的数据，首先至少要满足已经数据已经向量化，同时至少还一定要满足一定的 shape 才能够输入到模型中去。
为什么数据归一化和不归一化的结果会有差距？
将数据变为正态分布是标准化，将数据值的范围缩小到一定的范围，比如[0, 1]是归一化。
数据的归一化主要是为了消除不同特征的量纲影响，将所有的数据放在了同一个范围内进行比较会提取更多有效信息同时消除了奇异样本的不良影响。
同时，归一化/标准化实质是一种线性变换，变换后可以加快梯度下降求解的速度。
提交成绩的截图。

在这里插入图片描述