深度之眼Kaggle比赛实战项目记录—6—第二周第一节 构建baseline

本文主要是介绍深度之眼Kaggle比赛实战项目记录—6—第二周第一节 构建baseline,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

任务

学习时长:1/6——1/7

任务名称:构建baseline

任务简介:完成一个基本的baseline提交到kaggle上然后有成绩

详细说明:

本节将会向大家介绍利用python数据清洗和数据预处理以及模型的构建,拟合数据,进行对test数据集进行预测,提交到成绩有排名。会先从理论讲起,再到实际的的一个操作。

数据清洗和数据处理是比赛以及任何一种机器学习模型的必须要经过的过程,而且极为重要,这里只是给大家介绍一下数据清洗的几种常见的知识,包括可以利用pandas和sklearn库来进行,对数据的空值的填充,以及数据归一化,独热编码,标签编码等数据处理方面的问题,以及模型的构建问题,如何进行训练以及这个预测提交的问题。在这个过程中可能有很多同学对于很多知识不是很熟悉,那么就需要自己多多面向谷歌或者组队讨论,出现问题的时候多思考以及多查阅资料。

代码下载:

链接:https://pan.baidu.com/s/11hmFMnKqnA1j_5NnpoGzVQ

提取码:wxr6

插入构建baseline

作业名称(详解):针对于不同的数据运用pandas和sklearn处理的方式区别是什么?说明模型只能拟合什么样子的数据,为什么数据归一化和不归一化的结果会有差距?提交成绩的截图。

作业提交形式:截图,文字,打卡提交。

打卡内容:(可以只是文字提交,或图片提交,或组合都行)

文字要求最少200字

图片要求最少1张

打卡截止日期:1/7

点我打卡!快来提交你的作业吧~

打卡

  1. 针对于不同的数据运用pandas和sklearn处理的方式区别是什么?

Pandas 主要是对数据本身进行一些操作,多是单纯的”物理“操作,集中在数据预处理阶段,包括:数据数据导入和清洗等等;而 sklearn 多是利用其包含的丰富的机器学习模块和方法对数据进行”物理“和”化学“操作,比如,完成特征选择、数据降维、模型训练和最后的预测等操作。

  1. 说明模型只能拟合什么样子的数据
    这个问题,似乎问的有些模糊?模型能够拟合的数据,首先至少要满足已经数据已经向量化,同时至少还一定要满足一定的 shape 才能够输入到模型中去。

  2. 为什么数据归一化和不归一化的结果会有差距?
    将数据变为正态分布是标准化,将数据值的范围缩小到一定的范围,比如[0, 1]是归一化。
    数据的归一化主要是为了消除不同特征的量纲影响,将所有的数据放在了同一个范围内进行比较会提取更多有效信息同时消除了奇异样本的不良影响。
    同时,归一化/标准化实质是一种线性变换,变换后可以加快梯度下降求解的速度。

  3. 提交成绩的截图。

在这里插入图片描述

这篇关于深度之眼Kaggle比赛实战项目记录—6—第二周第一节 构建baseline的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/185349

相关文章

SpringBoot项目启动错误:找不到或无法加载主类的几种解决方法

《SpringBoot项目启动错误:找不到或无法加载主类的几种解决方法》本文主要介绍了SpringBoot项目启动错误:找不到或无法加载主类的几种解决方法,具有一定的参考价值,感兴趣的可以了解一下... 目录方法1:更改IDE配置方法2:在Eclipse中清理项目方法3:使用Maven命令行在开发Sprin

Python结合Flask框架构建一个简易的远程控制系统

《Python结合Flask框架构建一个简易的远程控制系统》这篇文章主要为大家详细介绍了如何使用Python与Flask框架构建一个简易的远程控制系统,能够远程执行操作命令(如关机、重启、锁屏等),还... 目录1.概述2.功能使用系统命令执行实时屏幕监控3. BUG修复过程1. Authorization

基于Canvas的Html5多时区动态时钟实战代码

《基于Canvas的Html5多时区动态时钟实战代码》:本文主要介绍了如何使用Canvas在HTML5上实现一个多时区动态时钟的web展示,通过Canvas的API,可以绘制出6个不同城市的时钟,并且这些时钟可以动态转动,每个时钟上都会标注出对应的24小时制时间,详细内容请阅读本文,希望能对你有所帮助...

Redis 内存淘汰策略深度解析(最新推荐)

《Redis内存淘汰策略深度解析(最新推荐)》本文详细探讨了Redis的内存淘汰策略、实现原理、适用场景及最佳实践,介绍了八种内存淘汰策略,包括noeviction、LRU、LFU、TTL、Rand... 目录一、 内存淘汰策略概述二、内存淘汰策略详解2.1 ​noeviction(不淘汰)​2.2 ​LR

Nginx实现高并发的项目实践

《Nginx实现高并发的项目实践》本文主要介绍了Nginx实现高并发的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录使用最新稳定版本的Nginx合理配置工作进程(workers)配置工作进程连接数(worker_co

Spring AI与DeepSeek实战一之快速打造智能对话应用

《SpringAI与DeepSeek实战一之快速打造智能对话应用》本文详细介绍了如何通过SpringAI框架集成DeepSeek大模型,实现普通对话和流式对话功能,步骤包括申请API-KEY、项目搭... 目录一、概述二、申请DeepSeek的API-KEY三、项目搭建3.1. 开发环境要求3.2. mav

Spring Retry 实现乐观锁重试实践记录

《SpringRetry实现乐观锁重试实践记录》本文介绍了在秒杀商品SKU表中使用乐观锁和MybatisPlus配置乐观锁的方法,并分析了测试环境和生产环境的隔离级别对乐观锁的影响,通过简单验证,... 目录一、场景分析 二、简单验证 2.1、可重复读 2.2、读已提交 三、最佳实践 3.1、配置重试模板

在 Spring Boot 中使用异步线程时的 HttpServletRequest 复用问题记录

《在SpringBoot中使用异步线程时的HttpServletRequest复用问题记录》文章讨论了在SpringBoot中使用异步线程时,由于HttpServletRequest复用导致... 目录一、问题描述:异步线程操作导致请求复用时 Cookie 解析失败1. 场景背景2. 问题根源二、问题详细分

Vue项目的甘特图组件之dhtmlx-gantt使用教程和实现效果展示(推荐)

《Vue项目的甘特图组件之dhtmlx-gantt使用教程和实现效果展示(推荐)》文章介绍了如何使用dhtmlx-gantt组件来实现公司的甘特图需求,并提供了一个简单的Vue组件示例,文章还分享了一... 目录一、首先 npm 安装插件二、创建一个vue组件三、业务页面内 引用自定义组件:四、dhtmlx

Python与DeepSeek的深度融合实战

《Python与DeepSeek的深度融合实战》Python作为最受欢迎的编程语言之一,以其简洁易读的语法、丰富的库和广泛的应用场景,成为了无数开发者的首选,而DeepSeek,作为人工智能领域的新星... 目录一、python与DeepSeek的结合优势二、模型训练1. 数据准备2. 模型架构与参数设置3