零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA

本文主要是介绍零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这个是DataWhale在本次数据挖掘竞赛提供的学习思路图。

赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。

 

 不同的评价指标关注的点不同

赛题理解究竟是理解什么:回归问题,根据二手车的一些特征做预测。有了赛题理解后能做什么:对数据EDA。赛题背景中可能潜在隐藏的条件:数据缺失、漂移,对特征工程中时序分析的处理。

EDA定义:1、理解数据的特征;2、考虑是什么类型的数据:结构化、非结构化等;3、选取重要度特征;

4、找到异常点 5、为问题寻找合适的方法。

绘图方法: 1、画数据的原始图像是否有规律。 2、画数据的统计图(平均图、盒图、残差图)。3、离散图说明特征。

 量化方法:1、预测区间估计。2、数值的度量。3、数据分布的类型。

时序图:便于观察数据特点,例如,是否具有周期性,震荡性。

直方图:便于观察数据分布。

密度曲线图:可以理解为概率密度函数。

箱型图:便于查看数据的异常状况,以便不同数据间分布的对比。

相关性分析:1、定类变量:名义型变量;性别  。

2、定序变量:不仅分类,还按某种特征排序;两值的差无意义;教育程度 。

3、定距变量:可比较大小、差有意义的变量。           

 定类定序定距
定类卡方类测量卡方类测量Eta系数
定序 

Spearman 相关系数

同序-异序对测量

Spearman相关系数
定距  Pearson相关系数

 

代码实战:

数据概览:1、describe种有每列的统计量,个数count、平均值mean、方差std、最小值min、中位数25%50%75%

以及最大值。2、info通过info来了解数据每列的type,有助于了解

是否存在处理Nan以外的特殊符号异常。

判断缺失与异常:1、使用is_null函数查看缺失 2、使用value_count函数查看数据情况。

绘制数据分布:

统计数值变量相关性热力图:

绘制特征之间的关系图:数字特征相互之间的关系可视化

绘制类别分布图

 

这篇关于零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/181046

相关文章

Java利用Spire.Doc for Java实现在模板的基础上创建Word文档

《Java利用Spire.DocforJava实现在模板的基础上创建Word文档》在日常开发中,我们经常需要根据特定数据动态生成Word文档,本文将深入探讨如何利用强大的Java库Spire.Do... 目录1. Spire.Doc for Java 库介绍与安装特点与优势Maven 依赖配置2. 通过替换

SpringCloud Stream 快速入门实例教程

《SpringCloudStream快速入门实例教程》本文介绍了SpringCloudStream(SCS)组件在分布式系统中的作用,以及如何集成到SpringBoot项目中,通过SCS,可... 目录1.SCS 组件的出现的背景和作用2.SCS 集成srping Boot项目3.Yml 配置4.Sprin

JavaScript装饰器从基础到实战教程

《JavaScript装饰器从基础到实战教程》装饰器是js中一种声明式语法特性,用于在不修改原始代码的情况下,动态扩展类、方法、属性或参数的行为,本文将从基础概念入手,逐步讲解装饰器的类型、用法、进阶... 目录一、装饰器基础概念1.1 什么是装饰器?1.2 装饰器的语法1.3 装饰器的执行时机二、装饰器的

Java JAR 启动内存参数配置指南(从基础设置到性能优化)

《JavaJAR启动内存参数配置指南(从基础设置到性能优化)》在启动Java可执行JAR文件时,合理配置JVM内存参数是保障应用稳定性和性能的关键,本文将系统讲解如何通过命令行参数、环境变量等方式... 目录一、核心内存参数详解1.1 堆内存配置1.2 元空间配置(MetASPace)1.3 线程栈配置1.

GO语言zap日志库理解和使用方法示例

《GO语言zap日志库理解和使用方法示例》Zap是一个高性能、结构化日志库,专为Go语言设计,它由Uber开源,并且在Go社区中非常受欢迎,:本文主要介绍GO语言zap日志库理解和使用方法的相关资... 目录1. zap日志库介绍2.安装zap库3.配置日志记录器3.1 Logger3.2 Sugared

深入理解Redis线程模型的原理及使用

《深入理解Redis线程模型的原理及使用》Redis的线程模型整体还是多线程的,只是后台执行指令的核心线程是单线程的,整个线程模型可以理解为还是以单线程为主,基于这种单线程为主的线程模型,不同客户端的... 目录1 Redis是单线程www.chinasem.cn还是多线程2 Redis如何保证指令原子性2.

深入理解MySQL流模式

《深入理解MySQL流模式》MySQL的Binlog流模式是一种实时读取二进制日志的技术,允许下游系统几乎无延迟地获取数据库变更事件,适用于需要极低延迟复制的场景,感兴趣的可以了解一下... 目录核心概念一句话总结1. 背景知识:什么是 Binlog?2. 传统方式 vs. 流模式传统文件方式 (非流式)流

深入理解Go之==的使用

《深入理解Go之==的使用》本文主要介绍了深入理解Go之==的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录概述类型基本类型复合类型引用类型接口类型使用type定义的类型不可比较性谈谈map总结概述相信==判等操作,大

SpringMVC配置、映射与参数处理​入门案例详解

《SpringMVC配置、映射与参数处理​入门案例详解》文章介绍了SpringMVC框架的基本概念和使用方法,包括如何配置和编写Controller、设置请求映射规则、使用RestFul风格、获取请求... 目录1.SpringMVC概述2.入门案例①导入相关依赖②配置web.XML③配置SpringMVC

MySQL索引踩坑合集从入门到精通

《MySQL索引踩坑合集从入门到精通》本文详细介绍了MySQL索引的使用,包括索引的类型、创建、使用、优化技巧及最佳实践,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友... 目录mysql索引完整教程:从入门到入土(附实战踩坑指南)一、索引是什么?为什么需要它?1.1 什么