零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA

本文主要是介绍零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这个是DataWhale在本次数据挖掘竞赛提供的学习思路图。

赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。

 

 不同的评价指标关注的点不同

赛题理解究竟是理解什么:回归问题,根据二手车的一些特征做预测。有了赛题理解后能做什么:对数据EDA。赛题背景中可能潜在隐藏的条件:数据缺失、漂移,对特征工程中时序分析的处理。

EDA定义:1、理解数据的特征;2、考虑是什么类型的数据:结构化、非结构化等;3、选取重要度特征;

4、找到异常点 5、为问题寻找合适的方法。

绘图方法: 1、画数据的原始图像是否有规律。 2、画数据的统计图(平均图、盒图、残差图)。3、离散图说明特征。

 量化方法:1、预测区间估计。2、数值的度量。3、数据分布的类型。

时序图:便于观察数据特点,例如,是否具有周期性,震荡性。

直方图:便于观察数据分布。

密度曲线图:可以理解为概率密度函数。

箱型图:便于查看数据的异常状况,以便不同数据间分布的对比。

相关性分析:1、定类变量:名义型变量;性别  。

2、定序变量:不仅分类,还按某种特征排序;两值的差无意义;教育程度 。

3、定距变量:可比较大小、差有意义的变量。           

 定类定序定距
定类卡方类测量卡方类测量Eta系数
定序 

Spearman 相关系数

同序-异序对测量

Spearman相关系数
定距  Pearson相关系数

 

代码实战:

数据概览:1、describe种有每列的统计量,个数count、平均值mean、方差std、最小值min、中位数25%50%75%

以及最大值。2、info通过info来了解数据每列的type,有助于了解

是否存在处理Nan以外的特殊符号异常。

判断缺失与异常:1、使用is_null函数查看缺失 2、使用value_count函数查看数据情况。

绘制数据分布:

统计数值变量相关性热力图:

绘制特征之间的关系图:数字特征相互之间的关系可视化

绘制类别分布图

 

这篇关于零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/181046

相关文章

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

深入理解Apache Airflow 调度器(最新推荐)

《深入理解ApacheAirflow调度器(最新推荐)》ApacheAirflow调度器是数据管道管理系统的关键组件,负责编排dag中任务的执行,通过理解调度器的角色和工作方式,正确配置调度器,并... 目录什么是Airflow 调度器?Airflow 调度器工作机制配置Airflow调度器调优及优化建议最

一文带你理解Python中import机制与importlib的妙用

《一文带你理解Python中import机制与importlib的妙用》在Python编程的世界里,import语句是开发者最常用的工具之一,它就像一把钥匙,打开了通往各种功能和库的大门,下面就跟随小... 目录一、python import机制概述1.1 import语句的基本用法1.2 模块缓存机制1.

深入理解C语言的void*

《深入理解C语言的void*》本文主要介绍了C语言的void*,包括它的任意性、编译器对void*的类型检查以及需要显式类型转换的规则,具有一定的参考价值,感兴趣的可以了解一下... 目录一、void* 的类型任意性二、编译器对 void* 的类型检查三、需要显式类型转换占用的字节四、总结一、void* 的

深入理解Redis大key的危害及解决方案

《深入理解Redis大key的危害及解决方案》本文主要介绍了深入理解Redis大key的危害及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着... 目录一、背景二、什么是大key三、大key评价标准四、大key 产生的原因与场景五、大key影响与危

MySQL中my.ini文件的基础配置和优化配置方式

《MySQL中my.ini文件的基础配置和优化配置方式》文章讨论了数据库异步同步的优化思路,包括三个主要方面:幂等性、时序和延迟,作者还分享了MySQL配置文件的优化经验,并鼓励读者提供支持... 目录mysql my.ini文件的配置和优化配置优化思路MySQL配置文件优化总结MySQL my.ini文件

深入理解C++ 空类大小

《深入理解C++空类大小》本文主要介绍了C++空类大小,规定空类大小为1字节,主要是为了保证对象的唯一性和可区分性,满足数组元素地址连续的要求,下面就来了解一下... 目录1. 保证对象的唯一性和可区分性2. 满足数组元素地址连续的要求3. 与C++的对象模型和内存管理机制相适配查看类对象内存在C++中,规

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]