零基础入门数据挖掘 - 二手车交易价格预测赛题理解和EDA

本文主要是介绍零基础入门数据挖掘 - 二手车交易价格预测赛题理解和EDA，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

这个是DataWhale在本次数据挖掘竞赛提供的学习思路图。

赛题以预测二手车的交易价格为任务，数据集报名后可见并可下载，该数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B，同时会对name、model、brand和regionCode等信息进行脱敏。

不同的评价指标关注的点不同

赛题理解究竟是理解什么:回归问题，根据二手车的一些特征做预测。有了赛题理解后能做什么:对数据EDA。赛题背景中可能潜在隐藏的条件：数据缺失、漂移，对特征工程中时序分析的处理。

EDA定义：1、理解数据的特征；2、考虑是什么类型的数据：结构化、非结构化等；3、选取重要度特征；

4、找到异常点 5、为问题寻找合适的方法。

绘图方法： 1、画数据的原始图像是否有规律。 2、画数据的统计图(平均图、盒图、残差图)。3、离散图说明特征。

量化方法：1、预测区间估计。2、数值的度量。3、数据分布的类型。

时序图：便于观察数据特点，例如，是否具有周期性，震荡性。

直方图：便于观察数据分布。

密度曲线图：可以理解为概率密度函数。

箱型图：便于查看数据的异常状况，以便不同数据间分布的对比。

相关性分析：1、定类变量：名义型变量；性别。

2、定序变量：不仅分类，还按某种特征排序；两值的差无意义；教育程度。

3、定距变量:可比较大小、差有意义的变量。

	定类	定序	定距
定类	卡方类测量	卡方类测量	Eta系数
定序		Spearman 相关系数同序-异序对测量	Spearman相关系数
定距			Pearson相关系数