零基础入门数据挖掘 - 二手车交易价格预测-数据探索

本文主要是介绍零基础入门数据挖掘 - 二手车交易价格预测-数据探索，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

零基础入门数据挖掘 - 二手车交易价格预测-数据探索

赛题理解

赛题以二手车市场为背景，要求根据所给的二手车预测二手汽车的交易价格，这是一个典型的回归问题

熟悉数据及评价标准

一 、赛题数据
该数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B，同时会对name、model、brand和regionCode等信息进行脱敏。字段表
Field	Description
SaleID	交易ID，唯一编码
name	汽车交易名称，已脱敏
regDate	汽车注册日期，例如20160101，2016年01月01日
model	车型编码，已脱敏
brand	汽车品牌，已脱敏
bodyType	车身类型：豪华轿车：0，微型车：1，厢型车：2，大巴车：3，敞篷车：4，双门汽车：5，商务车：6，搅拌车：7
fuelType	燃油类型：汽油：0，柴油：1，液化石油气：2，天然气：3，混合动力：4，其他：5，电动：6
gearbox	变速箱：手动：0，自动：1
power	发动机功率：范围 [ 0, 600 ]
kilometer	汽车已行驶公里，单位万km
notRepairedDamage	汽车有尚未修复的损坏：是：0，否：1
regionCode	地区编码，已脱敏
seller	销售方：个体：0，非个体：1
offerType	报价类型：提供：0，请求：1
creatDate	汽车上线时间，即开始售卖时间
price	二手车交易价格（预测目标）
v系列特征	匿名特征，包含v0-14在内15个匿名特征二、评测标准
评价标准为MAE(Mean Absolute Error)。
enter image description here
MAE越小，说明模型预测得越准确。三、结果提交
提交前请确保预测结果的格式与sample_submit.csv中的格式一致，		 以及提交文件后缀名为csv。形式如下：SaleID,price
150000,687
150001,1250
150002,2580
150003,1178

数据初步描述性探索统计

针对训练数据做了如下统计：
（1）总体描述性统计
（2）检查是否有重复样本
（3）空值统计
（4）针对字符型指标-分组统计
（5）针对数值型指标-描述性统计及正态分布性检验
（6）针对数值型指标进行异常值检测
（7）针对全体指标进行共线性检测

具体详情可见：
二手车价格预测的数据初步统计ipynb的链接

这篇关于零基础入门数据挖掘 - 二手车交易价格预测-数据探索的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

零基础入门数据挖掘 - 二手车交易价格预测-数据探索

零基础入门数据挖掘 - 二手车交易价格预测-数据探索

相关文章

Pandas统计每行数据中的空值的方法示例

如何使用 Python 读取 Excel 数据

Spring 请求之传递 JSON 数据的操作方法

C++如何通过Qt反射机制实现数据类序列化

SpringBoot使用GZIP压缩反回数据问题

Android Mainline基础简介

SpringBoot集成Milvus实现数据增删改查功能

SpringValidation数据校验之约束注解与分组校验方式

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

SpringBatch数据写入实现