零基础入门数据挖掘 - 二手车交易价格预测-数据探索

本文主要是介绍零基础入门数据挖掘 - 二手车交易价格预测-数据探索,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

零基础入门数据挖掘 - 二手车交易价格预测-数据探索

  1. 赛题理解

    赛题以二手车市场为背景,要求根据所给的二手车预测二手汽车的交易价格,这是一个典型的回归问题
    
  2. 熟悉数据及评价标准

    一 、赛题数据
    该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。字段表
    Field	Description
    SaleID	交易ID,唯一编码
    name	汽车交易名称,已脱敏
    regDate	汽车注册日期,例如20160101,2016年01月01日
    model	车型编码,已脱敏
    brand	汽车品牌,已脱敏
    bodyType	车身类型:豪华轿车:0,微型车:1,厢型车:2,大巴车:3,敞篷车:4,双门汽车:5,商务车:6,搅拌车:7
    fuelType	燃油类型:汽油:0,柴油:1,液化石油气:2,天然气:3,混合动力:4,其他:5,电动:6
    gearbox	变速箱:手动:0,自动:1
    power	发动机功率:范围 [ 0, 600 ]
    kilometer	汽车已行驶公里,单位万km
    notRepairedDamage	汽车有尚未修复的损坏:是:0,否:1
    regionCode	地区编码,已脱敏
    seller	销售方:个体:0,非个体:1
    offerType	报价类型:提供:0,请求:1
    creatDate	汽车上线时间,即开始售卖时间
    price	二手车交易价格(预测目标)
    v系列特征	匿名特征,包含v0-14在内15个匿名特征二、评测标准
    评价标准为MAE(Mean Absolute Error)。
    enter image description here
    MAE越小,说明模型预测得越准确。三、结果提交
    提交前请确保预测结果的格式与sample_submit.csv中的格式一致,		 以及提交文件后缀名为csv。形式如下:SaleID,price
    150000,687
    150001,1250
    150002,2580
    150003,1178
    
  3. 数据初步描述性探索统计

    针对训练数据做了如下统计:
    (1)总体描述性统计
    (2)检查是否有重复样本
    (3)空值统计
    (4)针对字符型指标-分组统计
    (5)针对数值型指标-描述性统计及正态分布性检验
    (6)针对数值型指标进行异常值检测
    (7)针对全体指标进行共线性检测
    

    具体详情可见:
    二手车价格预测的数据初步统计ipynb的链接

这篇关于零基础入门数据挖掘 - 二手车交易价格预测-数据探索的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/517788

相关文章

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》:本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么,可以干什么?3、Spr

Android Mainline基础简介

《AndroidMainline基础简介》AndroidMainline是通过模块化更新Android核心组件的框架,可能提高安全性,本文给大家介绍AndroidMainline基础简介,感兴趣的朋... 目录关键要点什么是 android Mainline?Android Mainline 的工作原理关键

SpringBoot集成Milvus实现数据增删改查功能

《SpringBoot集成Milvus实现数据增删改查功能》milvus支持的语言比较多,支持python,Java,Go,node等开发语言,本文主要介绍如何使用Java语言,采用springboo... 目录1、Milvus基本概念2、添加maven依赖3、配置yml文件4、创建MilvusClient

SpringValidation数据校验之约束注解与分组校验方式

《SpringValidation数据校验之约束注解与分组校验方式》本文将深入探讨SpringValidation的核心功能,帮助开发者掌握约束注解的使用技巧和分组校验的高级应用,从而构建更加健壮和可... 目录引言一、Spring Validation基础架构1.1 jsR-380标准与Spring整合1

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

《MySQL中查询VARCHAR类型JSON数据的问题记录》在数据库设计中,有时我们会将JSON数据存储在VARCHAR或TEXT类型字段中,本文将详细介绍如何在MySQL中有效查询存储为V... 目录一、问题背景二、mysql jsON 函数2.1 常用 JSON 函数三、查询示例3.1 基本查询3.2

SpringBatch数据写入实现

《SpringBatch数据写入实现》SpringBatch通过ItemWriter接口及其丰富的实现,提供了强大的数据写入能力,本文主要介绍了SpringBatch数据写入实现,具有一定的参考价值,... 目录python引言一、ItemWriter核心概念二、数据库写入实现三、文件写入实现四、多目标写入