零基础入门数据挖掘 - 二手车交易价格预测-数据探索

本文主要是介绍零基础入门数据挖掘 - 二手车交易价格预测-数据探索,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

零基础入门数据挖掘 - 二手车交易价格预测-数据探索

  1. 赛题理解

    赛题以二手车市场为背景,要求根据所给的二手车预测二手汽车的交易价格,这是一个典型的回归问题
    
  2. 熟悉数据及评价标准

    一 、赛题数据
    该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。字段表
    Field	Description
    SaleID	交易ID,唯一编码
    name	汽车交易名称,已脱敏
    regDate	汽车注册日期,例如20160101,2016年01月01日
    model	车型编码,已脱敏
    brand	汽车品牌,已脱敏
    bodyType	车身类型:豪华轿车:0,微型车:1,厢型车:2,大巴车:3,敞篷车:4,双门汽车:5,商务车:6,搅拌车:7
    fuelType	燃油类型:汽油:0,柴油:1,液化石油气:2,天然气:3,混合动力:4,其他:5,电动:6
    gearbox	变速箱:手动:0,自动:1
    power	发动机功率:范围 [ 0, 600 ]
    kilometer	汽车已行驶公里,单位万km
    notRepairedDamage	汽车有尚未修复的损坏:是:0,否:1
    regionCode	地区编码,已脱敏
    seller	销售方:个体:0,非个体:1
    offerType	报价类型:提供:0,请求:1
    creatDate	汽车上线时间,即开始售卖时间
    price	二手车交易价格(预测目标)
    v系列特征	匿名特征,包含v0-14在内15个匿名特征二、评测标准
    评价标准为MAE(Mean Absolute Error)。
    enter image description here
    MAE越小,说明模型预测得越准确。三、结果提交
    提交前请确保预测结果的格式与sample_submit.csv中的格式一致,		 以及提交文件后缀名为csv。形式如下:SaleID,price
    150000,687
    150001,1250
    150002,2580
    150003,1178
    
  3. 数据初步描述性探索统计

    针对训练数据做了如下统计:
    (1)总体描述性统计
    (2)检查是否有重复样本
    (3)空值统计
    (4)针对字符型指标-分组统计
    (5)针对数值型指标-描述性统计及正态分布性检验
    (6)针对数值型指标进行异常值检测
    (7)针对全体指标进行共线性检测
    

    具体详情可见:
    二手车价格预测的数据初步统计ipynb的链接

这篇关于零基础入门数据挖掘 - 二手车交易价格预测-数据探索的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/517788

相关文章

Python使用Pandas对比两列数据取最大值的五种方法

《Python使用Pandas对比两列数据取最大值的五种方法》本文主要介绍使用Pandas对比两列数据取最大值的五种方法,包括使用max方法、apply方法结合lambda函数、函数、clip方法、w... 目录引言一、使用max方法二、使用apply方法结合lambda函数三、使用np.maximum函数

pip install jupyterlab失败的原因问题及探索

《pipinstalljupyterlab失败的原因问题及探索》在学习Yolo模型时,尝试安装JupyterLab但遇到错误,错误提示缺少Rust和Cargo编译环境,因为pywinpty包需要它... 目录背景问题解决方案总结背景最近在学习Yolo模型,然后其中要下载jupyter(有点LSVmu像一个

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Redis的数据过期策略和数据淘汰策略

《Redis的数据过期策略和数据淘汰策略》本文主要介绍了Redis的数据过期策略和数据淘汰策略,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录一、数据过期策略1、惰性删除2、定期删除二、数据淘汰策略1、数据淘汰策略概念2、8种数据淘汰策略

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

Python给Excel写入数据的四种方法小结

《Python给Excel写入数据的四种方法小结》本文主要介绍了Python给Excel写入数据的四种方法小结,包含openpyxl库、xlsxwriter库、pandas库和win32com库,具有... 目录1. 使用 openpyxl 库2. 使用 xlsxwriter 库3. 使用 pandas 库

SpringBoot定制JSON响应数据的实现

《SpringBoot定制JSON响应数据的实现》本文主要介绍了SpringBoot定制JSON响应数据的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们... 目录前言一、如何使用@jsonView这个注解?二、应用场景三、实战案例注解方式编程方式总结 前言

使用Python在Excel中创建和取消数据分组

《使用Python在Excel中创建和取消数据分组》Excel中的分组是一种通过添加层级结构将相邻行或列组织在一起的功能,当分组完成后,用户可以通过折叠或展开数据组来简化数据视图,这篇博客将介绍如何使... 目录引言使用工具python在Excel中创建行和列分组Python在Excel中创建嵌套分组Pyt

在Rust中要用Struct和Enum组织数据的原因解析

《在Rust中要用Struct和Enum组织数据的原因解析》在Rust中,Struct和Enum是组织数据的核心工具,Struct用于将相关字段封装为单一实体,便于管理和扩展,Enum用于明确定义所有... 目录为什么在Rust中要用Struct和Enum组织数据?一、使用struct组织数据:将相关字段绑

在Mysql环境下对数据进行增删改查的操作方法

《在Mysql环境下对数据进行增删改查的操作方法》本文介绍了在MySQL环境下对数据进行增删改查的基本操作,包括插入数据、修改数据、删除数据、数据查询(基本查询、连接查询、聚合函数查询、子查询)等,并... 目录一、插入数据:二、修改数据:三、删除数据:1、delete from 表名;2、truncate