零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA

本文主要是介绍零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这个是DataWhale在本次数据挖掘竞赛提供的学习思路图。

赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。

 

 不同的评价指标关注的点不同

赛题理解究竟是理解什么:回归问题,根据二手车的一些特征做预测。有了赛题理解后能做什么:对数据EDA。赛题背景中可能潜在隐藏的条件:数据缺失、漂移,对特征工程中时序分析的处理。

EDA定义:1、理解数据的特征;2、考虑是什么类型的数据:结构化、非结构化等;3、选取重要度特征;

4、找到异常点 5、为问题寻找合适的方法。

绘图方法: 1、画数据的原始图像是否有规律。 2、画数据的统计图(平均图、盒图、残差图)。3、离散图说明特征。

 量化方法:1、预测区间估计。2、数值的度量。3、数据分布的类型。

时序图:便于观察数据特点,例如,是否具有周期性,震荡性。

直方图:便于观察数据分布。

密度曲线图:可以理解为概率密度函数。

箱型图:便于查看数据的异常状况,以便不同数据间分布的对比。

相关性分析:1、定类变量:名义型变量;性别  。

2、定序变量:不仅分类,还按某种特征排序;两值的差无意义;教育程度 。

3、定距变量:可比较大小、差有意义的变量。           

 定类定序定距
定类卡方类测量卡方类测量Eta系数
定序 

Spearman 相关系数

同序-异序对测量

Spearman相关系数
定距  Pearson相关系数

 

代码实战:

数据概览:1、describe种有每列的统计量,个数count、平均值mean、方差std、最小值min、中位数25%50%75%

以及最大值。2、info通过info来了解数据每列的type,有助于了解

是否存在处理Nan以外的特殊符号异常。

判断缺失与异常:1、使用is_null函数查看缺失 2、使用value_count函数查看数据情况。

绘制数据分布:

统计数值变量相关性热力图:

绘制特征之间的关系图:数字特征相互之间的关系可视化

绘制类别分布图

 

这篇关于零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/181046

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

数论入门整理(updating)

一、gcd lcm 基础中的基础,一般用来处理计算第一步什么的,分数化简之类。 LL gcd(LL a, LL b) { return b ? gcd(b, a % b) : a; } <pre name="code" class="cpp">LL lcm(LL a, LL b){LL c = gcd(a, b);return a / c * b;} 例题:

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

【IPV6从入门到起飞】5-1 IPV6+Home Assistant(搭建基本环境)

【IPV6从入门到起飞】5-1 IPV6+Home Assistant #搭建基本环境 1 背景2 docker下载 hass3 创建容器4 浏览器访问 hass5 手机APP远程访问hass6 更多玩法 1 背景 既然电脑可以IPV6入站,手机流量可以访问IPV6网络的服务,为什么不在电脑搭建Home Assistant(hass),来控制你的设备呢?@智能家居 @万物互联

poj 2104 and hdu 2665 划分树模板入门题

题意: 给一个数组n(1e5)个数,给一个范围(fr, to, k),求这个范围中第k大的数。 解析: 划分树入门。 bing神的模板。 坑爹的地方是把-l 看成了-1........ 一直re。 代码: poj 2104: #include <iostream>#include <cstdio>#include <cstdlib>#include <al

【C++高阶】C++类型转换全攻略:深入理解并高效应用

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C++ “ 登神长阶 ” 🤡往期回顾🤡:C++ 智能指针 🌹🌹期待您的关注 🌹🌹 ❀C++的类型转换 📒1. C语言中的类型转换📚2. C++强制类型转换⛰️static_cast🌞reinterpret_cast⭐const_cast🍁dynamic_cast 📜3. C++强制类型转换的原因📝

MySQL-CRUD入门1

文章目录 认识配置文件client节点mysql节点mysqld节点 数据的添加(Create)添加一行数据添加多行数据两种添加数据的效率对比 数据的查询(Retrieve)全列查询指定列查询查询中带有表达式关于字面量关于as重命名 临时表引入distinct去重order by 排序关于NULL 认识配置文件 在我们的MySQL服务安装好了之后, 会有一个配置文件, 也就