天池二手车比赛-EDA

2024-03-20 06:59
文章标签 比赛 eda 二手车 天池

本文主要是介绍天池二手车比赛-EDA,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这是第二次的任务打卡
首先是基本流程:
在这里插入图片描述
借鉴别人的一个思维导图,基本流程比较清楚了。

1. 与官方手册有修改的的地方

import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as st #引入科学计算包,统计类
plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号

在这一部分因为自己绘图的习惯,喜欢一来就负号与中文标签显示进行解决。这两行代码就能实现在所有的图里面进行中文正常显示。

Train_data_1=Train_data.copy()
Train_data_1['price'][Train_data_1['price']>40000]=None
#注意,这是两个[]
Train_data_1.dropna()
plt.figure(2)
plt.hist(Train_data_1['price'],orientation='vertical',histtype='bar',color='red')
Train_data_2=Train_data.copy()
Train_data_2['price'】[Train_data_2['price']>25000]=None
Train_data_2.dropna()
plt.figure(3)plt.hist(Train_data_2['price'],orientation='vertical',histtype='bar',color='blue')

这里因为想在最后结果中,尝试对舍弃不同量的数据对预测结果的影响,所以设立了两个其他变量,一个是去除了40000以上,一个是去除了25000以上

2.这次EDA处理与以往的不同

  • 数据特征比较多
    本次数据特征列有超过15个。这是在以前Kaggle与kesci数据竞赛中没有尝试过的(好像Airbnb那个有?还是纽约事故那个?)
    那么所显出的问题的就是发现自己的describe语句不能显示所有的特征列,无法发现数据分布极端的特征。

  • 学会了多维数据的分布绘图
    这个是之前没想过的。因为之前也没很关注这个点。这也是这次EDA收获最大的地方。

3.对于本次EDA的思考
对于自己而言,之前也跟着其他类似的比赛走过一次。但这次因为要输出文本,所以可能思考的比较多一点。也有助于对学习效率进一步提升。
那么本次的是采用模型进行回归分析。从对自己的数据与论文方向来看,并不是特别契合。自己的主要精力还是要放在对数据处理与转换的过程中。其次,本次数据特征维度比较多,但是数据量显得不够。同时因为时序数据很少,所以在对日期处理与时空转换部分的训练不足。这是接下来自己需要再次提升的方向。可以尝试出租车轨迹数据处理那个比赛。

4.从现有数据分析过程中提取的注意事项

  • 不同特征间的关系
    在这里插入图片描述
    同时对于不同维度的分布情况要学会进一步分析

  • 值得展开学习的部分
    

    faceGrid 多图网络结构化讲解

    第一次写的不好,还需要多多学习!

这篇关于天池二手车比赛-EDA的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/828657

相关文章

我们依旧在追梦的路上-山东省第六届ACM比赛总结

这场比赛从结果而言达到了预期(金牌),从过程而言和我的预期相差甚远(打的太乱,个人发挥很差),还好关键时刻队友抗住压力,负责后果真的不堪设想。 热身赛 热身赛纯粹测机器的,先把A,B,C草草水过(A题小写x打成大写的也是醉了),我和老高开始各种测机器,long long不出所料是lld的,试了一下除0和数组越界的re问题,发现没有re,只有wa(甚至数组越界还AC了),至于栈深的话也没过多追

ACM比赛中如何加速c++的输入输出?如何使cin速度与scanf速度相当?什么是最快的输入输出方法?

在竞赛中,遇到大数据时,往往读文件成了程序运行速度的瓶颈,需要更快的读取方式。相信几乎所有的C++学习者都在cin机器缓慢的速度上栽过跟头,于是从此以后发誓不用cin读数据。还有人说Pascal的read语句的速度是C/C++中scanf比不上的,C++选手只能干着急。难道C++真的低Pascal一等吗?答案是不言而喻的。一个进阶的方法是把数据一下子读进来,然后再转化字符串,这种方法传说中

结合Python与GUI实现比赛预测与游戏数据分析

在现代软件开发中,用户界面设计和数据处理紧密结合,以提升用户体验和功能性。本篇博客将基于Python代码和相关数据分析进行讨论,尤其是如何通过PyQt5等图形界面库实现交互式功能。同时,我们将探讨如何通过嵌入式预测模型为用户提供赛果预测服务。 本文的主要内容包括: 基于PyQt5的图形用户界面设计。结合数据进行比赛预测。文件处理和数据分析流程。 1. PyQt5 图形用户界面设计

保研 比赛 利器: 用AI比赛助手降维打击数学建模

数学建模作为一个热门但又具有挑战性的赛道,在保研、学分加分、简历增色等方面具有独特优势。近年来,随着AI技术的发展,特别是像GPT-4模型的应用,数学建模的比赛变得不再那么“艰深”。通过利用AI比赛助手,不仅可以大大提升团队效率,还能有效提高比赛获奖几率。本文将详细介绍如何通过AI比赛助手完成数学建模比赛,并结合实例展示其强大功能。 一、AI比赛助手的引入 1. 什么是AI比赛助手? AI比

Kaggle刷比赛的利器,LR,LGBM,XGBoost,Keras

刷比赛利器,感谢分享的人。 摘要 最近打各种比赛,在这里分享一些General Model,稍微改改就能用的 环境: python 3.5.2 XGBoost调参大全: http://blog.csdn.net/han_xiaoyang/article/details/52665396 XGBoost 官方API: http://xgboost.readthedocs.io/en

【HDU】1285 确定比赛名次 拓扑排序

确定比赛名次 Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 10963    Accepted Submission(s): 4374 Problem Description 有N个比赛队(1<=N<=500),

“立创EDA专业版”笔记

目录 二、立创EDA专业版 2.0 整体功能 2.0.1 快捷键 2.1 右侧功能栏 2.1.1 过滤 2.2 PCB设计 2.2.1 切换亮度 2.2.2 偏移 2.2.3 单位切换 2.2.4 检查DRC 2.2.5 重新铺铜 2.2.6 布线 2.2.7 锁定 2.2.8 “过滤”设置锁定 2.3 上方菜单栏 2.3.1 保存文件 2.4 元件库

第八届湘潭大学程序设计比赛A题

A Love Letter Accepted : 33 Submit : 66Time Limit : 1000 MS Memory Limit : 65536 KB  题目描述   CodeMonkey终于下定决心用情书的方式向心爱的女神表白,当他历经几天几夜写完之后才知道女神有很多不喜欢的词,所以他不得不有把这些词删掉。例如:原文是:ILOVEYOU,女神不喜欢的词是‘LV’

天池-OppO-OGeek比赛总结

赛题资源 题目链接 数据链接 我的代码 这份代码是复赛的代码,写的比较规范些,也添加了一些注释。因为实在阿里云的平台上运行的,所有有些地方会报错,不能直接运行。最主要的问题应该是输入数据的路径不对,改成对应的路径即可。 赛题描述及分析 在搜索业务下有一个场景叫实时搜索(Instance Search),就是在用户不断输入过程中,实时返回查询结果。赛题的数据如下: 字段说明数据示例pr

二手车交易App开发前景分析

随着移动互联网的迅猛发展,二手车交易市场正逐步向数字化、智能化转型。二手车交易App作为这一转型的重要载体,其开发前景显得尤为广阔。本文将从市场需求、技术支撑、政策支持及未来趋势等方面,对二手车交易App的开发前景进行深入分析。 市场需求持续增长 近年来,随着人们消费观念的转变和汽车保有量的不断增加,二手车市场迎来了前所未有的发展机遇。一方面,消费者对于性价比高的二手车需求日益增长;另一方