天池二手车比赛-EDA

2024-03-20 06:59
文章标签 比赛 eda 二手车 天池

本文主要是介绍天池二手车比赛-EDA,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这是第二次的任务打卡
首先是基本流程:
在这里插入图片描述
借鉴别人的一个思维导图,基本流程比较清楚了。

1. 与官方手册有修改的的地方

import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as st #引入科学计算包,统计类
plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号

在这一部分因为自己绘图的习惯,喜欢一来就负号与中文标签显示进行解决。这两行代码就能实现在所有的图里面进行中文正常显示。

Train_data_1=Train_data.copy()
Train_data_1['price'][Train_data_1['price']>40000]=None
#注意,这是两个[]
Train_data_1.dropna()
plt.figure(2)
plt.hist(Train_data_1['price'],orientation='vertical',histtype='bar',color='red')
Train_data_2=Train_data.copy()
Train_data_2['price'】[Train_data_2['price']>25000]=None
Train_data_2.dropna()
plt.figure(3)plt.hist(Train_data_2['price'],orientation='vertical',histtype='bar',color='blue')

这里因为想在最后结果中,尝试对舍弃不同量的数据对预测结果的影响,所以设立了两个其他变量,一个是去除了40000以上,一个是去除了25000以上

2.这次EDA处理与以往的不同

  • 数据特征比较多
    本次数据特征列有超过15个。这是在以前Kaggle与kesci数据竞赛中没有尝试过的(好像Airbnb那个有?还是纽约事故那个?)
    那么所显出的问题的就是发现自己的describe语句不能显示所有的特征列,无法发现数据分布极端的特征。

  • 学会了多维数据的分布绘图
    这个是之前没想过的。因为之前也没很关注这个点。这也是这次EDA收获最大的地方。

3.对于本次EDA的思考
对于自己而言,之前也跟着其他类似的比赛走过一次。但这次因为要输出文本,所以可能思考的比较多一点。也有助于对学习效率进一步提升。
那么本次的是采用模型进行回归分析。从对自己的数据与论文方向来看,并不是特别契合。自己的主要精力还是要放在对数据处理与转换的过程中。其次,本次数据特征维度比较多,但是数据量显得不够。同时因为时序数据很少,所以在对日期处理与时空转换部分的训练不足。这是接下来自己需要再次提升的方向。可以尝试出租车轨迹数据处理那个比赛。

4.从现有数据分析过程中提取的注意事项

  • 不同特征间的关系
    在这里插入图片描述
    同时对于不同维度的分布情况要学会进一步分析

  • 值得展开学习的部分
    

    faceGrid 多图网络结构化讲解

    第一次写的不好,还需要多多学习!

这篇关于天池二手车比赛-EDA的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/828657

相关文章

c编程:乒乓球比赛,找出谁和谁对打

//两个乒乓球队进行比赛,各出三人。甲队为A,B,C三人,乙队为X,Y,Z三人。已抽签决定//比赛名单,有人向队员打听比赛的名单,A说他不和X比,C说他不和X、Z比,编程找出三对选手的对手名单。?#include<stdio.h>int main(){char i,j,k;//i,j,k分别代表A,B,Cfor(i='X';i<='Z';i++){for(j='X';j<='Z';j++)

ICPC2018 徐州区域赛 比赛报告

ICPC2018 徐州区域赛 比赛报告 Sunder-杜逸闲 关于本比赛 本场比赛于2018.10.28在徐州由中国矿业大学承办,本人所在队伍Sunder – 由杜逸闲,裘家浩,周浩博组成的队伍 – 拿到了14/289金牌。 比赛过程 开场杜逸闲从后往前看,裘家浩从中间开始看,周浩博从前往后看题。 过了20分钟才有人过A题,杜逸闲开始读A题冗长的题面,发现A题是较简单题。 通过A之后有人

ocr比赛的视频分享,基于OCR的身份证要素提取

【2019 CCF BDCI】基于OCR的身份证要素提取——系统之神与我同在队现场答辩_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com/video/BV1sT4y17736?from=search&seid=9018940714428960055正在上传…重新上传取消 DF平台还是有很多学习的资料,推荐一下。

构建多模态模型,生成主机观测指标,欢迎来战丨2024天池云原生编程挑战赛

在当前云计算和微服务架构日益普及的背景下,企业和开发者对云资源的依赖日益加深。Elastic Compute Service(ECS)作为提供计算能力的核心服务,承担着众多的业务。随着微服务架构的广泛应用,任务的部署和执行变得更为灵活和动态,资源的动态伸缩成为常态,能够根据业务需求实时调整,提升资源利用效率和应用的可用性。 在这种动态变化的环境中,如何有效地监控和预测 ECS 主机的性能变化

Kaggle比赛:成人人口收入分类

拿到数据首先查看数据信息和描述   import pandas as pd import seaborn as sns import matplotlib.pyplot as plt # 加载数据(保留原路径,但在实际应用中建议使用相对路径或环境变量) data = pd.read_csv(r"C:\Users\11794\Desktop\收入分类\training.csv", e

基于JSP的二手车交易网站

开头语: 你好呀,我是计算机学长猫哥!如果你对二手车交易网站感兴趣或有相关开发需求,欢迎随时联系我。我的联系方式可以在文末找到。 开发语言:Java 数据库:MySQL 技术:JSP+Java 工具:ECLIPSE、MySQL数据库管理工具、Tomcat 系统展示 首页 用户功能模块 管理员功能模块 前台首页功能模块 摘要 本文利用JSP

【Kaggle量化比赛】Top讨论

问: 惊人的单模型得分,请问您使用了多少个特征来获得如此高的得分?我也在使用LGB模型。 答 235个特征(180个基本特征+滚动特征) 问: 您是在使用Polars进行特征工程还是仅依赖于Pandas+Numba/多进程?即使进行了Numba优化,我也发现当滚动特征过多时,推理速度会非常慢。在Colab T4上使用在线流式评估,完成一个qp需要超过7秒。 答 使用Numba和多进程

处女座的比赛

【题目描述】 经过了训练、资金等多方面的准备,处女座终于可以去比赛了!比赛采用codeforces赛制,也就意味着可以插人。现在有一道字符串的题目,处女座在room里看到一个用hash做的,于是决定把它hack掉。这个人的核心代码如下: const int mod=9983;mul[0]=p;mul[1]=q;mul[2]=r;for (int i=0;i<26;i++)in_dex[i

无人机比赛有哪些?

无人机比赛项目可是多种多样,精彩纷呈呢! 常见的比赛项目包括S形绕桩赛、平台起降赛、应用航拍、投掷物品和定点飞行等。这些项目不仅考验无人机的性能,更考验飞行员的操控技巧。 在S形绕桩赛中,飞行员需要操控无人机快速而准确地穿越一系列障碍物,这需要极高的反应速度和精确度。平台起降赛则更侧重于无人机的稳定性和精确着陆能力。 应用航拍项目则需要飞行员操控无人机进行空中拍摄,考验其空中操作和对拍摄目标

Kaggle-Camera_Model_Identification 比赛记录总结[19/582(Top 4%)]

这篇博客记录自己在这次kaggle比赛中做的工作。成绩:19/582(Top 4%) Kaggle比赛地址 我的代码github地址 这次比赛是给出10个相机拍摄的照片,然后给出测试图片,区分是哪个相机拍摄的。训练集中每类照片数量相同,每类都是由同一个手机拍摄的照片。测试集中,每类的照片都是来自另外一个手机,一半的图片可能被用了八种可能的操作。 总结: 1. 更多的数据。