天池二手车比赛-EDA

本文主要是介绍天池二手车比赛-EDA，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

这是第二次的任务打卡
首先是基本流程：
在这里插入图片描述
借鉴别人的一个思维导图，基本流程比较清楚了。

1. 与官方手册有修改的的地方

import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as st #引入科学计算包，统计类
plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号

在这一部分因为自己绘图的习惯，喜欢一来就负号与中文标签显示进行解决。这两行代码就能实现在所有的图里面进行中文正常显示。

Train_data_1=Train_data.copy()
Train_data_1['price'][Train_data_1['price']>40000]=None
#注意，这是两个[]
Train_data_1.dropna()
plt.figure(2)
plt.hist(Train_data_1['price'],orientation='vertical',histtype='bar',color='red')
Train_data_2=Train_data.copy()
Train_data_2['price'】[Train_data_2['price']>25000]=None
Train_data_2.dropna()
plt.figure(3)plt.hist(Train_data_2['price'],orientation='vertical',histtype='bar',color='blue')

这里因为想在最后结果中，尝试对舍弃不同量的数据对预测结果的影响，所以设立了两个其他变量，一个是去除了40000以上，一个是去除了25000以上

2.这次EDA处理与以往的不同

数据特征比较多
本次数据特征列有超过15个。这是在以前Kaggle与kesci数据竞赛中没有尝试过的（好像Airbnb那个有？还是纽约事故那个？）
那么所显出的问题的就是发现自己的describe语句不能显示所有的特征列，无法发现数据分布极端的特征。
学会了多维数据的分布绘图
这个是之前没想过的。因为之前也没很关注这个点。这也是这次EDA收获最大的地方。

3.对于本次EDA的思考
对于自己而言，之前也跟着其他类似的比赛走过一次。但这次因为要输出文本，所以可能思考的比较多一点。也有助于对学习效率进一步提升。
那么本次的是采用模型进行回归分析。从对自己的数据与论文方向来看，并不是特别契合。自己的主要精力还是要放在对数据处理与转换的过程中。其次，本次数据特征维度比较多，但是数据量显得不够。同时因为时序数据很少，所以在对日期处理与时空转换部分的训练不足。这是接下来自己需要再次提升的方向。可以尝试出租车轨迹数据处理那个比赛。

4.从现有数据分析过程中提取的注意事项