本文主要是介绍天池二手车比赛-EDA,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
这是第二次的任务打卡
首先是基本流程:
借鉴别人的一个思维导图,基本流程比较清楚了。
1. 与官方手册有修改的的地方
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as st #引入科学计算包,统计类
plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号
在这一部分因为自己绘图的习惯,喜欢一来就负号与中文标签显示进行解决。这两行代码就能实现在所有的图里面进行中文正常显示。
Train_data_1=Train_data.copy()
Train_data_1['price'][Train_data_1['price']>40000]=None
#注意,这是两个[]
Train_data_1.dropna()
plt.figure(2)
plt.hist(Train_data_1['price'],orientation='vertical',histtype='bar',color='red')
Train_data_2=Train_data.copy()
Train_data_2['price'】[Train_data_2['price']>25000]=None
Train_data_2.dropna()
plt.figure(3)plt.hist(Train_data_2['price'],orientation='vertical',histtype='bar',color='blue')
这里因为想在最后结果中,尝试对舍弃不同量的数据对预测结果的影响,所以设立了两个其他变量,一个是去除了40000以上,一个是去除了25000以上
2.这次EDA处理与以往的不同
-
数据特征比较多
本次数据特征列有超过15个。这是在以前Kaggle与kesci数据竞赛中没有尝试过的(好像Airbnb那个有?还是纽约事故那个?)
那么所显出的问题的就是发现自己的describe语句不能显示所有的特征列,无法发现数据分布极端的特征。 -
学会了多维数据的分布绘图
这个是之前没想过的。因为之前也没很关注这个点。这也是这次EDA收获最大的地方。
3.对于本次EDA的思考
对于自己而言,之前也跟着其他类似的比赛走过一次。但这次因为要输出文本,所以可能思考的比较多一点。也有助于对学习效率进一步提升。
那么本次的是采用模型进行回归分析。从对自己的数据与论文方向来看,并不是特别契合。自己的主要精力还是要放在对数据处理与转换的过程中。其次,本次数据特征维度比较多,但是数据量显得不够。同时因为时序数据很少,所以在对日期处理与时空转换部分的训练不足。这是接下来自己需要再次提升的方向。可以尝试出租车轨迹数据处理那个比赛。
4.从现有数据分析过程中提取的注意事项
-
不同特征间的关系
同时对于不同维度的分布情况要学会进一步分析 -
值得展开学习的部分
faceGrid 多图网络结构化讲解
第一次写的不好,还需要多多学习!
这篇关于天池二手车比赛-EDA的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!