本文主要是介绍Datawhale打卡活动 Kaggle Spaceship Titanic Day2,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
- Datawhale打卡活动 Kaggle Spaceship Titanic
- Day 2 比赛数据分析
- 步骤1:使用pandas完成如下数据分析
- 训练集和测试集的行数分别是多少?
- 训练集中每列的类型是什么?
- 训练集中标签是如何分布,与哪一个特征最相关?
- 训练集中列缺失值如何分布的?
- 步骤2:使用seaborn或matplotlib完成如下可视化
- HomePlanet 与 Transported 的分布关系
- CryoSleep 与 Transported 的分布关系
- Cabin 与 Transported 的分布关系
- Destination 与 Transported 的分布关系
- Age 与 Transported 的分布关系
- VIP 与 Transported 的分布关系
- RoomService、FoodCourt、ShoppingMall、Spa、VRDeck 与 Transported 的分布关系
- Name 与 Transported 的分布关系
- 步骤3:根据上述分析结果,你找出什么规律,如什么类型的乘客更加容易被Transported?
Datawhale打卡活动 Kaggle Spaceship Titanic
尝试了一个coggle科学的打卡活动(Coggle 30 Days of ML(22年10月)),记录一下学习过程!
Day 2 比赛数据分析
步骤1:使用pandas完成如下数据分析
训练集和测试集的行数分别是多少?
通过.shape函数查看训练集和测试集的大概情况。
可以发现:在训练集中,数据有8693行、14列;在测试集中,数据有4277行,13列(没有label)。
训练集中每列的类型是什么?
通过info函数查看训练集中的类型以及缺失值情况。
可以看到,在训练集中Dtype为float64的有:Age、RoomService、FoodCourt、ShoppingMall、Spa、VRDeck;为object类型的有:PassengerId、HomePlanet、CryoSleep、Cabin、Destination、VIP、Name。然后label(也就是Transported)属于布尔类型。
训练集中标签是如何分布,与哪一个特征最相关?
通过对Transported列使用value_counts()函数,可以看出正负标签的占比约为1:1
对于数据的相关性分析,可以参考数据特征分析·相关性分析 - 知乎 (zhihu.com)
对原数据集直接绘图可以发现,绘制出的图像只包含了数据集中类型为数值的相关列。
并不包含所有列,这肯定不是我们希望看到的,所以我们对不是数值的属性作labelencoder,将其转化为数值,然后再进行绘图。
可以看出,Transported(label)与CryoSleep的相关性最高(也就是最相关)!
训练集中列缺失值如何分布的?
通过前面的info函数已经可以对缺失值有一个大概的认知,接下来通过.isna().sum()来查看各列具体的缺失值情况。
可以看出,总体缺失值较少,其中缺失值最多的那一列为ShoppingMall。
步骤2:使用seaborn或matplotlib完成如下可视化
这里查看两列的分布关系,我们使用了kde分布图(下面的每一个都是,代码在第一个作展示,后面只展示图),使用displot(结合了kde和hist)。
HomePlanet 与 Transported 的分布关系
CryoSleep 与 Transported 的分布关系
Cabin 与 Transported 的分布关系
Destination 与 Transported 的分布关系
Age 与 Transported 的分布关系
VIP 与 Transported 的分布关系
RoomService、FoodCourt、ShoppingMall、Spa、VRDeck 与 Transported 的分布关系
这一段,首先是将各个属性进行labelencoder之后再进行上述操作,画出二者的分布关系,由于每个图的情况均跟如下显示的差不多,所以不过多放图(这一步骤笔者不知道是没有理解到含义还是啥,如有错误,希望有前辈能够指出相应的错误,以及提点该如何做。)
Name 与 Transported 的分布关系
步骤3:根据上述分析结果,你找出什么规律,如什么类型的乘客更加容易被Transported?
通过对训练集中特征的分布以及相关性分析之后,可以发现,标签与CryoSleep的相关性最高(也就是最相关)。也就是说指示乘客选择在航行期间进入假死状态更容易被Transported。
练集中特征的分布以及相关性分析之后,可以发现,标签与CryoSleep的相关性最高(也就是最相关)。也就是说指示乘客选择在航行期间进入假死状态更容易被Transported。
【注】:以上便是对数据的初步分析,如有错处,烦请批评指正,谢谢!
这篇关于Datawhale打卡活动 Kaggle Spaceship Titanic Day2的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!