Datawhale打卡活动 Kaggle Spaceship Titanic Day2

2023-11-07 14:10

本文主要是介绍Datawhale打卡活动 Kaggle Spaceship Titanic Day2,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • Datawhale打卡活动 Kaggle Spaceship Titanic
    • Day 2 比赛数据分析
      • 步骤1:使用pandas完成如下数据分析
        • 训练集和测试集的行数分别是多少?
        • 训练集中每列的类型是什么?
        • 训练集中标签是如何分布,与哪一个特征最相关?
        • 训练集中列缺失值如何分布的?
      • 步骤2:使用seaborn或matplotlib完成如下可视化
        • HomePlanet 与 Transported 的分布关系
        • CryoSleep 与 Transported 的分布关系
        • Cabin 与 Transported 的分布关系
        • Destination 与 Transported 的分布关系
        • Age 与 Transported 的分布关系
        • VIP 与 Transported 的分布关系
        • RoomService、FoodCourt、ShoppingMall、Spa、VRDeck 与 Transported 的分布关系
        • Name 与 Transported 的分布关系
      • 步骤3:根据上述分析结果,你找出什么规律,如什么类型的乘客更加容易被Transported?

Datawhale打卡活动 Kaggle Spaceship Titanic

尝试了一个coggle科学的打卡活动(Coggle 30 Days of ML(22年10月)),记录一下学习过程!

Day 2 比赛数据分析

步骤1:使用pandas完成如下数据分析

训练集和测试集的行数分别是多少?

通过.shape函数查看训练集和测试集的大概情况。
在这里插入图片描述

可以发现:在训练集中,数据有8693行、14列;在测试集中,数据有4277行,13列(没有label)。

训练集中每列的类型是什么?

通过info函数查看训练集中的类型以及缺失值情况。

在这里插入图片描述

可以看到,在训练集中Dtype为float64的有:Age、RoomService、FoodCourt、ShoppingMall、Spa、VRDeck;为object类型的有:PassengerId、HomePlanet、CryoSleep、Cabin、Destination、VIP、Name。然后label(也就是Transported)属于布尔类型。

训练集中标签是如何分布,与哪一个特征最相关?

通过对Transported列使用value_counts()函数,可以看出正负标签的占比约为1:1
在这里插入图片描述

对于数据的相关性分析,可以参考数据特征分析·相关性分析 - 知乎 (zhihu.com)

对原数据集直接绘图可以发现,绘制出的图像只包含了数据集中类型为数值的相关列。

在这里插入图片描述

并不包含所有列,这肯定不是我们希望看到的,所以我们对不是数值的属性作labelencoder,将其转化为数值,然后再进行绘图。
在这里插入图片描述

可以看出,Transported(label)与CryoSleep的相关性最高(也就是最相关)!

训练集中列缺失值如何分布的?

通过前面的info函数已经可以对缺失值有一个大概的认知,接下来通过.isna().sum()来查看各列具体的缺失值情况。

可以看出,总体缺失值较少,其中缺失值最多的那一列为ShoppingMall。

步骤2:使用seaborn或matplotlib完成如下可视化

这里查看两列的分布关系,我们使用了kde分布图(下面的每一个都是,代码在第一个作展示,后面只展示图),使用displot(结合了kde和hist)。

HomePlanet 与 Transported 的分布关系

在这里插入图片描述

CryoSleep 与 Transported 的分布关系

在这里插入图片描述

Cabin 与 Transported 的分布关系

在这里插入图片描述

Destination 与 Transported 的分布关系

在这里插入图片描述

Age 与 Transported 的分布关系

在这里插入图片描述

VIP 与 Transported 的分布关系

在这里插入图片描述

RoomService、FoodCourt、ShoppingMall、Spa、VRDeck 与 Transported 的分布关系

这一段,首先是将各个属性进行labelencoder之后再进行上述操作,画出二者的分布关系,由于每个图的情况均跟如下显示的差不多,所以不过多放图(这一步骤笔者不知道是没有理解到含义还是啥,如有错误,希望有前辈能够指出相应的错误,以及提点该如何做。)

在这里插入图片描述

Name 与 Transported 的分布关系

在这里插入图片描述

步骤3:根据上述分析结果,你找出什么规律,如什么类型的乘客更加容易被Transported?

通过对训练集中特征的分布以及相关性分析之后,可以发现,标签与CryoSleep的相关性最高(也就是最相关)。也就是说指示乘客选择在航行期间进入假死状态更容易被Transported。

练集中特征的分布以及相关性分析之后,可以发现,标签与CryoSleep的相关性最高(也就是最相关)。也就是说指示乘客选择在航行期间进入假死状态更容易被Transported。

【注】:以上便是对数据的初步分析,如有错处,烦请批评指正,谢谢!

这篇关于Datawhale打卡活动 Kaggle Spaceship Titanic Day2的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/364148

相关文章

代码随想录打卡Day25

今天一整天都在教研室做实验,没时间刷题,就做了一题,剩下的明天补 491.递增子序列 这道题目和之前的子集问题很像,但是有一点要注意的,这个输入的数组不能进行排序,所以就不能沿用之前的去重逻辑,这道题要去重还是得借助额外的变量来维护元素使用情况,但是这题的used为集合,且不能为全局变量,只能为树层遍历前定义的一个局部变量,除了这个改动以外,其他地方都是高度相似的。 class Soluti

kaggle竞赛宝典 | Mamba模型综述!

本文来源公众号“kaggle竞赛宝典”,仅用于学术分享,侵权删,干货满满。 原文链接:Mamba模型综述! 型语言模型(LLMs),成为深度学习的基石。尽管取得了令人瞩目的成就,Transformers仍面临固有的局限性,尤其是在推理时,由于注意力计算的平方复杂度,导致推理过程耗时较长。 最近,一种名为Mamba的新型架构应运而生,其灵感源自经典的状态空间模型,成为构建基础模型的有力替代方案

Java预备知识 - day2

1.IDEA的简单使用与介绍 1.1 IDEA的项目工程介绍 Day2_0904:项目名称 E:\0_code\Day2_0904:表示当前项目所在路径 .idea:idea软件自动生成的文件夹,最好不要动 src:src==sourse→源,我们的源代码就放在这个文件夹之内 Day2_0904.iml:也是自动生成的文件,不要动 External Libraries:外部库 我这

T1打卡——mnist手写数字识别

🍨 本文为🔗365天深度学习训练营中的学习记录博客🍖 原作者:K同学啊 1.定义GPU import tensorflow as tfgpus=tf.config.list_physical_devices("GPU")if gpus:gpu0=gpus[0]tf.config.experimental.set_memort_groth(gpu0,True) #设置GPU现存用量按需

【代码随想录训练营第42期 续Day52打卡 - 图论Part3 - 卡码网 103. 水流问题 104. 建造最大岛屿

目录 一、做题心得 二、题目与题解 题目一:卡码网 103. 水流问题 题目链接 题解:DFS 题目二:卡码网 104. 建造最大岛屿 题目链接 题解:DFS  三、小结 一、做题心得 也是成功补上昨天的打卡了。 这里继续图论章节,还是选择使用 DFS 来解决这类搜索问题(单纯因为我更熟悉 DFS 一点),今天补卡的是水流问题和岛屿问题。个人感觉这一章节题对于刚

【最新华为OD机试E卷-支持在线评测】机器人活动区域(100分)多语言题解-(Python/C/JavaScript/Java/Cpp)

🍭 大家好这里是春秋招笔试突围 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-E/D卷的三语言AC题解 💻 ACM金牌🏅️团队| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 🍿 最新华为OD机试D卷目录,全、新、准,题目覆盖率达 95% 以上,支持题目在线评测,专栏文章质量平均 94 分 最新华为OD机试目录: https://blog.

活动系统开发之采用设计模式与非设计模式的区别-非设计模式

1、父类Base.php <?php/*** 初始化控制器* User: Administrator* Date: 2022/9/26* Time: 18:00*/declare (strict_types = 1);namespace app\controller;use app\model\common\Token;use app\BaseController;use app\B

图论篇--代码随想录算法训练营第五十二天打卡| 101. 孤岛的总面积,102. 沉没孤岛,103. 水流问题,104.建造最大岛屿

101. 孤岛的总面积 题目链接:101. 孤岛的总面积 题目描述: 给定一个由 1(陆地)和 0(水)组成的矩阵,岛屿指的是由水平或垂直方向上相邻的陆地单元格组成的区域,且完全被水域单元格包围。孤岛是那些位于矩阵内部、所有单元格都不接触边缘的岛屿。 现在你需要计算所有孤岛的总面积,岛屿面积的计算方式为组成岛屿的陆地的总数。 解题思路: 从周边找到陆地,然后通过 dfs或者bfs 将

算法打卡——田忌赛马问题

问题简介:就是一个贪心的思想,下面上题目 要求示例输出输入 大体上先比较快马,田的快马与王的快马 其次比较田的慢马与王的慢马, 两处边界比较完全之后可以直接贪心了 几份示例的代码 代码一 #include <bits/stdc++.h>using namespace std;int main() {int n;int tian[2002], qi[2002];while(ci

解密FSMN-Monophone VAD模型:语音活动检测的未来

在现代语音处理领域,语音活动检测(Voice Activity Detection, VAD)是一个关键技术,广泛应用于语音识别、语音编码和语音增强等任务。随着深度学习的快速发展,传统的VAD方法逐渐被更为先进的模型所取代。本文将深入探讨FSMN-Monophone VAD模型的原理、优势及其实际应用案例,帮助读者更好地理解这一前沿技术。 一、什么是FSMN-Monophone VAD? FS