实战Kaggle泰坦尼克数据集,玩转Pandas透视表 | 强烈推荐

本文主要是介绍实战Kaggle泰坦尼克数据集,玩转Pandas透视表 | 强烈推荐,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据透视表(Pivot Table)是常用的数据汇总工具,可以通过控制数据的排列灵活地进行数据分析,进而挖掘出数据中最有价值的信息。掌握数据透视表,已经成为数据分析从业者必备的一项技能。

在python中我们可以通过pandas.pivot_table函数来实现数据透视表的功能。本篇文章介绍了pandas.pivot_table具体的使用方法,在最后还准备了一个备忘单,希望能够帮助你记住如何使用pandas的pivot_table。

本文结构

640?wx_fmt=png

1. 实例数据加载及预处理

本文采用kaggle赛题”泰坦尼克号“中的数据,案例背景是,船要沉了,我们根据各种影响因素,判断船上成员的存活率,比如头等舱的人存活率是不是会更高呢?或者女人比男人活下来的概率更高呢?

# 加载数据
import numpy as np
import pandas as pd
import seaborn as sns
df = sns.load_dataset('titanic')# 删除不重要的列
df.drop(columns =["who","adult_male","deck","embark_town","alive","alone","class"],inplace=True)# 缺失值处理
df = df[df["embarked"].notnull()]
df["age"].fillna(df["age"].mean(),inplace=True)# age离散化
df["age"] = pd.cut(df["age"], [0, 18, 90])df.head()

640?wx_fmt=png

主要字段的含义如下:

640?wx_fmt=png

2. 第一个透视表

# 查看不同性别的存活率
table = pd.pivot_table(df, index=["sex"], values="survived")
print(table)
        survived
sex             
female  0.740385
male    0.188908

可见女性的存活率很高,说明当时船上的男人们还是很绅士的哈哈~~

参数说明:

  • df是要传入的数据;

  • index是 Values to group by in the rows,也就是透视表建立时要根据哪些字段进行分组,我们这里只依据性别分组;

  • values是指对哪些字段进行聚合操作,因为我们只关心不同性别下的存活率情况,所以values只需要传入一个值"survived";

  • 将所有乘客按性别分为男、女两组后,对"survived"字段开始进行聚合,默认的聚合函数是"mean",也就是求每个性别组下所有成员的"survived"的均值,即可分别求出男女两组各自的平均存活率。

3. 添加列索引

# 添加一个列级分组索引:pclass-客票级别,共有1,2,3三个级别,1级别最高。
table = pd.pivot_table(df, index=["sex"], columns=["pclass"], values="survived")
print(table)
pclass         1         2         3
sex                                 
female  0.967391  0.921053  0.500000
male    0.368852  0.157407  0.135447

可以发现,无论是男性还是女性,客票级别越高的,存活率越高。

4. 多级行索引

# 添加一个行级分组索引:pclass-客票级别
table = pd.pivot_table(df, index=["sex","pclass"], values="survived")
print(table)
               survived
sex    pclass          
female 1       0.9673912       0.9210533       0.500000
male   1       0.3688522       0.1574073       0.135447

添加一个行级索引"pclass"后,现在透视表具有二层行级索引,一层列级索引。仔细观察透视表发现,与上面【3】中的"添加一个列级索引",在分组聚合效果上是一样的,都是将每个性别组中的成员再次按照客票级别划分为3个小组。

不同点就在于,看你是想让表格的行数多一点,还是想让列数多一点~~

5. 多级列索引

# 构造两层列级索引:"pclass"和"age"
table = pd.pivot_table(df, index=["sex"], columns=["pclass","age"], values="survived")
print(table)
pclass         1                 2                   3          
age      (0, 18]  (18, 90] (0, 18]  (18, 90]   (0, 18]  (18, 90]
sex                                                             
female  0.909091  0.975309     1.0  0.903226  0.511628  0.495050
male    0.800000  0.350427     0.6  0.086022  0.215686  0.121622

添加两层列级索引后,分析透视表,可以发现,一级客票的成年女性存活率高达97.5%,存活率最低的是三级客票的未成年男孩。

当然,行索引和列索引都可以再设置为多层,不过,行索引和列索引在本质上是一样的,大家需要根据实际情况合理布局。

6. 添加多个聚合列

# 按客票级别分组,每组对两个列进行聚合:“是否存活”和“船票价”
table = pd.pivot_table(df, index=["pclass"], values=["survived","fare"])
print(table)
             fare  survived
pclass                     
1       84.193516  0.626168
2       20.662183  0.472826
3       13.675550  0.242363

可以发现,船票级别越高,票价越高,存活率也越高。。。

需要注意的是,如果不传入values参数,将对除index和columns之外的所有剩余列进行聚合。

# 不传入values参数,剩余的所有列均做聚合(默认是均值聚合)。
table = pd.pivot_table(df, index=["pclass"])
print(table)
# 因为没有指定聚合函数,离散列又不能求均值,因此离散列在下面不会列出。
             fare     parch     sibsp  survived
pclass                                         
1       84.193516  0.359813  0.420561  0.626168
2       20.662183  0.380435  0.402174  0.472826
3       13.675550  0.393075  0.615071  0.242363

7. 自定义聚合函数

# 指定聚合函数
table = pd.pivot_table(df, index=["pclass"], values=["survived", "fare"], aggfunc=["mean", sum, "count"])
print(table)
             mean                   sum          count         fare  survived        fare survived  fare survived
pclass                                                         
1       84.193516  0.626168  18017.4125      134   214      214
2       20.662183  0.472826   3801.8417       87   184      184
3       13.675550  0.242363   6714.6951      119   491      491

聚合函数支持常见的统计函数,如"mean", "sum", count, np.mean, np.std, np.corr等,支持字符串等多种格式。

  • 如果传入参数为list,则每个聚合函数对每个列都进行一次聚合。

  • 如果传入参数为dict,则每个列仅对其指定的函数进行聚合,此时values参数可以不传。


   示例如下:

# aggfunc传入字典类型,自定义每个列要适用的聚合函数
table = pd.pivot_table(df, index=["pclass"], aggfunc={"survived": ["mean", sum], "fare": ["count", np.std]})
print(table)
        fare             survived       count        std      mean    sum
pclass                                  
1        214  78.746457  0.626168  134.0
2        184  13.417399  0.472826   87.0
3        491  11.778142  0.242363  119.0

8. 添加汇总项

# 按行、按列进行汇总,指定汇总列名为“Total”,默认名为“ALL”
table1 = pd.pivot_table(df, index="sex", columns="pclass", values="survived", aggfunc= "count", margins=True, margins_name="Total")
print(table1)
pclass    1    2    3   Total
sex                         
female   92   76  144    312
male    122  108  347    577
Total   214  184  491    889

9. 保存透视表

数据分析的劳动成果最后当然要保存下来了,我们一般将透视表保存为excel格式的文件,如果需要保存多个透视表,可以添加到多个sheet中进行保存。

save_file = "./titanic_analysis.xlsx"
with pd.ExcelWriter(save_file) as writer: table.to_excel(writer, sheet_name='汇总-演示', encoding="utf-8")table1.to_excel(writer, sheet_name='自定义聚合函数-演示', encoding="utf-8")

excel保存格式如下:

640?wx_fmt=png

10. 备忘单

为了试图总结所有这一切,本文创建了一个备忘单,希望它能够帮助你记住如何使用pandas的pivot_table。

640?wx_fmt=png

1一文带你了解人工智能:学科介绍、发展史、三大学派 2《机器学习》西瓜书,17个精炼笔记来了!3Matplotlib绘制六种可视化图表,值得收藏

640

640?wx_fmt=jpeg

Python&AI 笔记

长按扫码可关注

点个在看smiley_66.png

这篇关于实战Kaggle泰坦尼克数据集,玩转Pandas透视表 | 强烈推荐的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/218214

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount