【python数据分析11】——Pandas统计分析(分组聚合进行组内计算)

本文主要是介绍【python数据分析11】——Pandas统计分析(分组聚合进行组内计算),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

分组聚合进行组内计算

  • 前言
  • 1、groupby方法拆分数据
  • 2、agg方法聚合数据
  • 3、apply方法聚合数据
  • 4、transform方法聚合数据
  • 5 小案例
    • 5.1 按照时间对菜品订单详情表进行拆分
    • 5.2 使用agg方法计算
    • 5.3 使用apply方法统计单日菜品销售数目

前言

依据某个或者几个字段对数据集进行分组,并对各组应用一个函数,无论是聚合还是转换,都是数据分析的常用操作。pandas提供了一个灵活高效的groupby方法,配合agg或apply方法,能够实现分组聚合的操作。
原理图如下:
在这里插入图片描述

1、groupby方法拆分数据

groupby方法提供的是分组聚合步骤中的拆分功能,能够根据索引或者字段对数据进行分组。方法格式如下:

DataFrame.groupby(by=None,axis=0,level=None,as_index=True,sort=True,group_key=True,squeeze=False,**kwargs)

参数说明:

  • by: 接收list、string、mapping或 generator。用于确定进行分组的依据。如果传人的是一个函数,则对索引进行计算并分组;如果传入的是一个字典或者Series,则字典或者Series的值用来作为分组依据;如果传入一个NumPy数组,则数据的元素作为分组依据;如果传人的是字符串或者字符串列表,则使用这些字符串所代表的字段作为分组依据。无默认 。
  • axis:表示操作的轴向,默认对列进行操作。默认为0。
  • level:接收int或者索引名。代表标签所在级别。默认为None。
  • as_index:表示聚合后的聚合标签是否以DataFrame 索引形式输出。默认为 True。
  • sort:接收boolean。表示是否对分组依据、分组标签进行排序。默认为True。
  • group_keys:接收boolean。表示是否显示分组标签的名称。默认为 True。
  • squeeze:接收boolean。表示是否在允许的情况下对返回数据进行降维。默认为False。

以餐饮企业的菜品订单详情表为例,依据订单编号对数据进行分组。

import pandas as pd
import numpy as np
from sqlalchemy import create_engine
username = 'root'  # 替换为你的数据库用户名
password = '1234'  # 替换为你的数据库密码
host = 'localhost'          # 数据库地址
database = 'testdb'  # 数据库名称# 创建数据库连接
engine = create_engine(f'mysql+pymysql://{username}:{password}@{host}/{database}')
detail = pd.read_sql_table('meal_order_detail1',con = engine)
detailGroup = detail[['order_id','counts','amounts']].groupby(by = 'order_id')
print('分组后的订单详情表为:',detailGroup)

输出:
在这里插入图片描述
由输出可知,分组后的结果并不能直接看,而是被存在内存中,输出的是内存地址。实际上,分组后的数据对象Groupby类似于Series与DataFrame,是pandas提供的一种对象。常用的描述性统计方法如下表:

方法名称说明
count计算分组的数目,包括缺失值
head返回每组的前n个值
max返回每组最大值
mean返回每组的均值
median返回每组的中位数
cumcount对每个分组中的组员进行标记,0~n-1
size返回每组的大小
min返回每组最小值
std返回每组的标准差
sum返回每组的和

对餐饮企业的菜品订单表经过分组操作后的每一组的均值、标准差、中位数

print('订单详情表分组后前5组每组的均值为:\n', detailGroup.mean().head())
print('订单详情表分组后前5组每组的标准差为:\n', detailGroup.std().head())
print('订单详情表分组后前5组每组的大小为:','\n', detailGroup.size().head())

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2、agg方法聚合数据

agg、aggregate方法支持对每个分组应用某函数,包括python内置函数或自定义函数。同时这两个方法也能直接对DataFrame进行函数应用操作。
注意:agg函数能够对DataFrame对象进行操作师从pandas0.20版本开始的,在之前版本中,没有此功能。针对DataFrame的aggyuaggregate函数使用格式如下:
DataFrame.agg(func,axis=0,*args,**kwargs)
DataFrame.aggregate(func,axis=0,*args,**kwargs)
参数说明如下:

  • func:接收list、dict、function。表示应用于每行或者每列的函数。无默认
  • axis:接收0或1。代表操作的轴向。默认为0

agg、aggregate几乎完全相同,以T餐饮企业的菜品订单信息表为例,使用agg方法一次求出当前数据中所有菜品销量和售价的总和与均值,如下:

print('订单详情表的菜品销量与售价的和与均值为:\n',detail[['counts','amounts']].agg([np.sum,np.mean]))

输出:在这里插入图片描述
一个字段求和,另一个求均值

print('订单详情表的菜品销量总和与售价的均值为:\n',detail.agg({'counts':np.sum,'amounts':np.mean}))

输出:
在这里插入图片描述

求某个字段多个统计量

print('菜品订单详情表的菜品销量总和与售价的总和与均值为:\n',detail.agg({'counts':np.sum,'amounts':[np.mean,np.sum]}))

输出:
在这里插入图片描述
上述都是numpy库的统计函数,也可以传入自定义的函数。例如:

##自定义函数求两倍的和
def DoubleSum(data):s = data.sum()*2return s
print('菜品订单详情表的菜品销量两倍总和为:','\n',detail.agg({'counts':DoubleSum},axis = 0))

输出:
在这里插入图片描述
在自定义函数中,使用numpy库中的这些函数时,如果计算的时候是单个序列,则无法得出想要的结果,如果是多列数据同时计算,就不会出现这个问题。例如:

##自定义函数求两倍的和
def DoubleSum1(data):s = np.sum(data)*2return s
print('订单详情表的菜品销量两倍总和为:\n',detail.agg({'counts':DoubleSum1},axis = 0).head())print('订单详情表的菜品销量与售价的和的两倍为:\n',detail[['counts','amounts']].agg(DoubleSum1))

输出:
在这里插入图片描述
使用agg方法也能够实现对每一个字段的每一组使用相同的函数,如下:

print('订单详情表分组后前3组每组的均值为:\n', detailGroup.agg(np.mean).head(3))print('订单详情表分组后前3组每组的标准差为:\n', detailGroup.agg(np.std).head(3))

输出:
在这里插入图片描述
如果需要对不同的字段应用不同的函数,则与DataFrame中使用agg方法的操作相同。使用agg方法对分组后的菜品订单表求取每组菜品总数和售价均值。

print('订单详情分组前3组每组菜品总数和售价均值为:\n', detailGroup.agg({'counts':np.sum,'amounts':np.mean}).head(3))

在这里插入图片描述

3、apply方法聚合数据

apply方法类似于agg方法,能够将函数应用于每一列。不同之处在与,与agg方法相比,apply方法传入的函数只能够作用于整个DataFrame或者Series,而无法像agg一样能够对不同字段应用不同函数来获取不同结果。
apply方法的形式如下:
DataFrame.apply(func,axis=0,broadcast=False,raw=False,reduce=None,args(),**kwds)

参数说明:

  • func:接收functions,表示应用于每行或每列的函数,无默认
  • axis:接收0或1,代表操作的轴向。默认为0
  • broadcast:接收boolean,表示是否进行广播。默认为False
  • raw:接收boolean,表示是否直接将ndarray对象传递给函数。默认为False
  • reduce:接收boolean或者None,表示返回值的格式。默认None

apply方法的使用方式和agg方法相同,如下:

print('订单详情表的菜品销量与售价的均值为:\n',detail[['counts','amounts']].apply(np.mean))

在这里插入图片描述
使用apply方法对groupby对象进行聚合操作的方法和agg方法也相同,只是使用agg方法能够实现对不同的字段应用不同的函数,而apply不行。

4、transform方法聚合数据

transform方法能够对整个DataFrame的所有元素进行操作。transform方法只有一个参数“func”,表示对DataFrame操作的函数,如下:

print('订单详情表的菜品销量与售价的两倍为:\n',detail[['counts','amounts']].transform(lambda x:x*2).head(4))

输出:
在这里插入图片描述
同时,transform方法还能够对DataFrame分组后的对象groupby进行操作,可以实现组内离差标准化等操作。

print('订单详情表分组后实现组内离差标准化后前五行为:\n', detailGroup.transform(lambda x:(x.mean()-x.min())/(x.max()-x.min())).head())

输出:
在这里插入图片描述
输出中部分为NaN,这是由于销量中的许多订单的最大值和最小值是相同的,根据离差标准化公式,最大值和最小值相同的情况下分母是0,而分母为0的数在python中表示为NaN

5 小案例

5.1 按照时间对菜品订单详情表进行拆分

通过分组聚合的方式能够将每天的数据放在一个组内,从而可以方便地对每一个组的内容进行分析。

import pandas as pd
import numpy as np
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:\
3306/testdb?charset=utf8')
detail = pd.read_sql_table('meal_order_detail1',con = engine)
detail['place_order_time'] = pd.to_datetime(detail['place_order_time'])
detail['date'] = [i.date() for i in detail['place_order_time']]
detailGroup = detail[['date','counts','amounts']].groupby(by='date')
print('订单详情表前5组每组的数目为:\n',detailGroup.size().head())

在这里插入图片描述

5.2 使用agg方法计算

对已经拆分完成的订单详情表进行聚合,得出每组的销售均价和售价中位数等信息

dayMean = detailGroup.agg({'amounts':np.mean})
print('订单详情表前五组每日菜品均价为:\n',dayMean.head())dayMedian = detailGroup.agg({'amounts':np.median})
print('订单详情表前五组每日菜品售价中位数为:\n',dayMedian.head())

输出:
在这里插入图片描述

5.3 使用apply方法统计单日菜品销售数目

除了可以对售价进行计算外,还可以计算单日总共销售的菜品数目,如下

daySaleSum = detailGroup.apply(np.sum)['counts']
print('订单详情表前五组每日菜品售出数目为:\n',daySaleSum.head())

输出:
在这里插入图片描述

这篇关于【python数据分析11】——Pandas统计分析(分组聚合进行组内计算)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1092719

相关文章

Python实现终端清屏的几种方式详解

《Python实现终端清屏的几种方式详解》在使用Python进行终端交互式编程时,我们经常需要清空当前终端屏幕的内容,本文为大家整理了几种常见的实现方法,有需要的小伙伴可以参考下... 目录方法一:使用 `os` 模块调用系统命令方法二:使用 `subprocess` 模块执行命令方法三:打印多个换行符模拟

Python实现MQTT通信的示例代码

《Python实现MQTT通信的示例代码》本文主要介绍了Python实现MQTT通信的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 安装paho-mqtt库‌2. 搭建MQTT代理服务器(Broker)‌‌3. pytho

如何使用Lombok进行spring 注入

《如何使用Lombok进行spring注入》本文介绍如何用Lombok简化Spring注入,推荐优先使用setter注入,通过注解自动生成getter/setter及构造器,减少冗余代码,提升开发效... Lombok为了开发环境简化代码,好处不用多说。spring 注入方式为2种,构造器注入和setter

基于Python开发一个图像水印批量添加工具

《基于Python开发一个图像水印批量添加工具》在当今数字化内容爆炸式增长的时代,图像版权保护已成为创作者和企业的核心需求,本方案将详细介绍一个基于PythonPIL库的工业级图像水印解决方案,有需要... 目录一、系统架构设计1.1 整体处理流程1.2 类结构设计(扩展版本)二、核心算法深入解析2.1 自

从入门到进阶讲解Python自动化Playwright实战指南

《从入门到进阶讲解Python自动化Playwright实战指南》Playwright是针对Python语言的纯自动化工具,它可以通过单个API自动执行Chromium,Firefox和WebKit... 目录Playwright 简介核心优势安装步骤观点与案例结合Playwright 核心功能从零开始学习

Python 字典 (Dictionary)使用详解

《Python字典(Dictionary)使用详解》字典是python中最重要,最常用的数据结构之一,它提供了高效的键值对存储和查找能力,:本文主要介绍Python字典(Dictionary)... 目录字典1.基本特性2.创建字典3.访问元素4.修改字典5.删除元素6.字典遍历7.字典的高级特性默认字典

MySQL进行数据库审计的详细步骤和示例代码

《MySQL进行数据库审计的详细步骤和示例代码》数据库审计通过触发器、内置功能及第三方工具记录和监控数据库活动,确保安全、完整与合规,Java代码实现自动化日志记录,整合分析系统提升监控效率,本文给大... 目录一、数据库审计的基本概念二、使用触发器进行数据库审计1. 创建审计表2. 创建触发器三、Java

Python自动化批量重命名与整理文件系统

《Python自动化批量重命名与整理文件系统》这篇文章主要为大家详细介绍了如何使用Python实现一个强大的文件批量重命名与整理工具,帮助开发者自动化这一繁琐过程,有需要的小伙伴可以了解下... 目录简介环境准备项目功能概述代码详细解析1. 导入必要的库2. 配置参数设置3. 创建日志系统4. 安全文件名处

使用Python构建一个高效的日志处理系统

《使用Python构建一个高效的日志处理系统》这篇文章主要为大家详细讲解了如何使用Python开发一个专业的日志分析工具,能够自动化处理、分析和可视化各类日志文件,大幅提升运维效率,需要的可以了解下... 目录环境准备工具功能概述完整代码实现代码深度解析1. 类设计与初始化2. 日志解析核心逻辑3. 文件处

python生成随机唯一id的几种实现方法

《python生成随机唯一id的几种实现方法》在Python中生成随机唯一ID有多种方法,根据不同的需求场景可以选择最适合的方案,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习... 目录方法 1:使用 UUID 模块(推荐)方法 2:使用 Secrets 模块(安全敏感场景)方法