【pandas技巧】group by+agg+transform函数

2023-10-30 03:36

本文主要是介绍【pandas技巧】group by+agg+transform函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

1. group by+单个字段+单个聚合

2. group by+单个字段+多个聚合

3. group by+多个字段+单个聚合

4. group by+多个字段+多个聚合

5. transform函数


studentsgradesexscoremoney
0小狗小学部female95844
1小猫小学部male93836
2小鸭初中部male83854
3小兔小学部female90931
4小花小学部male81853
5小草小学部male80991
6小狗初中部female81854
7小猫小学部male93886
8小鸭小学部male88983
9小兔小学部male86891
10小花初中部male92830
11小草初中部male84948

1. group by+单个字段+单个聚合

1.1 方法一

# 求每个人的总金额:
total_money=df.groupby("students")["money"].sum().reset_index()
total_money

1.2 方法二(使用agg)

df.groupby("students").agg({"money":"sum"}).reset_index()
#或者
df.groupby("students").agg({"money":np.sum}).reset_index()
studentsmoney
0小兔1820
1小狗1711
2小猫1670
3小花1861
4小草1825
5小鸭1719

2. group by+单个字段+多个聚合

2.1 方法一(使用group by+merge)

mean_money = df.groupby("students")["money"].mean().reset_index()
mean_money.columns = ["students","mean_money"]
mean_money
total_mean = total_money.merge(mean_money)
total_mean

total_mean = total_money.merge(mean_money)
total_mean
studentstotal_moneymean_money
0小兔1820910.0
1小狗1711855.5
2小猫1670835.0
3小花1861930.5
4小草1825912.5
5小鸭1719859.5

2.2 方法二(使用group by+agg)

total_mean = df.groupby("students").agg(total_money=("money", "sum"),mean_money=("money", "mean")).reset_index()
total_mean
studentstotal_moneymean_money
0小兔1820910.0
1小狗1711855.5
2小猫1670835.0
3小花1861930.5
4小草1825912.5
5小鸭1719859.5

3. group by+多个字段+单个聚合

3.1 方法一

df.groupby(["students","grade"])["money"].sum().reset_index()
studentsgrademoney
0小兔初中部1820
1小狗初中部843
2小狗小学部868
3小猫小学部1670
4小花初中部910
5小花小学部951
6小草初中部1825
7小鸭初中部1719

3.2 方法二(使用agg)

df.groupby(["students","grade"]).agg({"money":"sum"}).reset_index()
studentsgrademoney
0小兔初中部1820
1小狗初中部843
2小狗小学部868
3小猫小学部1670
4小花初中部910
5小花小学部951
6小草初中部1825
7小鸭初中部1719

4. group by+多个字段+多个聚合

agg函数的使用的方法是:agg(新列名=("原列名", "统计函数"))

df.groupby(["students","grade"]).agg(total_money=("money", "sum"),mean_money=("money", "mean"),total_score=("score", "sum")).reset_index()
studentsgradetotal_moneymean_moneytotal_score
0小兔初中部1820910.0192
1小狗初中部843843.088
2小狗小学部868868.093
3小猫小学部1670835.0178
4小花初中部910910.095
5小花小学部951951.098
6小草初中部1825912.5184
7小鸭初中部1719859.5173

5. transform函数

 5.1 方法一(使用groupby + merge)

df_1 = df.groupby("grade")["score"].mean().reset_index()
df_1.columns = ["grade", "average_score"]
df_1
gradeaverage_score
0初中部85.00
1小学部88.25
df_new1 = pd.merge(df, df_1, on="grade")
df_new1
studentsgradesexscoremoneyaverage_score
0小狗小学部female9584488.25
1小猫小学部male9383688.25
2小兔小学部female9093188.25
3小花小学部male8185388.25
4小草小学部male8099188.25
5小猫小学部male9388688.25
6小鸭小学部male8898388.25
7小兔小学部male8689188.25
8小鸭初中部male8385485.00
9小狗初中部female8185485.00
10小花初中部male9283085.00
11小草初中部male8494885.00

5.2 方法二(使用groupby + map)

dic = df.groupby("grade")["score"].mean().to_dict()
dic
{'初中部': 85.0, '小学部': 88.25}
df_new1["average_map_score"] = df["grade"].map(dic)
df_new1
studentsgradesexscoremoneyaverage_scoreaverage_map_score
0小狗小学部female9584488.2588.25
1小猫小学部male9383688.2588.25
2小兔小学部female9093188.2585.00
3小花小学部male8185388.2588.25
4小草小学部male8099188.2588.25
5小猫小学部male9388688.2588.25
6小鸭小学部male8898388.2585.00
7小兔小学部male8689188.2588.25
8小鸭初中部male8385485.0088.25
9小狗初中部female8185485.0088.25
10小花初中部male9283085.0085.00
11小草初中部male8494885.0085.00

5.3 方法三(使用transform一步到位)

df_new1["average_trans_score"] = df.groupby("grade")["score"].transform("mean")
df_new1
studentsgradesexscoremoneyaverage_scoreaverage_map_scoreaverage_trans_score
0小狗小学部female9584488.2588.2588.25
1小猫小学部male9383688.2588.2588.25
2小兔小学部female9093188.2585.0085.00
3小花小学部male8185388.2588.2588.25
4小草小学部male8099188.2588.2588.25
5小猫小学部male9388688.2588.2588.25
6小鸭小学部male8898388.2585.0085.00
7小兔小学部male8689188.2588.2588.25
8小鸭初中部male8385485.0088.2588.25
9小狗初中部female8185485.0088.2588.25
10小花初中部male9283085.0085.0085.00
11小草初中部male8494885.0085.0085.00

这篇关于【pandas技巧】group by+agg+transform函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/305337

相关文章

全面掌握 SQL 中的 DATEDIFF函数及用法最佳实践

《全面掌握SQL中的DATEDIFF函数及用法最佳实践》本文解析DATEDIFF在不同数据库中的差异,强调其边界计算原理,探讨应用场景及陷阱,推荐根据需求选择TIMESTAMPDIFF或inte... 目录1. 核心概念:DATEDIFF 究竟在计算什么?2. 主流数据库中的 DATEDIFF 实现2.1

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

MySQL中的LENGTH()函数用法详解与实例分析

《MySQL中的LENGTH()函数用法详解与实例分析》MySQLLENGTH()函数用于计算字符串的字节长度,区别于CHAR_LENGTH()的字符长度,适用于多字节字符集(如UTF-8)的数据验证... 目录1. LENGTH()函数的基本语法2. LENGTH()函数的返回值2.1 示例1:计算字符串

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

MySQL 中的 CAST 函数详解及常见用法

《MySQL中的CAST函数详解及常见用法》CAST函数是MySQL中用于数据类型转换的重要函数,它允许你将一个值从一种数据类型转换为另一种数据类型,本文给大家介绍MySQL中的CAST... 目录mysql 中的 CAST 函数详解一、基本语法二、支持的数据类型三、常见用法示例1. 字符串转数字2. 数字

Python内置函数之classmethod函数使用详解

《Python内置函数之classmethod函数使用详解》:本文主要介绍Python内置函数之classmethod函数使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 类方法定义与基本语法2. 类方法 vs 实例方法 vs 静态方法3. 核心特性与用法(1编程客

Python函数作用域示例详解

《Python函数作用域示例详解》本文介绍了Python中的LEGB作用域规则,详细解析了变量查找的四个层级,通过具体代码示例,展示了各层级的变量访问规则和特性,对python函数作用域相关知识感兴趣... 目录一、LEGB 规则二、作用域实例2.1 局部作用域(Local)2.2 闭包作用域(Enclos

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

MySQL count()聚合函数详解

《MySQLcount()聚合函数详解》MySQL中的COUNT()函数,它是SQL中最常用的聚合函数之一,用于计算表中符合特定条件的行数,本文给大家介绍MySQLcount()聚合函数,感兴趣的朋... 目录核心功能语法形式重要特性与行为如何选择使用哪种形式?总结深入剖析一下 mysql 中的 COUNT

MySQL 中 ROW_NUMBER() 函数最佳实践

《MySQL中ROW_NUMBER()函数最佳实践》MySQL中ROW_NUMBER()函数,作为窗口函数为每行分配唯一连续序号,区别于RANK()和DENSE_RANK(),特别适合分页、去重... 目录mysql 中 ROW_NUMBER() 函数详解一、基础语法二、核心特点三、典型应用场景1. 数据分