【Python从入门到进阶】64、Pandas如何实现数据的Concat合并

2024-09-08 12:28

本文主要是介绍【Python从入门到进阶】64、Pandas如何实现数据的Concat合并,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

接上篇《63.Pandas如何实现数据的Merge》
上一篇我们学习了Pandas如何实现数据的Merge,本篇我们来继续学习Pandas如何实现数据的Concat合并。

一、引言

在数据处理过程中,经常需要将多个数据集合并为一个统一的数据集,以便进行进一步的分析或建模。这种需求在多种场景下都非常常见,比如合并不同来源的数据集以获取更全面的信息、将时间序列数据按时间顺序拼接起来以观察长期趋势等。在这些情况下,Pandas的concat函数就显得尤为重要,它是实现数据合并的主要工具之一。

在深入探讨concat函数之前,我们先快速回顾一下Pandas库的基本概念和主要功能。Pandas是一个开源的、基于NumPy的Python库,提供了高性能、易用的数据结构和数据分析工具。其核心数据结构包括DataFrame和Series。

●DataFrame:一个二维的、表格型的数据结构,可以看作是一个共享相同索引的Series的字典(或类似字典的对象)。DataFrame既有行索引也有列索引,非常适合存储和操作结构化数据。
●Series:一个一维的、长度可变的、能够保存任何数据类型(整数、字符串、浮点数、Python对象等)的数组,可以被看作是一个固定长度的有序字典。Series有一个索引(index)和一个值(value)数组。

二、Concat合并基础

1、定义与功能

pd.concat()函数是Pandas中用于合并多个Pandas对象(如DataFrame或Series)的函数。它允许用户沿着特定轴(axis)将多个对象合并成一个新的对象。这种合并可以是垂直的(沿着行,即axis=0),也可以是水平的(沿着列,即axis=1)。concat函数非常灵活,能够处理各种复杂的数据合并需求。

2、基本语法

pd.concat()函数的基本使用格式如下:

pd.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False)

●objs:一个序列或映射的序列,其中的元素是要被合并的Pandas对象(如DataFrame或Series)。
●axis:默认为0,表示沿着行的方向(垂直方向)合并;如果设置为1,则表示沿着列的方向(水平方向)合并。
●ignore_index:默认为False,表示保留原始索引;如果为True,则重新生成一个整数索引。
●join:默认为'outer',表示使用并集的方式合并索引;'inner'表示使用交集的方式合并索引,即只保留在所有对象中都存在的索引。
●其他参数(如keys、levels、names等)提供了更高级的功能,如为合并后的对象添加层级索引等,但在此不展开详述。

通过调整这些参数,用户可以灵活地实现各种数据合并的需求。例如,可以使用ignore_index=True来避免合并后索引的重复或混乱;使用join='inner'来确保合并后的数据在每个对象中都有对应的索引。

三、实战演练:使用Concat合并数据

1. 垂直合并(行合并)

垂直合并,也称为行合并,是将多个DataFrame沿着行方向(即axis=0)合并为一个新的DataFrame。在合并过程中,索引的处理是一个关键考虑点。示例说明如何使用pd.concat()沿着axis=0合并多个DataFrame:

import pandas as pd# 创建两个DadaFrame
df1 = pd.DataFrame({'姓名': ['张三', '李四'],'年龄': [23, 34]
})df2 = pd.DataFrame({'姓名': ['王五', '赵六'],'年龄': [45, 51]
})# 使用Concat沿着axis=0合并(默认值,为行方向)
result_df = pd.concat([df1, df2])print(result_df)

效果:

合并时索引的处理:

●自动排序:默认情况下,合并后的索引是自动排序的,但如果不希望排序,可以通过在concat函数中设置sort=False来避免。
●重复索引:如果合并的DataFrame中存在重复索引,这些索引在结果DataFrame中将被保留。这可能导致后续处理时出现混淆。
●ignore_index参数的使用:通过设置ignore_index=True,可以在合并时忽略原始索引,并重新生成一个从0开始的整数索引。

合并后的结果及其索引变化:

# 使用ignore_index=True重新生成索引  
result_df_reset = pd.concat([df1, df2], ignore_index=True)  print(result_df_reset)

效果:

2. 水平合并(列合并)

水平合并是将多个DataFrame沿着列方向(即axis=1)合并为一个新的DataFrame。在这种合并中,列名的对齐非常重要。

示例说明如何使用axis=1参数进行水平合并:

# 创建另一个DataFrame,注意列名与df1不完全相同  
df3 = pd.DataFrame({  '籍贯': ['郑州', '商丘'],  '邮箱': ['hsdad@126.com', 'sdjfh@136.com']  
})  # 使用axis=1进行水平合并  
result_df_horizontal = pd.concat([df1, df3], axis=1)  print(result_df_horizontal)

效果:

在上述示例中,df1和df3的列名不完全相同,因此它们被简单地并排放置,形成了新的DataFrame result_df_horizontal。

列名(columns)对齐的重要性及不匹配时的处理方式:

●如果合并的DataFrame具有完全相同的列名(不包括索引列),则这些列在结果DataFrame中将被叠加。
●如果列名不匹配,则这些列将简单地并排放置,每个DataFrame的列名保持不变。
●如果需要基于某个或多个键进行列的对齐和合并(类似于SQL中的JOIN操作),则应该使用merge或join方法,而不是concat。

3. 合并Series

Series的合并与DataFrame类似,但也有一些特殊之处。
Series的合并特点:

●Series的合并同样支持垂直合并(沿着索引方向)和水平合并(通过to_frame()转换为DataFrame后再合并)。
●垂直合并时,索引的处理方式与DataFrame相同,包括索引的自动排序、重复索引的处理以及ignore_index参数的使用。
●水平合并通常需要将Series转换为DataFrame,因为Series本身不支持直接的列合并。

以下示例演示如何将多个Series垂直或水平合并:

(1)Series垂直合并
s1 = pd.Series([1, 2], index=['a', 'b'])  
s2 = pd.Series([3, 4], index=['b', 'c'])  # 垂直合并  
result_series = pd.concat([s1, s2], ignore_index=True)  print(result_series)

效果:

(2)Series水平合并(通过转换为DataFrame)
# 将Series转换为DataFrame  
df_s1 = s1.to_frame('Series1')  
df_s2 = s2.to_frame('Series2')  # 水平合并  
result_df_series = pd.concat([df_s1, df_s2], axis=1)  print(result_df_series)

效果:

在水平合并的示例中,我们首先使用to_frame()方法将Series转换为DataFrame,然后使用concat函数沿着axis=1进行合并。这样,我们就能够像合并DataFrame一样合并Series了。

四、进阶应用

1、合并时忽略某些列/行

当我们在合并DataFrame时,有时需要忽略某些列或行。这可以通过在合并之前使用drop方法删除不需要的列,或者使用条件筛选来过滤行。

(1)忽略列

假设我们有两个DataFrame,但只想合并其中的某些列:

import pandas as pd  # 创建两个DataFrame  
df1 = pd.DataFrame({  'A': [1, 2],  'B': [3, 4],  'C': [5, 6]  
})  df2 = pd.DataFrame({  'A': [7, 8],  'B': [9, 10],  'D': [11, 12]  
})  # 忽略'C'列和'D'列,只合并'A'和'B'  
df1_filtered = df1[['A', 'B']]  
df2_filtered = df2[['A', 'B']]  # 合并  
result_df = pd.concat([df1_filtered, df2_filtered])  print(result_df)

效果:

(2)忽略行

忽略行通常通过条件筛选来实现,但在合并上下文中,我们更可能是在合并后处理,或者在合并前分别处理每个DataFrame。这里展示一个合并前筛选的例子:

# 假设我们只想合并df1中'A'列大于1的行  
df1_filtered = df1[df1['A'] > 1]  # 直接与df2合并(这里不筛选df2,仅作示例)  
result_df = pd.concat([df1_filtered, df2])  print(result_df)

效果:


2、合并具有不同列的数据

当两个DataFrame的列不完全相同时,concat或merge(对于基于键的合并)可以处理这种情况。concat会简单地并排放置列,而merge会尝试基于共同列进行匹配。

# 使用concat合并(注意,非共有列将直接并排放置)  
result_concat = pd.concat([df1, df2], axis=0)  # 这里axis=0表示行合并,但为了展示列的不同,实际操作中可能需要根据需求调整  # 使用merge合并(需要基于共同列,这里以'A'为例)  
result_merge = pd.merge(df1, df2[['A', 'D']], on='A', how='outer')  print("result_concat:")
print(result_concat)
print("result_merge:")
print(result_merge)

注意:在上面的merge示例中,我们选择了outer连接方式来保留所有行,但只合并了共有的A列和df2中的D列。
效果:

3、合并多层索引的DataFrame

多层索引(MultiIndex)在Pandas中用于表示具有多个级别的索引。合并多层索引的DataFrame时,需要确保索引的对齐性。

# 创建具有多层索引的DataFrame  
index = pd.MultiIndex.from_tuples([('x', 'a'), ('x', 'b'), ('y', 'a'), ('y', 'b')], names=['level1', 'level2'])  
df_multi = pd.DataFrame({'data': [1, 2, 3, 4]}, index=index)  # 创建另一个具有相同多层索引的DataFrame  
df_multi_2 = pd.DataFrame({'data_2': [5, 6, 7, 8]}, index=index)  # 直接使用concat合并(因为索引完全相同)  
result_multi = pd.concat([df_multi, df_multi_2], axis=1)  print(result_multi)

效果:

在这个例子中,concat能够直接处理多层索引,因为两个DataFrame的索引完全相同。如果索引不完全相同,你可能需要先使用reindex、reset_index或set_index等方法来调整索引,以确保它们可以正确对齐。

至此,关于Pandas如何实现数据Concat合并的内容全部介绍完毕,下一篇我们继续学习Pandas如何批量拆分与合并Excel文件。

转载请注明出处:https://guangzai.blog.csdn.net/article/details/141712490

这篇关于【Python从入门到进阶】64、Pandas如何实现数据的Concat合并的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1148104

相关文章

MyBatis-Plus逻辑删除实现过程

《MyBatis-Plus逻辑删除实现过程》本文介绍了MyBatis-Plus如何实现逻辑删除功能,包括自动填充字段、配置与实现步骤、常见应用场景,并展示了如何使用remove方法进行逻辑删除,逻辑删... 目录1. 逻辑删除的必要性编程1.1 逻辑删除的定义1.2 逻辑删php除的优点1.3 适用场景2.

Python数据验证神器Pydantic库的使用和实践中的避坑指南

《Python数据验证神器Pydantic库的使用和实践中的避坑指南》Pydantic是一个用于数据验证和设置的库,可以显著简化API接口开发,文章通过一个实际案例,展示了Pydantic如何在生产环... 目录1️⃣ 崩溃时刻:当你的API接口又双叒崩了!2️⃣ 神兵天降:3行代码解决验证难题3️⃣ 深度

C#借助Spire.XLS for .NET实现在Excel中添加文档属性

《C#借助Spire.XLSfor.NET实现在Excel中添加文档属性》在日常的数据处理和项目管理中,Excel文档扮演着举足轻重的角色,本文将深入探讨如何在C#中借助强大的第三方库Spire.... 目录为什么需要程序化添加Excel文档属性使用Spire.XLS for .NET库实现文档属性管理Sp

Python+FFmpeg实现视频自动化处理的完整指南

《Python+FFmpeg实现视频自动化处理的完整指南》本文总结了一套在Python中使用subprocess.run调用FFmpeg进行视频自动化处理的解决方案,涵盖了跨平台硬件加速、中间素材处理... 目录一、 跨平台硬件加速:统一接口设计1. 核心映射逻辑2. python 实现代码二、 中间素材处

python中的flask_sqlalchemy的使用及示例详解

《python中的flask_sqlalchemy的使用及示例详解》文章主要介绍了在使用SQLAlchemy创建模型实例时,通过元类动态创建实例的方式,并说明了如何在实例化时执行__init__方法,... 目录@orm.reconstructorSQLAlchemy的回滚关联其他模型数据库基本操作将数据添

Java数组动态扩容的实现示例

《Java数组动态扩容的实现示例》本文主要介绍了Java数组动态扩容的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录1 问题2 方法3 结语1 问题实现动态的给数组添加元素效果,实现对数组扩容,原始数组使用静态分配

Python实现快速扫描目标主机的开放端口和服务

《Python实现快速扫描目标主机的开放端口和服务》这篇文章主要为大家详细介绍了如何使用Python编写一个功能强大的端口扫描器脚本,实现快速扫描目标主机的开放端口和服务,感兴趣的小伙伴可以了解下... 目录功能介绍场景应用1. 网络安全审计2. 系统管理维护3. 网络故障排查4. 合规性检查报错处理1.

MySQL快速复制一张表的四种核心方法(包括表结构和数据)

《MySQL快速复制一张表的四种核心方法(包括表结构和数据)》本文详细介绍了四种复制MySQL表(结构+数据)的方法,并对每种方法进行了对比分析,适用于不同场景和数据量的复制需求,特别是针对超大表(1... 目录一、mysql 复制表(结构+数据)的 4 种核心方法(面试结构化回答)方法 1:CREATE

Python轻松实现Word到Markdown的转换

《Python轻松实现Word到Markdown的转换》在文档管理、内容发布等场景中,将Word转换为Markdown格式是常见需求,本文将介绍如何使用FreeSpire.DocforPython实现... 目录一、工具简介二、核心转换实现1. 基础单文件转换2. 批量转换Word文件三、工具特性分析优点局

Python中4大日志记录库比较的终极PK

《Python中4大日志记录库比较的终极PK》日志记录框架是一种工具,可帮助您标准化应用程序中的日志记录过程,:本文主要介绍Python中4大日志记录库比较的相关资料,文中通过代码介绍的非常详细,... 目录一、logging库1、优点2、缺点二、LogAid库三、Loguru库四、Structlogphp