【科学计算与可视化】2. pandas 基础

2024-06-24 01:12

本文主要是介绍【科学计算与可视化】2. pandas 基础,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 安装 Pandas

首先,确保你已经安装了 Pandas。你可以使用以下命令安装:pip install pandas

2. 导入 Pandas

在开始使用 Pandas 之前,你需要先导入它:import pandas as pd

3. 创建数据结构

Pandas 主要有两种数据结构:SeriesDataFrame

3.1 Series

Series 是一个一维的标签数组,类似于 Python 的列表或字典。

import pandas as pd
s = pd.Series([1,2,3, np.nan, 6, 8, None], dtype=np.float32)
print(s)
s2 = pd.Series([100, 200, 300, 400], ["A", "B", "C", "D"])  # pd.Series(data, index)  data 与 index 必须都是一维的
print(s2)
s2.to_csv("s2.csv")  # 将数据保存为 csvs3 = pd.Series(np.arange(12))   # 从 ndarray 创建
s4 = pd.Series({"a": 1, "b": 2, "c": 3})  # 从字典创建
s5 = pd.Series(5, ["a", "b", "c"])  # 从标量值 创建
print(s5['a'])  # Series 中数组的访问 类似于 python 中字典的访问

3.2 DataFrame

DataFrame 是一个二维的标签数据结构,类似于电子表格或 SQL 表格。

# 创建一个 DataFrame
data = {"A": [1, 2, 3, 4, 5],"B": [6, 7, 8, 9, 10],"C": [11, 12, 13, 14, 15]
}
df = pd.DataFrame(data)
print(df)# 使用多个 series 来构建  series 中可以缺少数据
df2 = pd.DataFrame({'name': pd.Series(["Tom", "Nick", "John", "Tom", "John"], index = ["A", "B", "C", "D", "E"]),'age': pd.Series([20, 21, 19, 22,], index = ["A", "B", "C", "D"]),'gender': pd.Series(["M", "M", "M", "F", "F"], index = ["A", "B", "C", "D", "E"])
})
print(df2)# 使用字典来创建   维度需要与 index 对应
df3 = pd.DataFrame({'name': ["Tom", "Nick", "John", "Tom", "John"],'age': [20, 21, 19, 22, 18],'gender': ["M", "M", "M", "F", "F"]
}, index=["A", "B", "C", "D", "E"])
print(df3)
# 访问数据
print(df3["name"]) # 访问列 返回一个对象 
print(dict(df3["name"])) # 可以将对象转为数组
print(df3.loc["A"]) # 访问行 返回一个对象
print(df3.iloc[0]) # 访问行 返回一个对象print(df3.loc[["A", "C"], ["name", "age"]]) # 指定 行列 返回 一个 DataFrame 对象
df3[df3['age'] > 20] # 可以指定列条件来筛选
df3[(df3['age'] > 20) & (df3['age'] < 22)] # 可以使用逻辑运算符来拼接多个添加 & | 
df3.reset_index() # reset_index用于重置索引,原有的索引存在一个新的 index 列中,新索引从 0 开始
df3.set_index("name") # set_index用于设置索引,原有的索引被替换为新的索引

4. 数据读取和写入

Pandas 支持读取和写入多种文件格式,如 CSV、Excel、SQL 等。

4.1 读取数据

# 读取 CSV 文件
df = pd.read_csv('data.csv')# 读取 Excel 文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')   # sheet_name 用于指定读取哪一个子表

4.2 写入数据

# 写入 CSV 文件
df.to_csv('output.csv', index=False)# 写入 Excel 文件
df.to_excel('output.xlsx', sheet_name='Sheet1', index=False)

5. 数据查看和检查

5.1 查看数据

# 显示前几行数据
print(df.head())
# 显示最后几行数据
print(df.tail())

5.2 检查数据

# 查看 DataFrame 的形状
print(df.shape)
# 查看列名
print(df.columns)
# 查看数据类型
print(df.dtypes)
# 查看数据信息
print(df.info())
# 查看数据描述性统计信息
print(df.describe())

6. 数据选择和过滤

6.1 选择数据

# 选择单列数据
print(df['A'])
# 选择多列数据
print(df[['A', 'B']])

6.2 选择行数据

# 按行号选择
print(df.iloc[0])
# 按标签选择
print(df.loc[0])

6.3 条件选择

# 选择满足条件的行
print(df[df['A'] > 2])

7. 数据清洗

7.1 处理缺失值

# 检查缺失值
print(df.isnull())
# 删除包含缺失值的行
df = df.dropna()
# 填充缺失值
df = df.fillna(0)

7.2 处理重复值

# 检查重复值
print(df.duplicated())
# 删除重复值
df = df.drop_duplicates()

8. 数据操作

8.1 增加数据

df4 = pd.DataFrame(np.arange(12).reshape(3,4), index=["A", "B", "C"], columns=["A", "B", "C", "D"])
# 通过运算增加新列
df4["E"] = df4["A"] + df4["D"]
print(df4)# 使用 series创建
df4["F"] = pd.Series(["F", "F", "F"], index=["A", "B", "C"])
print(df4)# 增加行  concat 函数
new_row = pd.DataFrame({"A": [20],"B": [21],"C": [22],"D": [23]
})
df4 = pd.concat([df4, new_row], ignore_index=True)

8.2 删除数据

df4.drop("F", axis=1) # axis = 1 删除列  axis 不填 默认为 1
df4.drop("A", axis=0) # axis = 0 删除行
# drop默认不会改变原有 DataFrame 对象,而是返回一个新的 DataFrame 对象, 当我们需要改变原有对象的时候 我们可以添加 inplace=True 的参数df4.drop("F", axis=1, inplace=True)

8.3 数据排序

# 按单列排序
df = df.sort_values(by='A')# 按多列排序
df = df.sort_values(by=['A', 'B'], ascending=[True, False])

9. 数据分组和聚合

9.1 分组

分组通常使用 groupby 方法来实现 这个方法允许你将数据分成不同的组,然后对每个组独立地进行操作

import pandas as pd# 创建一个 DataFrame
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],'C': [1, 3, 2, 5, 4, 1, 2, 3],'D': [4, 2, 5, 5, 6, 1, 2, 3]
})
print(df)# 按列 'A' 进行分组
grouped = df.groupby('A')# 显示分组
for name, group in grouped:print(name)print(group)

9.2 聚合

# 计算每个分组中  “C" 列的平均值
print(grouped['C'].mean())
‘’‘
A 
bar 3.0 
foo 2.4
’‘’
# 对 grouped 的每一列求和 
print(grouped.sum())
‘’‘
A    B                C D 
bar onethreetwo       9 8 
foo onetwotwoonethree 12 20
’‘’# 使用 agg 应用多个聚合函数 
aggregated = grouped['C'].agg(['sum', 'mean'])
print(aggregated)#也可以使用多个 key 作为键
# 使用多个列作为分组键
grouped = df.groupby(['A', 'B'])# 显示分组
for (name1, name2), group in grouped:print((name1, name2))print(group)

10. 数据可视化

Pandas 集成了 Matplotlib,可以很方便地进行数据可视化。 关于数据可视化将在后续博客更新

import matplotlib.pyplot as plt# 创建一个简单的折线图
df.plot()
plt.show()# 创建一个柱状图
df.plot(kind='bar')
plt.show()

11. 高级操作

11.1 合并数据

df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['A', 'B', 'D'], 'value': [4, 5, 6]})# 内连接只保留两个 DataFrame 中都有的键(‘key’ 列)的行
merged_df = pd.merge(df1, df2, on='key', how='inner') 
print(merged_df)# 外连接会保留两个 DataFrame 中所有的键。如果某个键只在一个 DataFrame 中存在,那么结果中该键的对应行会在另一个 DataFrame 的列上填充 NaN(表示缺失值)。
merged_df = pd.merge(df1, df2, on='key', how='outer')
print(merged_df)

11.2 应用函数

# 对列应用函数
df['A'] = df['A'].apply(np.sqrt)

这篇关于【科学计算与可视化】2. pandas 基础的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1088776

相关文章

Pandas使用SQLite3实战

《Pandas使用SQLite3实战》本文主要介绍了Pandas使用SQLite3实战,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1 环境准备2 从 SQLite3VlfrWQzgt 读取数据到 DataFrame基础用法:读

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

C#基础之委托详解(Delegate)

《C#基础之委托详解(Delegate)》:本文主要介绍C#基础之委托(Delegate),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 委托定义2. 委托实例化3. 多播委托(Multicast Delegates)4. 委托的用途事件处理回调函数LINQ

Python下载Pandas包的步骤

《Python下载Pandas包的步骤》:本文主要介绍Python下载Pandas包的步骤,在python中安装pandas库,我采取的方法是用PIP的方法在Python目标位置进行安装,本文给大... 目录安装步骤1、首先找到我们安装python的目录2、使用命令行到Python安装目录下3、我们回到Py

使用Folium在Python中进行地图可视化的操作指南

《使用Folium在Python中进行地图可视化的操作指南》在数据分析和可视化领域,地图可视化是一项非常重要的技能,它能够帮助我们更直观地理解和展示地理空间数据,Folium是一个基于Python的地... 目录引言一、Folium简介与安装1. Folium简介2. 安装Folium二、基础使用1. 创建

基于Python开发PDF转PNG的可视化工具

《基于Python开发PDF转PNG的可视化工具》在数字文档处理领域,PDF到图像格式的转换是常见需求,本文介绍如何利用Python的PyMuPDF库和Tkinter框架开发一个带图形界面的PDF转P... 目录一、引言二、功能特性三、技术架构1. 技术栈组成2. 系统架构javascript设计3.效果图

解读Pandas和Polars的区别及说明

《解读Pandas和Polars的区别及说明》Pandas和Polars是Python中用于数据处理的两个库,Pandas适用于中小规模数据的快速原型开发和复杂数据操作,而Polars则专注于高效数据... 目录Pandas vs Polars 对比表使用场景对比Pandas 的使用场景Polars 的使用

Python使用Pandas对比两列数据取最大值的五种方法

《Python使用Pandas对比两列数据取最大值的五种方法》本文主要介绍使用Pandas对比两列数据取最大值的五种方法,包括使用max方法、apply方法结合lambda函数、函数、clip方法、w... 目录引言一、使用max方法二、使用apply方法结合lambda函数三、使用np.maximum函数

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Pandas中多重索引技巧的实现

《Pandas中多重索引技巧的实现》Pandas中的多重索引功能强大,适用于处理多维数据,本文就来介绍一下多重索引技巧,具有一定的参考价值,感兴趣的可以了解一下... 目录1.多重索引概述2.多重索引的基本操作2.1 选择和切片多重索引2.2 交换层级与重设索引3.多重索引的高级操作3.1 多重索引的分组聚