pandas ---- pd.DataFrame基本用法

2024-06-14 18:12

本文主要是介绍pandas ---- pd.DataFrame基本用法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 前言
    • 1 loc和iloc注意事项。(后面这些都会在笔记中提到)
    • 2 DataFrame的维度
  • 一、 DataFrame的创建 --- pd.DataFrame(data,index=None,columns=None)
    • 1 字典创建DataFrame(字典转Dataframe很常用)
    • 2 用numpy数组或者嵌套list创建DataFrame
  • 二、DataFrame的访问、索引、切片、布尔索引、修改等操作
    • 1 行切片访问 df[ : ] ---- 不能用单个数字索引,只能用切片索引(后面会用loc和iloc替代这个很呆的功能)
    • 2 按列选择
      • df['column_name']:选择单列,返回 Series。
      • df[['column_name']] :选择单列,返回 DataFrame。
      • df[['col1', 'col2']]:选择多列,返回 DataFrame。
    • 3 按布尔条件选择
      • df[df['column_name'] > value]:选择满足条件的行。
      • df[(df['Age'] > 25) & (df['Score'] > 85)] :and 注意里面布尔条件都要分别用小括号括起来,不然会报错
      • df[(df['Age'] > 25) | (df['Score'] > 85)] : or
    • 4 loc[ ] 与 iloc[ ]进行操作
      • (1)loc[ ]
        • 基于行标签的选择 --- df.loc['Alice'] ,df.loc[['Alice']]
          • df.loc['Alice'] --- 返回 Series
          • df.loc[['Alice']] --- 返回 DataFrame
          • df.loc[['Bob', 'David']] --- 返回 DataFrame ,这种数组的索引方式都可以用
        • 基于行和列标签的选择 --- df.loc['Alice', 'Age'] , df.loc['Alice', ['Age', 'City']], df.loc[['Alice'], ['Age', 'City']]
          • df.loc['Alice', ['Age', 'City']] --- 返回Series
          • df.loc[['Alice'], ['Age', 'City']] --- 返回Dataframe
        • 基于行和列范围的选择(切片) --- df.loc['Alice':'Charlie', 'Age':'City']
        • 基于布尔条件的选择 ---- df.loc[df['Age'] > 25] , df.loc[df['Age'] > 25, ['City']]
        • 更新操作
      • (2)iloc[ ] 的使用方法
        • 基于行位置的选择
          • df.iloc[0]
          • df.iloc[[0]]
          • df.iloc[[0,2]]
        • 基于行和列位置的选择
          • df.iloc[0,1] ---- 返回一个标量
          • df.iloc[0,[0,1]] --- 返回series
          • df.iloc[[0],[0,1]] ---- 返回一个dataframe
        • 基于行和列位置范围的选择(切片)
          • df.iloc[0:2, 0:2]
        • 基于布尔条件的选择
          • df.iloc[df['Age'].values > 25] ---- 布尔索引不能直接用于 iloc,但可以通过 DataFrame 的 values 属性获取布尔条件
        • 更新操作
      • 综合示例(各种筛选是可以混合应用的所有要灵活应用,不能死板)
  • 三、DataFrame的常用属性和方法
    • 1 常用属性
      • df.index ---- 返回行索引对象,可以遍历;可以用 .to_list(), .to_numpy()方法转成list和numpy数组
        • .to_list() ---- 将对象转换成列表
        • .to_numpy() ---- 将对象转换成numpy数组
      • df.columns --- 返回列索引对象,可以遍历;可以用 .to_list(), .to_numpy()方法转成list和numpy数组
        • .to_list() ---- 将对象转换成列表
        • .to_numpy() ---- 将对象转换成numpy数组
      • df.values --- 返回values 的numpy数组(注意是一个二维的numpy数组)
      • df.shape --- 返回形状数组,dataframe一定是二维
      • df.ndim --- 返回维度,dataframe一定是 2
      • df.dtypes --- 这里加了复数,表明返回的是每一列都会返回一个 数据类型(一个series)
      • df.size --- 返回values数组里面元素个数
    • 2 基本信息查看方法
      • df.head(n):查看前 n 行(默认 5 行)。
      • df.tail(n):查看后 n 行(默认 5 行)。
      • df.info():查看 DataFrame 概览信息,包括数据类型和非空值计数。
      • df.describe():查看数值型数据的统计信息。
    • 3 DataFrame与Series互转(特别常用)
      • .squeeze() ---- DataFrame转Series
      • .to_frame(name='col_name') --- 将 Series 转换为 DataFrame。name='col_name'指定列名;如果是dataframe筛选出来的Series,index和列名信息都有,我们都不用指定name='col_name'
    • 4 DataFrame常用数据操作方法(新增修改列、改列名、删除及各种常用方法)
      • (1)新增和修改列
        • df['new_column'] = values:添加新列或修改现有列。
        • df.insert(1, 'NewColumn', new_column):在dataframe指定位置添加一列(机器学习训练集哪里会用到)
      • (2)给列重命名 ---- df.rename(columns={'Name': 'Full Name'})
      • (3)设置和重置索引
        • df.set_index('column_name'):将某表设置为索引。
        • df.reset_index(): 重置索引为整数索引,方法用于重置 DataFrame 的索引,将其转换为默认的整数索引.
      • (4)删除行或列
        • df.drop(columns=['col1', 'col2']):删除指定列。
        • df.drop(index=[0, 1]):删除指定行。
      • (5)排序操作
        • df.sort_values(by=['column1','column2'], ascending=[True,False]):按列排序。
        • df.sort_index():按索引排序。
      • (6)数据清洗
        • 处理缺失值
          • df.dropna():删除含有缺失值的行。
          • df.fillna(value):用指定值填充缺失值。
        • df.drop_duplicates():删除重复行。
      • (7)数据类型转换处理
        • 数据类型转换
          • ---- df['column'].astype(new_type):转换列的数据类型。
        • 字符串操作
          • ---- df['column'].str.method():对字符串列进行操作。
        • 日期时间处理
          • ---- pd.to_datetime(df['column']):将列转换为日期时间类型。
          • ---- df['column'].dt.method:对日期时间列进行操作。
      • (8)数据统计
        • 基本统计
          • .max()和.min()
          • .sum() --- 求和
          • df['column'].mean():计算平均值。
          • df['column'].median():计算中位数。
          • df['column'].std():计算标准差。
          • .var() --- 方差
          • .quantile([0,0.25,0.5,0.75,1.0]) --- 查看四分位数
          • df.cov() --- 直接这样用就可以看到各列变量直接的 (协方差矩阵了)
        • 分组聚合(*) df.groupby('column').agg_func() ---- 返回的是一个可能有多级索引的series
          • ---- df.groupby('City')['Age'].mean()
        • 数据透视表(*)
          • ---- df.pivot_table(values='value', index='index', columns='column', aggfunc='mean')
      • (8)其他一些常用操作
        • 索引和列交换
          • df.T:转置 DataFrame。
        • 应用函数
          • .apply(func):对 DataFrame 应用函数。
  • 四、DataFrame的拼接(常用 -- 力扣上还有这样的题)
    • 1 pd.concat([df1,df2,.....],axis = 0) ----- 函数用于沿指定轴拼接多个 DataFrame 或 Series 对象。
    • 2 pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None) 表连接的使用----有点复杂(最近在做一个项目在进行time对齐用到了这个)
      • (1)左,右连接
        • 左连接:pd.merge(left, right, how='left')
        • 右连接:pd.merge(left, right, how='right')
      • (2)外连接和内连接
        • 内连接(理解成交集):pd.merge(left, right, how='inner')
        • 外连接(理解成并集):pd.merge(left, right, how='outer')
      • (3)以两个表的index为连接的on怎么处理
        • pd.merge(df1, df2, left_index=True, right_index=True, how='inner')
  • 五、pandas的导入和导出
      • df.to_csv('file.csv'):导出为 CSV 文件。
      • pd.read_csv('file.csv'):从 CSV 文件导入 DataFrame。
  • 六、DatetimeIndex 时间索引index对象
  • 总结


前言

本部分主要介绍一些注意事项。另外,series是基础,好多用法都是series扩展一下,很类似的。

1 loc和iloc注意事项。(后面这些都会在笔记中提到)

(1)返回的是Series还是dataframe取决于你有没有加中括号
【注】:如果你对数组索引单个也加上中括号,那么返回的将是 DataFrame 而不是 Series这个规则是普遍适用的,下面也有,这个规则要记住
【注】:单个的一般大家都习惯不加中括号,大不了最后用 .squeeze() ---- DataFrame转Series或者 .to_frame()转一下
(2)loc可以直接布尔索引,iloc布尔索引后还有.values一下转成numpy数组才能布尔索引

2 DataFrame的维度

一、 DataFrame的创建 — pd.DataFrame(data,index=None,columns=None)

— data:可以是字典、列表、NumPy 数组、Pandas Series 或 DataFrame 等。
— index:指定行索引,可以是列表、NumPy 数组或 Pandas Index 对象。
— columns:指定列名,可以是列表、NumPy 数组或 Pandas Index 对象。
没有指定就生成默认的位置索引。

1 字典创建DataFrame(字典转Dataframe很常用)

## 利用字典创建DataFrame
dict = {'数学':[93,89,80,77],'英语':[90,80,70,75],'语文':[87,79,67,92]}
df1 = pd.DataFrame(dict)
print(df1)                          #      数学  英语  语文#   0   93   90    87#   1   89   80    79#   2   80   70    67#   3   77   75    92df2 =pd.DataFrame(dict,index=['张三','李四','王五','赵六'])
print(df2)                          #      数学  英语  语文# 张三   93   90    87# 李四   89   80    79# 王五   80   70    67# 赵六   77   75    92

2 用numpy数组或者嵌套list创建DataFrame

# 从列表创建
data = [['Alice', 25], ['Bob', 30], ['Charlie', 35]]
df1 = pd.DataFrame(data,index=['a','b','c'] ,columns=['Name', 'Age'])
print(df1)                  #       Name  Age# a    Alice   25# b      Bob   30# c  Charlie   35# 从 NumPy 数组创建
data = np.array([[1, 2], [3, 4], [5, 6]])
df2 = pd.DataFrame(data, index=['a','b','c'], columns=['A', 'B'])      
print(df2)                  #    A  B# a  1  2# b  3  4# c  5  6

二、DataFrame的访问、索引、切片、布尔索引、修改等操作

1 行切片访问 df[ : ] ---- 不能用单个数字索引,只能用切片索引(后面会用loc和iloc替代这个很呆的功能)

【注1】:这里切片就是真要切片了,不支持 df[0] , df[1]这种
【注2】:所以就很呆,所以我们后面都会用loc和iloc来替代这个垃圾功能
【注3】:切片无论是有没有设置自定义index都可以用默认位置索引(左闭右开),用自定义(符号)index也可以,但是是(左闭右闭)

# 创建一个示例 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],'Age': [24, 27, 22, 32, 29],'Score': [85.5, 88.0, 95.0, 70.5, 80.0]
}
df = pd.DataFrame(data)        #      Name  Age  Score
print(df)                      # 0    Alice   24   85.5# 1      Bob   27   88.0# 2  Charlie   22   95.0# 3    David   32   70.5# 4      Eve   29   80.0print(df[0:3])                 #      Name  Age  Score# 0    Alice   24   85.5# 1      Bob   27   88.0# 2  Charlie   22   95.0    df2 = pd.DataFrame(data, index=['a', 'b', 'c', 'd', 'e'])      # 自定义一下索引
print(df2)                     #       Name  Age  Score# a    Alice   24   85.5# b      Bob   27   88.0# c  Charlie   22   95.0# d    David   32   70.5# e      Eve   29   80.0print(df2[0:3])                #       Name  Age  Score# a    Alice   24   85.5# b      Bob   27   88.0# c  Charlie   22   95.0print(df2['a':'c'])            #       Name  Age  Score# a    Alice   24   85.5# b      Bob   27   88.0# c  Charlie   22   95.0print(df2[0])              # KeyError: 0 不能用数字索引,只能用切片索引

2 按列选择

df[‘column_name’]:选择单列,返回 Series。

df[[‘column_name’]] :选择单列,返回 DataFrame。

【注】:如果你对数组索引单个也加上中括号,那么返回的将是 DataFrame 而不是 Series这个规则是普遍适用的,下面也有,这个规则要记住
【注】:单个的一般大家都习惯不加中括号,大不了最后用 .squeeze() ---- DataFrame转Series或者 .to_frame()转一下

# 创建示例 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],'Age': [24, 27, 22, 32],'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
print(df)               #     Name  Age         City# 0    Alice   24     New York# 1      Bob   27  Los Angeles# 2  Charlie   22      Chicago# 3    David   32      Houstonprint(df['Name'])       # 0      Alice# 1        Bob# 2    Charlie# 3      David# Name: Name, dtype: object           Seriesprint(df[['Name']])     #      Name# 0    Alice# 1      Bob# 2  Charlie# 3    David# DataFrame                         两个中括号返回的是 DataFrame

df[[‘col1’, ‘col2’]]:选择多列,返回 DataFrame。

3 按布尔条件选择

df[df[‘column_name’] > value]:选择满足条件的行。

df[(df[‘Age’] > 25) & (df[‘Score’] > 85)] :and 注意里面布尔条件都要分别用小括号括起来,不然会报错

df[(df[‘Age’] > 25) | (df[‘Score’] > 85)] : or

# 创建一个示例 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],'Age': [24, 27, 22, 32, 29],'Score': [85.5, 88.0, 95.0, 70.5, 80.0]
}
df = pd.DataFrame(data)        #      Name  Age  Score
print(df)                      # 0    Alice   24   85.5# 1      Bob   27   88.0# 2  Charlie   22   95.0# 3    David   32   70.5# 4      Eve   29   80.0print(df[(df['Age'] > 25) & (df['Score'] > 85)])        #    Name  Age  Score# 1   Bob   27   88.0 

4 loc[ ] 与 iloc[ ]进行操作

  • [注]:关于你筛选出来的数据是DataFrame还是Series关键在于你整数数组访问单个时有没有加中括号,没有加就有可能是Series,有就是DataFrame,看下面例子就懂了
  • [注]:其实这个用法记住各种筛选条件可以混合用就是了

(1)loc[ ]

loc:基于标签(名称)的索引,用于按行和列的标签来访问数据。适合于按行/列标签精确选择数据。
初始要筛选的DataFrame

# 创建示例 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],'Age': [24, 27, 22, 32],'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
df.set_index('Name', inplace=True)
print(df)                            #        Age         City# Name                      # Alice     24     New York# Bob       27  Los Angeles# Charlie   22     Chicago# David     32     Houston
基于行标签的选择 — df.loc[‘Alice’] ,df.loc[[‘Alice’]]
df.loc[‘Alice’] — 返回 Series
df.loc[[‘Alice’]] — 返回 DataFrame
df.loc[[‘Bob’, ‘David’]] — 返回 DataFrame ,这种数组的索引方式都可以用

如果你对数组索引单个也加上中括号,那么返回的将是 DataFrame 而不是 Series这个规则是普遍适用的,下面也有

# 按行标签选择
row = df.loc['Alice']               
print(row)                           # Age            24# City    New York# Name: Alice, dtype: object                # 单行返回 Seriesrow2 = df.loc[['Alice']]                # 加上中括号,返回的是 DataFrame了·
print(row2)                         #        Age      City# Name                   # Alice     24  New Yorkdf2 = df.loc[['Bob', 'David']]
print(df2)                           #        Age         City# Name                      # Bob       27  Los Angeles# David     32     Houston
  • 选择标签为 ‘Alice’ 的行。
基于行和列标签的选择 — df.loc[‘Alice’, ‘Age’] , df.loc[‘Alice’, [‘Age’, ‘City’]], df.loc[[‘Alice’], [‘Age’, ‘City’]]
df.loc[‘Alice’, [‘Age’, ‘City’]] — 返回Series
df.loc[[‘Alice’], [‘Age’, ‘City’]] — 返回Dataframe

如果你对数组索引单个也加上中括号,那么返回的将是 DataFrame 而不是 Series这个规则是普遍适用的,下面也有

  • 选择标签为 ‘Alice’ 的行和 ‘Age’ 列对应的单元格数据。

  • 选择标签为 ‘Alice’ 的行以及 ‘Age’ 和 ‘City’ 列。

# 选择特定行和列
value = df.loc['Alice', 'Age']       
print(value)                         # 24                                    # 如果只选择一行一列,返回的是标量# 选择特定行的多列  --- 返回 Series
subset = df.loc['Alice', ['Age', 'City']] 
print(subset)                        # Age          24# City    New York# Name: Alice, dtype: object              # 注意:返回的是 Series# 选择特定行的多列  --- 返回 DataFrame
subset2 = df.loc[['Alice'], ['Age', 'City']] 
print(subset2)                       #        Age      City# Name                  # Alice     24  New York                      
# 如果你对数组索引单个也加上中括号,那么返回的将是 DataFrame 而不是 Series
基于行和列范围的选择(切片) — df.loc[‘Alice’:‘Charlie’, ‘Age’:‘City’]
# 选择行标签在一定范围内的多行和多列
subset = df.loc['Alice':'Charlie', 'Age':'City']
print(subset)                        #          Age         City# Name                      # Alice     24     New York# Bob       27  Los Angeles# Charlie   22     Chicago
  • 选择行标签从 ‘Alice’ 到 ‘Charlie’(包括)的行,以及从 ‘Age’ 到 ‘City’ 的列。
基于布尔条件的选择 ---- df.loc[df[‘Age’] > 25] , df.loc[df[‘Age’] > 25, [‘City’]]
  • 选择 ‘Age’ 列大于 25 的所有行。
  • 选择 ‘Age’ 列大于 25 的行,并只保留 ‘City’ 列。
subset = df.loc[df['Age'] > 25]
print(subset)                        #        Age         City# Name                      # Bob       27  Los Angeles# David     32     Houstonsubset2 

这篇关于pandas ---- pd.DataFrame基本用法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1061142

相关文章

基本知识点

1、c++的输入加上ios::sync_with_stdio(false);  等价于 c的输入,读取速度会加快(但是在字符串的题里面和容易出现问题) 2、lower_bound()和upper_bound() iterator lower_bound( const key_type &key ): 返回一个迭代器,指向键值>= key的第一个元素。 iterator upper_bou

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav

【IPV6从入门到起飞】5-1 IPV6+Home Assistant(搭建基本环境)

【IPV6从入门到起飞】5-1 IPV6+Home Assistant #搭建基本环境 1 背景2 docker下载 hass3 创建容器4 浏览器访问 hass5 手机APP远程访问hass6 更多玩法 1 背景 既然电脑可以IPV6入站,手机流量可以访问IPV6网络的服务,为什么不在电脑搭建Home Assistant(hass),来控制你的设备呢?@智能家居 @万物互联

bytes.split的用法和注意事项

当然,我很乐意详细介绍 bytes.Split 的用法和注意事项。这个函数是 Go 标准库中 bytes 包的一个重要组成部分,用于分割字节切片。 基本用法 bytes.Split 的函数签名如下: func Split(s, sep []byte) [][]byte s 是要分割的字节切片sep 是用作分隔符的字节切片返回值是一个二维字节切片,包含分割后的结果 基本使用示例: pa

C 语言的基本数据类型

C 语言的基本数据类型 注:本文面向 C 语言初学者,如果你是熟手,那就不用看了。 有人问我,char、short、int、long、float、double 等这些关键字到底是什么意思,如果说他们是数据类型的话,那么为啥有这么多数据类型呢? 如果写了一句: int a; 那么执行的时候在内存中会有什么变化呢? 橡皮泥大家都玩过吧,一般你买橡皮泥的时候,店家会赠送一些模板。 上

FreeRTOS-基本介绍和移植STM32

FreeRTOS-基本介绍和STM32移植 一、裸机开发和操作系统开发介绍二、任务调度和任务状态介绍2.1 任务调度2.1.1 抢占式调度2.1.2 时间片调度 2.2 任务状态 三、FreeRTOS源码和移植STM323.1 FreeRTOS源码3.2 FreeRTOS移植STM323.2.1 代码移植3.2.2 时钟中断配置 一、裸机开发和操作系统开发介绍 裸机:前后台系

Java 多线程的基本方式

Java 多线程的基本方式 基础实现两种方式: 通过实现Callable 接口方式(可得到返回值):

UVM:callback机制的意义和用法

1. 作用         Callback机制在UVM验证平台,最大用处就是为了提高验证平台的可重用性。在不创建复杂的OOP层次结构前提下,针对组件中的某些行为,在其之前后之后,内置一些函数,增加或者修改UVM组件的操作,增加新的功能,从而实现一个环境多个用例。此外还可以通过Callback机制构建异常的测试用例。 2. 使用步骤         (1)在UVM组件中内嵌callback函

Java基础回顾系列-第一天-基本语法

基本语法 Java基础回顾系列-第一天-基本语法基础常识人机交互方式常用的DOS命令什么是计算机语言(编程语言) Java语言简介Java程序运行机制Java虚拟机(Java Virtual Machine)垃圾收集机制(Garbage Collection) Java语言的特点面向对象健壮性跨平台性 编写第一个Java程序什么是JDK, JRE下载及安装 JDK配置环境变量 pathHe

这些ES6用法你都会吗?

一 关于取值 取值在程序中非常常见,比如从对象obj中取值 const obj = {a:1b:2c:3d:4} 吐槽: const a = obj.a;const b = obj.b;const c = obj.c;//或者const f = obj.a + obj.b;const g = obj.c + obj.d; 改进:用ES6解构赋值