【python】pyarrow.parquet+pandas:读取及使用parquet文件

2024-02-16 00:04

本文主要是介绍【python】pyarrow.parquet+pandas:读取及使用parquet文件,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 一、前言
    • 1. 所需的库
    • 2. 终端指令
  • 二、pyarrow.parquet
    • 1. 读取Parquet文件
    • 2. 写入Parquet文件
    • 3. 对数据进行操作
    • 4. 导出数据为csv
  • 三、实战
    • 1. 简单读取
    • 2. 数据操作(分割feature)
    • 3. 迭代方式来处理Parquet文件
    • 4. 读取同一文件夹下多个parquet文件

  Parquet是一种用于列式存储压缩数据的文件格式,广泛应用于大数据处理和分析中。Python提供了多个库来处理Parquet文件,例如pyarrow和fastparquet。
  本文将介绍如何使用pyarrow.parquet+pandas库操作Parquet文件。

一、前言

1. 所需的库

import pyarrow.parquet as pq
import pandas as pd

  pyarrow.parquet模块,可以读取和写入Parquet文件,以及进行一系列与Parquet格式相关的操作。例如,可以使用该模块读取Parquet文件中的数据,并转换为pandas DataFrame来进行进一步的分析和处理。同时,也可以使用这个模块将DataFrame的数据保存为Parquet格式。

2. 终端指令

conda create -n DL python==3.11
conda activate DL
conda install pyarrow

pip install pyarrow

二、pyarrow.parquet

  当使用pyarrow.parquet模块时,通常的操作包括读取和写入Parquet文件,以及对Parquet文件中的数据进行操作和转换。以下是一些常见的使用方法:

1. 读取Parquet文件

import pyarrow.parquet as pqparquet_file = pq.ParquetFile('file.parquet')
data = parquet_file.read().to_pandas()
  • 使用pq.ParquetFile打开Parquet文件;
  • 使用read().to_pandas()方法将文件中的数据读取为pandas DataFrame

2. 写入Parquet文件

import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pqdf = pd.DataFrame({'col1': [1, 2, 3], 'col2': ['a', 'b', 'c']})
table = pa.Table.from_pandas(df)pq.write_table(table, 'output.parquet')
  • 将pandas DataFrame转换为Arrow的Table格式;
  • 使用pq.write_table方法将Table写入为Parquet文件。
parquet_file = pq.ParquetFile('output.parquet')
data = parquet_file.read().to_pandas()
print(data)

在这里插入图片描述

3. 对数据进行操作

import pyarrow.parquet as pq# 读取Parquet文件
parquet_file = pq.ParquetFile('output.parquet')
data = parquet_file.read().to_pandas()# 对数据进行筛选和转换
filtered_data = data[data['col1'] > 1]  # 筛选出col1大于1的行
print(filtered_data)
transformed_data = filtered_data.assign(col3=filtered_data['col1'] * 2)  # 添加一个新列col3,值为col1的两倍# 打印处理后的数据
print(transformed_data)

在这里插入图片描述

4. 导出数据为csv

import pyarrow.parquet as pq
import pandas as pdparquet_file = pq.ParquetFile('output.parquet')
data = parquet_file.read().to_pandas()df = pd.DataFrame(data)
csv_path = './data.csv'
df.to_csv(csv_path)
print(f'数据已保存到 {csv_path}')

在这里插入图片描述

三、实战

1. 简单读取

import pyarrow.parquet as pq
import pandas as pdparquet_file = pq.ParquetFile('./train_parquet/part-00014-918feee1-1ad5-4b08-8876-4364cc996930-c000.snappy.parquet')
data = parquet_file.read().to_pandas()df = pd.DataFrame(data)
csv_path = './data2.csv'
df.to_csv(csv_path)
print(f'数据已保存到 {csv_path}')

关于PyCharm调试操作可参照:PyCharm基础调试功能详解

在这里插入图片描述
点击右侧蓝色的View as DataFrame
在这里插入图片描述

  如图所示,feature在同一个格内,导出为:
在这里插入图片描述
注意看,省略号...位置真的就是省略号字符,没有数字,即

[0.27058824 0.         0.05882353 ... 0.47843137 0.36862745 0.97647059]

2. 数据操作(分割feature)

import pyarrow.parquet as pq
import pandas as pdparquet_file = pq.ParquetFile('./train_parquet/part-00014-918feee1-1ad5-4b08-8876-4364cc996930-c000.snappy.parquet')
data = parquet_file.read().to_pandas()# 将feature列中的列表拆分成单独的特征值
split_features = data['feature'].apply(lambda x: pd.Series(x))# 将拆分后的特征添加到DataFrame中
data = pd.concat([data, split_features], axis=1)
print(data.head(2))
# 删除原始的feature列
data = data.drop('feature', axis=1)# 保存到csv文件
csv_path = './data1.csv'
data.to_csv(csv_path, index=False)print(f'数据已保存到 {csv_path}')
  • 调试打开:
    在这里插入图片描述
  • excel打开:
    在这里插入图片描述
  • 文件大小对比
    在这里插入图片描述

部分内容援引自博客:使用python打开parquet文件

3. 迭代方式来处理Parquet文件

  如果Parquet文件非常大,可能会占用大量的内存。在处理大型数据时,建议使用迭代的方式来处理Parquet文件,以减少内存的占用。以下是一种更加内存友好的方式来处理Parquet文件:

import pyarrow.parquet as pq
import pandas as pd
import timestart_time = time.time()  # 记录开始时间# 使用迭代器迭代读取Parquet文件中的数据
data_iterator = pq.ParquetFile('./train_parquet/part-00014-918feee1-1ad5-4b08-8876-4364cc996930-c000.snappy.parquet').iter_batches(batch_size=100)# 初始化空的DataFrame用于存储数据
data = pd.DataFrame()# 逐批读取数据并进行处理
for batch in data_iterator:# 将RecordBatch转换为Pandas DataFramedf_batch = batch.to_pandas()# 将feature列中的列表拆分成单独的特征值split_features = df_batch['feature'].apply(lambda x: pd.Series(x))# 将拆分后的特征添加到DataFrame中df_batch = pd.concat([df_batch, split_features], axis=1)# 将处理后的数据追加到DataFrame中data = data._append(df_batch, ignore_index=True)# 删除原始的feature列
data = data.drop('feature', axis=1)# 保存到csv文件
csv_path = './data3.csv'
data.to_csv(csv_path, index=False)end_time = time.time()  # 记录结束时间
print(f'数据已保存到 {csv_path}')
print(f'总运行时间: {end_time - start_time} 秒')

输出:

数据已保存到 ./data3.csv
总运行时间: 4.251184940338135

4. 读取同一文件夹下多个parquet文件

import os
import pyarrow.parquet as pq
import pandas as pd
import timestart_time = time.time()  # 记录开始时间folder_path = './train_parquet/'
parquet_files = [f for f in os.listdir(folder_path) if f.endswith('.parquet')]# 初始化空的DataFrame用于存储数据
data = pd.DataFrame()# 逐个读取Parquet文件中的数据并进行处理
for file in parquet_files:file_path = os.path.join(folder_path, file)data_iterator = pq.ParquetFile(file_path).iter_batches(batch_size=1024)for batch in data_iterator:# 将RecordBatch转换为Pandas DataFramedf_batch = batch.to_pandas()# 将feature列中的列表拆分成单独的特征值split_features = df_batch['feature'].apply(lambda x: pd.Series(x))# 将拆分后的特征添加到DataFrame中df_batch = pd.concat([df_batch, split_features], axis=1)# 将处理后的数据追加到DataFrame中data = data._append(df_batch, ignore_index=True)# 删除原始的feature列
data = data.drop('feature', axis=1)# 保存到csv文件
csv_path = './data.csv'
data.to_csv(csv_path, index=False)end_time = time.time()  # 记录结束时间
print(f'数据已保存到 {csv_path}')
print(f'总运行时间: {end_time - start_time} 秒')

这篇关于【python】pyarrow.parquet+pandas:读取及使用parquet文件的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/712934

相关文章

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss