python读取大型csv文件,降低内存占用,提高程序处理速度

本文主要是介绍python读取大型csv文件,降低内存占用,提高程序处理速度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 简介
    • 读取前多少行
    • 读取属性列
    • 逐块读取整个文件
    • 总结
    • 参考资料

简介

遇到大型的csv文件时,pandas会把该文件全部加载进内存,从而导致程序运行速度变慢。
本文提供了批量读取csv文件、读取属性列的方法,减轻内存占用情况。

import pandas as pdinput_file = 'data.csv'

读取前多少行

加载前100000行数据

df = pd.read_csv(input_file, nrows=1e5)
df

查看每个字段占用的系统内存的情况

df.info(memory_usage='deep')

设置 memory_usage 的参数为 ‘deep’ 时,深度检查对象中的内存使用情况,包括对象中可能包含的其他对象(如列表、数组或其他数据结构)。若不设置deep参数,memory_usage 只会返回一个对象的基础内存使用情况,这主要基于对象本身的内存占用,而不考虑它可能引用的其他对象。
在这里插入图片描述
如上图所示,前100000行数据共占用220.MB内存。

查看每列属性的内存占用情况;

item = df.memory_usage(deep=True)

在这里插入图片描述

针对每个属性列的字节数进行求和,使用/ (1024 ** 2),实现1B到1MB的单位转换。验证了所有属性列的内存占用确实为 220.8MB。

在这里插入图片描述

内存占用从高到低降序排列:

df.memory_usage(deep=True).sort_values(ascending=False)

在这里插入图片描述

读取属性列

可能我们只关心, 一整张表中的某几个属性,比如:'企业名称', '经营范围'。那么便无需把整张表加载进内存。

df2 = pd.read_csv(input_file, nrows=1e5, usecols=['企业名称', '经营范围'])

查看一下内存占用

df2.memory_usage(deep=True).sum() / (1024 ** 2)

在这里插入图片描述
只读取两个属性列,内存占用只有33MB。

逐块读取整个文件

pd.read_csv(input_file, chunksize=1e3, nrows=1e5)

  • nrows=1e5: 读取100000条数据;
  • chunksize=1e3: 每一块是1000条数据;

1e5条数据,应该由100块1e3的数据组成;

# 分批次读取, 每chunksize是一个批次
chunk_dfs = pd.read_csv(input_file, chunksize=1e3, nrows=1e5)v = 0
cnt = 0
# 每个chunk_df 都是 dataframe 类型数据
for chunk_df in chunk_dfs:print(chunk_df.shape)cnt += 1v += chunk_df.shape[0]
print(v, cnt)

在这里插入图片描述
上图验证了,总共处理了1e5条数据,分成了100块进行读取。

总结

pd.read_csv(input_file, nrows, usecols, chunksize)
  • nrows: 读取多少行数据;
  • usecols: 读取哪些属性列的数据;
  • chunksize:分块读取,每一块的大小是多少条数据;

参考资料

  • 推荐 | 如何处理远超电脑内存的csv文件

这篇关于python读取大型csv文件,降低内存占用,提高程序处理速度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/803676

相关文章

SpringBoot实现微信小程序支付功能

《SpringBoot实现微信小程序支付功能》小程序支付功能已成为众多应用的核心需求之一,本文主要介绍了SpringBoot实现微信小程序支付功能,文中通过示例代码介绍的非常详细,对大家的学习或者工作... 目录一、引言二、准备工作(一)微信支付商户平台配置(二)Spring Boot项目搭建(三)配置文件

Python基础语法中defaultdict的使用小结

《Python基础语法中defaultdict的使用小结》Python的defaultdict是collections模块中提供的一种特殊的字典类型,它与普通的字典(dict)有着相似的功能,本文主要... 目录示例1示例2python的defaultdict是collections模块中提供的一种特殊的字

利用Python快速搭建Markdown笔记发布系统

《利用Python快速搭建Markdown笔记发布系统》这篇文章主要为大家详细介绍了使用Python生态的成熟工具,在30分钟内搭建一个支持Markdown渲染、分类标签、全文搜索的私有化知识发布系统... 目录引言:为什么要自建知识博客一、技术选型:极简主义开发栈二、系统架构设计三、核心代码实现(分步解析

基于Python实现高效PPT转图片工具

《基于Python实现高效PPT转图片工具》在日常工作中,PPT是我们常用的演示工具,但有时候我们需要将PPT的内容提取为图片格式以便于展示或保存,所以本文将用Python实现PPT转PNG工具,希望... 目录1. 概述2. 功能使用2.1 安装依赖2.2 使用步骤2.3 代码实现2.4 GUI界面3.效

Python获取C++中返回的char*字段的两种思路

《Python获取C++中返回的char*字段的两种思路》有时候需要获取C++函数中返回来的不定长的char*字符串,本文小编为大家找到了两种解决问题的思路,感兴趣的小伙伴可以跟随小编一起学习一下... 有时候需要获取C++函数中返回来的不定长的char*字符串,目前我找到两种解决问题的思路,具体实现如下:

python连接本地SQL server详细图文教程

《python连接本地SQLserver详细图文教程》在数据分析领域,经常需要从数据库中获取数据进行分析和处理,下面:本文主要介绍python连接本地SQLserver的相关资料,文中通过代码... 目录一.设置本地账号1.新建用户2.开启双重验证3,开启TCP/IP本地服务二js.python连接实例1.

基于Python和MoviePy实现照片管理和视频合成工具

《基于Python和MoviePy实现照片管理和视频合成工具》在这篇博客中,我们将详细剖析一个基于Python的图形界面应用程序,该程序使用wxPython构建用户界面,并结合MoviePy、Pill... 目录引言项目概述代码结构分析1. 导入和依赖2. 主类:PhotoManager初始化方法:__in

Python从零打造高安全密码管理器

《Python从零打造高安全密码管理器》在数字化时代,每人平均需要管理近百个账号密码,本文将带大家深入剖析一个基于Python的高安全性密码管理器实现方案,感兴趣的小伙伴可以参考一下... 目录一、前言:为什么我们需要专属密码管理器二、系统架构设计2.1 安全加密体系2.2 密码强度策略三、核心功能实现详解

Python Faker库基本用法详解

《PythonFaker库基本用法详解》Faker是一个非常强大的库,适用于生成各种类型的伪随机数据,可以帮助开发者在测试、数据生成、或其他需要随机数据的场景中提高效率,本文给大家介绍PythonF... 目录安装基本用法主要功能示例代码语言和地区生成多条假数据自定义字段小结Faker 是一个 python

Python实现AVIF图片与其他图片格式间的批量转换

《Python实现AVIF图片与其他图片格式间的批量转换》这篇文章主要为大家详细介绍了如何使用Pillow库实现AVIF与其他格式的相互转换,即将AVIF转换为常见的格式,比如JPG或PNG,需要的小... 目录环境配置1.将单个 AVIF 图片转换为 JPG 和 PNG2.批量转换目录下所有 AVIF 图