【机器学习】数据格式csv/txt/pkl

2023-10-03 14:06

本文主要是介绍【机器学习】数据格式csv/txt/pkl,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

      • 序言
      • 1. 数据存成csv、txt还是pkl
      • 2. pandas怎么读取csv、txt文件或者pkl文件
      • 3. 数据格式:pkl文件补充介绍

序言

  • 用什么格式存储场景挖掘得到的数据
  • 目前为止用到过的一些数据存储格式,如proto/xml/json/txt/csv等,还有pkl,哪种比较适合数据集存储呢

1. 数据存成csv、txt还是pkl

  • csv和txt都是文本文件,pkl是二进制文件

    • csv

      • 数据量小的话,推荐将数据存成csv,以逗号分隔的文本文件,可直接更改后缀为其他文件
      • csv可在其他语言如python/matlab/R/excel中自由切换,数据格式不受损
    • txt

      • txt的优势是体积小,便于存储,一般以空格为分隔符
    • pkl

      • 如果数据量大、内存吃紧,而且访问的时候要按照batch访问硬盘,读取效率最高的是pkl
      • pkl还能直接保存成tensor,节省了读取后转成tensor的时间,避免了数据二次处理
    • 当然还有其他的一些格式npy等

  • 读取效率排序:pkl > npy > csv

2. pandas怎么读取csv、txt文件或者pkl文件

  • pandas是数据处理必不可少的库

    • 读取csv:常用的两个函数:pandas.read_csv 和 pandas.to_csv

      data=pd.read_csv('./mydata.csv')		# 读取csv格式文件
      data.to_csv('./my_new_data.csv')		# 生成csv格式文件
      
    • 读取txt:pandas在读取txt时,read_csv和read_table均可使用

      data =  pd.read_table("./mydatat.txt")				# 调用read_table函数读取txt文件
      df =  pd.read_csv("./my_new_data.txt",sep=',')		# 调用read_csv函数读取txt文件
      
    • 读取pkl

      data.to_pickle(filePath)		# pandas, 文件保存
      data.read_pickle(filePath)		# pandas, 文件读取import picklewith open(filePath, 'wb') as f:pickle.dump(data, f)		# pickle模块,文件保存with open(filePath, 'rb') as f:data = pickle.load(fp)		# pickle模块,文件读取
      

3. 数据格式:pkl文件补充介绍

  • pkl是指使用pyhton的pickle模块生成的二进制文件,用于将对象序列化到磁盘上,可以存储为.pkl文件。即pkl能提供一种简单有效的方法来序列化或者反序列化python对象,使其易于存储传输和共享

  • pkl可以将python项目中过程变量如字符串、列表、字典等数据保存起来,pkl甚至能保存模型,下次接着训练

  • pkl转csv

    import pickle as pkl
    import pandas as pdwith open(r'data.pkl', "rb") as f:object = pkl.load(f,encoding='latin1')
    df = pd.DataFrame(object)df.to_csv(r'Data.csv')object =pkl.load(f,encoding='latin1')
    

    容易在encoding处报错,可以根据实际pkl的编码规则更改为encoding=‘utf-8’


【参考文章】
数据保存成csv/txt/pkl文件
pkl文件介绍
保存和读取pkl文件
pkl格式文件
读取生成csv/txt

created by shuaixio, 2023.10.03

这篇关于【机器学习】数据格式csv/txt/pkl的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/421

相关文章

QT进行CSV文件初始化与读写操作

《QT进行CSV文件初始化与读写操作》这篇文章主要为大家详细介绍了在QT环境中如何进行CSV文件的初始化、写入和读取操作,本文为大家整理了相关的操作的多种方法,希望对大家有所帮助... 目录前言一、CSV文件初始化二、CSV写入三、CSV读取四、QT 逐行读取csv文件五、Qt如何将数据保存成CSV文件前言

Python如何将大TXT文件分割成4KB小文件

《Python如何将大TXT文件分割成4KB小文件》处理大文本文件是程序员经常遇到的挑战,特别是当我们需要把一个几百MB甚至几个GB的TXT文件分割成小块时,下面我们来聊聊如何用Python自动完成这... 目录为什么需要分割TXT文件基础版:按行分割进阶版:精确控制文件大小完美解决方案:支持UTF-8编码

关于pandas的read_csv方法使用解读

《关于pandas的read_csv方法使用解读》:本文主要介绍关于pandas的read_csv方法使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录pandas的read_csv方法解读read_csv中的参数基本参数通用解析参数空值处理相关参数时间处理相关

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

C# winform操作CSV格式文件

《C#winform操作CSV格式文件》这篇文章主要为大家详细介绍了C#在winform中的表格操作CSV格式文件的相关实例,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录实例一实例效果实现代码效果展示实例二实例效果完整代码实例一实例效果当在winform界面中点击读取按钮时 将csv中

Python如何实现读取csv文件时忽略文件的编码格式

《Python如何实现读取csv文件时忽略文件的编码格式》我们再日常读取csv文件的时候经常会发现csv文件的格式有多种,所以这篇文章为大家介绍了Python如何实现读取csv文件时忽略文件的编码格式... 目录1、背景介绍2、库的安装3、核心代码4、完整代码1、背景介绍我们再日常读取csv文件的时候经常

Python3脚本实现Excel与TXT的智能转换

《Python3脚本实现Excel与TXT的智能转换》在数据处理的日常工作中,我们经常需要将Excel中的结构化数据转换为其他格式,本文将使用Python3实现Excel与TXT的智能转换,需要的可以... 目录场景应用:为什么需要这种转换技术解析:代码实现详解核心代码展示改进点说明实战演练:从Excel到

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

使用Python处理CSV和Excel文件的操作方法

《使用Python处理CSV和Excel文件的操作方法》在数据分析、自动化和日常开发中,CSV和Excel文件是非常常见的数据存储格式,ython提供了强大的工具来读取、编辑和保存这两种文件,满足从基... 目录1. CSV 文件概述和处理方法1.1 CSV 文件格式的基本介绍1.2 使用 python 内