Excel如何打开百万行及以上的csv,再快速整理、提取出想要的数据?

2023-10-21 01:20

本文主要是介绍Excel如何打开百万行及以上的csv,再快速整理、提取出想要的数据?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

##Excel如何打开百万行及以上的csv,再快速整理、提取出想要的数据?

大数据时代,百万行及以上数据如何处理?–PowerQuery(PQ)是不错的选择。

通常来讲,百万行数据我们只需要用到其中的一部分,或者只是作统计

excel支持100万行数据,但是用excel打开较大的数据很慢(30M及以上)、超100万行的部分会被截掉、即使打开了操作经常会无响应(特别是带了公式,还没关掉自动计算);或许只能把数据切割后,分次操作。总之,效率很低,无法忍受的低。

简单讲下我自己如何用PQ实现的:

  1. 有个csv文件,643M,没法直接打开所以多少万行我也不清楚(╥_╥)
    在这里插入图片描述
  2. csv加载到PQ中
    新建一张空表,PQ导入这个大家伙。
    在这里插入图片描述
    在这里插入图片描述

点击编辑,进入编辑界面。
在这里插入图片描述
3. PQ中整理

比如,我想要看下CO_OBJECT_INSTANCE列有哪些数据,因为PQ无法加载所有数据,所以对这一列去重复项,那么就可以得到这列有哪些数据。

为了提高速度,右键CO_OBJECT_INSTANCE列,删除其他列;
在这里插入图片描述
删完了,这样:在这里插入图片描述
立马我后悔了,突然想起另外还有几列要一起保留;PQ可以悔棋!
在这里插入图片描述
在这里插入图片描述
又回来了,这次好好选一下,选了3列,点删除其他列。
在这里插入图片描述
在这里插入图片描述
可以了,下一步。
右键CO_OBJECT_INSTANCE列,删除重复项。
在这里插入图片描述

  1. 加载到表格
    关闭并上载,右边的数字在跳转圈,等跑完。
    在这里插入图片描述
    删完重复项,得到16369行。
    在这里插入图片描述
    随机抽了几个校验下(464079、279149),里面确实有我想要的数据,而且这一列都是唯一的。
    在这里插入图片描述
    上面的例子,从643M的海量数据里面,提取了符合条件的16369行,总计花费3~4分钟。整体的效率可以说非常高!

基于这个数据,我可以再次用PQ查找、整理提取更多相关的数据。同时,可以发现PQ的操作界面和excel很相似,熟悉excel的朋友很快就能上手。

  1. 总结
    PowerQuery处理数据的过程类似于SQL操作,关联数据源后并不会加载整个文件,而是截取前面一小节数据显示(200行),大文件加载速度也很快。

根据这一段显示的数据,我们可以在海量数据中设置各种条件查找、整理、统计,设置条件过程中会校验是否有错;调试通过后关闭上载,PQ就会遍历整个文件,把符合条件的数据摘出来输出到excel中,源数据不改动。当然,源数据中有改动,直接刷新整个查询结果也会更新,它是动态的。

例子里做的各种操作,其实都被翻译成了M语言。通过点选无法实现的操作,可以通过M语言来抽象编写实现进阶操作。
在这里插入图片描述
在这里插入图片描述
PQ支持的多种数据源,甚至可以连数据库。多表或多数据源直接可以合并查询(高级版vlookup),方便快捷。支持sql语句查询!

所以,整理大数据的时候,可以考虑使用下PowerQuery。

如果本文帮助有帮助到你,记得鼓励一下哦~(⊙ᗜ⊙)

这篇关于Excel如何打开百万行及以上的csv,再快速整理、提取出想要的数据?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/250950

相关文章

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

Redis事务与数据持久化方式

《Redis事务与数据持久化方式》该文档主要介绍了Redis事务和持久化机制,事务通过将多个命令打包执行,而持久化则通过快照(RDB)和追加式文件(AOF)两种方式将内存数据保存到磁盘,以防止数据丢失... 目录一、Redis 事务1.1 事务本质1.2 数据库事务与redis事务1.2.1 数据库事务1.

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结

更改docker默认数据目录的方法步骤

《更改docker默认数据目录的方法步骤》本文主要介绍了更改docker默认数据目录的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1.查看docker是否存在并停止该服务2.挂载镜像并安装rsync便于备份3.取消挂载备份和迁

不删数据还能合并磁盘? 让电脑C盘D盘合并并保留数据的技巧

《不删数据还能合并磁盘?让电脑C盘D盘合并并保留数据的技巧》在Windows操作系统中,合并C盘和D盘是一个相对复杂的任务,尤其是当你不希望删除其中的数据时,幸运的是,有几种方法可以实现这一目标且在... 在电脑生产时,制造商常为C盘分配较小的磁盘空间,以确保软件在运行过程中不会出现磁盘空间不足的问题。但在

Rust中的Option枚举快速入门教程

《Rust中的Option枚举快速入门教程》Rust中的Option枚举用于表示可能不存在的值,提供了多种方法来处理这些值,避免了空指针异常,文章介绍了Option的定义、常见方法、使用场景以及注意事... 目录引言Option介绍Option的常见方法Option使用场景场景一:函数返回可能不存在的值场景

SpringBoot使用Apache POI库读取Excel文件的操作详解

《SpringBoot使用ApachePOI库读取Excel文件的操作详解》在日常开发中,我们经常需要处理Excel文件中的数据,无论是从数据库导入数据、处理数据报表,还是批量生成数据,都可能会遇到... 目录项目背景依赖导入读取Excel模板的实现代码实现代码解析ExcelDemoInfoDTO 数据传输

如何提高Redis服务器的最大打开文件数限制

《如何提高Redis服务器的最大打开文件数限制》文章讨论了如何提高Redis服务器的最大打开文件数限制,以支持高并发服务,本文给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧... 目录如何提高Redis服务器的最大打开文件数限制问题诊断解决步骤1. 修改系统级别的限制2. 为Redis进程特别设置限制

java poi实现Excel多级表头导出方式(多级表头,复杂表头)

《javapoi实现Excel多级表头导出方式(多级表头,复杂表头)》文章介绍了使用javapoi库实现Excel多级表头导出的方法,通过主代码、合并单元格、设置表头单元格宽度、填充数据、web下载... 目录Java poi实现Excel多级表头导出(多级表头,复杂表头)上代码1.主代码2.合并单元格3.

Java如何接收并解析HL7协议数据

《Java如何接收并解析HL7协议数据》文章主要介绍了HL7协议及其在医疗行业中的应用,详细描述了如何配置环境、接收和解析数据,以及与前端进行交互的实现方法,文章还分享了使用7Edit工具进行调试的经... 目录一、前言二、正文1、环境配置2、数据接收:HL7Monitor3、数据解析:HL7Busines