polars专题

Python polars学习-06 Lazy / Eager API

背景 polars学习系列文章,第6篇 Lazy / Eager API Lazy: 延迟、惰性 Eager: 即时、实时 该系列文章会分享到github,大家可以去下载jupyter文件,进行参考学习 仓库地址:https://github.com/DataShare-duo/polars_learn 小编运行环境 import sysprint('python 版本:',sys.ver

polars学习-03 数据类型转换

背景 polars学习系列文章,第3篇 数据类型转换。 该系列文章会分享到github,大家可以去下载jupyter文件 仓库地址:https://github.com/DataShare-duo/polars_learn 小编运行环境 import sysprint('python 版本:',sys.version.split('|')[0])#python 版本: 3.11.5 imp

pandas,polars,pyspark的df对象常见用法对比

案例背景 最近上班需要处理的都是百万,千万级的数据,pandas的性能已经不够看了(虽然它在处理数据上是真的很好用),公司都是用的polar和pyspark,我最近也学习了一些,然后写篇文章对比一下他们的常见用法。虽然他们都有数据框dataframe这个数据结构,但是具体用法还是有很多差异的。 数据选取 都是做数据分析的,那么就用最简单的机器学习数据集波士顿房价数据集吧,演示以下常见的数

最强 Pandas 平替工具库:Polars

Polars是一个用于操作结构化数据的高性能DataFrame库,可以说是平替pandas最有潜质的包。Polars其核心部分是用Rust编写的,但该库也提供了Python接口。它的主要特点包括: 快速: Polars是从零开始编写的,紧密与机器结合,没有外部依赖。 I/O: 对所有常见数据存储层提供一流支持:本地、云存储和数据库。 易于使用: 以原始意图编写查询。Polars 在内部会使

比较 pandas 和 Polars 的处理速度和易用性

如果使用 Python,肯定会使用的库之一就是 pandas。 这是一个优秀的库,可以轻松处理表数据,其中一个后继者的库是 Polars。 尤其是在速度方面比pandas有优势,可以看作是能够解决pandas的弱点。 这次,想测量一下 pandas 和 Polars 之间的处理速度,并验证哪一个更好,包括易用性。 最后总结以下三点: 执行速度library的便利可以用polar取代panda