本文主要是介绍Apache Arrow优点,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
优点
- 采用连续的内存布局,在单机计算的时候,对操作系统友好,增加了缓存命中率以及读取数据的效率
- 采用列式存储,在单机计算的时候,可以利用SMID向量化处理,并且增加了查询效率(一般查询的时候只是查询几列)
- 采用列式存储,IPC进程间通信传输的时候,提高了压缩率
- 采用零拷贝,IPC进程间通信传输的时候,减少了数据传输的开销
- 跨语言的标准化规范,消除了各个格式之间转换所需要的序列化和反序列化的时间
以上优点实现了高速的数据传输和处理能力,使得它在大数据场景下有很好的优化价值
参考
- Apache Arrow: 数据工程的未来
- Arrow协议及简介
这篇关于Apache Arrow优点的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!