本文主要是介绍大数据什锦_ORCPARQUET_按列存储_Columnar VS Row-based,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
- 概述
- Columnar VS Row-based
- ORC和PARQUET
- ORC
- Parquet
- 实验准备
- 创建数据库
- 创建表和加载数据
- 比较表的大小
- 存储格式+压缩
- ORC
- PARQUET
概述
本文通过使用Hadoop的数据仓库工具Hive中的不同存储格式,比较按行存储和按列存储的不同。按列存储使用的是企业中最长见的ORC和PARQUET。
这里不讲解对于Hive的使用。
Columnar VS Row-based
-
行存储和列存储的存储区别
-
优缺点比较
- 按行存储:
优点:insert和update更加容易
缺点:查询某几列时,所有数据也都会被读取
- 按列存储:
优点:查询时只有涉及到的列会被读取;投影很高效;任何列都能作为索引
缺点:insert/update会比较麻烦
- 按行存储:
-
不同存储格式的
这篇关于大数据什锦_ORCPARQUET_按列存储_Columnar VS Row-based的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!