文章目录 概述Columnar VS Row-basedORC和PARQUETORCParquet 实验准备创建数据库创建表和加载数据比较表的大小 存储格式+压缩ORCPARQUET 概述 本文通过使用Hadoop的数据仓库工具Hive中的不同存储格式,比较按行存储和按列存储的不同。按列存储使用的是企业中最长见的ORC和PARQUET。 这里不讲解对于Hive的使用。 Co
Spark SQL 可以将数据缓存到内存中,我们可以见到的通过调用cache table tableName即可将一张表缓存到内存中,来极大的提高查询效率。 这就涉及到内存中的数据的存储形式,我们知道基于关系型的数据可以存储为基于行存储结构 或 者基于列存储结构,或者基于行和列的混合存储,即Row Based Storage、Column Based Storage、 PAX Stora