本文主要是介绍Hive中分区表与分桶表的区别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
分区表:
创建一个分区,把1张或多张表放入到这个分区中,这样可以在查询时避免进行全表查询,从而提高查询效率,分区表在HDFS上的表现形式是目录.
分桶表:
分桶表是一种更细粒度的数据分配方式,可以对一张表的某一列进行分桶,让该列数据按照哈希取模的方式随机、均匀地分发到各个桶文件中。这样一方面可以提高查询效率,另一方面用于数据的抽样,方便进行数据测试。在处理大规模数据集时,在开发和修改查询的阶段,如果能在数据集的一小部分数据上试运行查询,会带来很多方便。分桶表在HDFS上的表现形式是文件.
这篇关于Hive中分区表与分桶表的区别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!