本文主要是介绍Hive的analyze,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1、使用
分区表,无论字段
analyze TABLE td.pt_pmart_ceo_FIN_TRSF_CTR_SITE_MAP partition (dt) COMPUTE STATISTICS noscan
ps:一致报错的可能性在UDF函数建在了某个库下 ,只有在hue上的active database选择某个库的时候才能用UDF
刷新hdfs文件和表分区的映射关系
MSCK REPAIR TABLE jmxk_data.ods_sap_cskt_dd;
2、目的
见名知意,它的目的就是为了统计和分析的作用,它将统计的信息存储到metastore中,后续再来查询的时候就不需要在执行查询计算,而是直接获取即可
3、范围
统计信息支持新建的和现有的表,支持分区表和普通表的统计信息 以及列统计信息
4、ANALYZE相关
1、表统计
表统计的信息包括:行数,文件数,大小(以字节为单位)
- 1、hive 是默认自动收集统计信息,由hive.stats.autogather 配置参数决定,默认是true。但是对于load data 方式是不支持的。(想一下也可以知道,他应该是在计算的时候去计算出这些统计信息)
-注意:这个在hive中是自动收集的。在sparkThriftserver中并不适用,虽然用的hive的元数据信息,但是它们两个在这方面不相通。
这篇关于Hive的analyze的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!