本文主要是介绍【硬刚Hive】Hive面试题(8)Hive调优全方位指南(三),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
3、Hive架构层面
3.1 启用本地抓取(默认开启)
Hive 的某些 SQL 语句需要转换成 MapReduce 的操作,某些 SQL 语句就不需要转换成 MapReduce 操作,但是同学们需要注意,理论上来说,所有的 SQL 语句都需要转换成 MapReduce 操作,只不过Hive 在转换 SQL 语句的过程中会做部分优化,使某些简单的操作不再需要转换成 MapReduce,例如:
1、只是 select * 的时候
2、where 条件针对分区字段进行筛选过滤时
3、带有 limit 分支语句时
3.2 本地执行优化
Hive 在集群上查询时,默认是在集群上多台机器上运行,需要多个机器进行协调运行,这种方式很好的解决了大数据量的查询问题。但是在 Hive 查询处理的数据量比较小的时候,其实没有必要启动分布式模式去执行,因为以分布式方式执行设计到跨网络传输、多节点协调等,并且消耗资源。对于小数据集,可以通过本地模式,在单台机器上处理所有任务,执行时间明显被缩短。
三个参数:
## 打开hive自动判断是否启动本地模式的开关
set hive.exec.mode.local.auto=true;
## map任务数最大值,不启
这篇关于【硬刚Hive】Hive面试题(8)Hive调优全方位指南(三)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!