本文主要是介绍Hive Job层面的优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1. Run in Local Mode
数据处理比较小的时候就运行本地模式,
不需要分布式。
把阀值这三个设置改一下就是本地模式了。
2. JVM Reuse
Hadoop每当得到一个map或者reduce任务的时候,
就会启动一个新的JVM。
处理job时间比较短,但是启动JVM太费时了。
配置成JVM Reuse可以大大优化
3. Parallel Exectution 并行执行
这个很常用的,默认是关闭的。
hive很多阶段是可以并行执行的,
并不是每个阶段都互相依赖,
如果集群中资源利用效率不高,可以考虑开启此选项。
这篇关于Hive Job层面的优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!