在前篇文章中我介绍了Spark on YARN集群模式(yarn-cluster)作业从提交到运行整个过程的情况(详情见《Spark on YARN集群模式作业运行全过程分析》),我们知道Spark on yarn有两种模式:yarn-cluster和yarn-client。这两种模式作业虽然都是在yarn上面运行,但是其中的运行方式很不一样,今天我就来谈谈Spark on YARN
Hive on spark 性能远比hive on mr 要好,而且提供了一样的功能。用户的sql无需修改就可以直接运行于hive on spark。udf函数也是全部支持。 本文主要是想讲hive on spark 在运行于yarn模式的情况下如何调优。 下文举例讲解的yarn节点机器配置,假设有32核,120GB内存。 yarn配置调优 yarn.nodemanager.resource.c
MapReduce配置文件 mapred-env.sh,新增环境变量 [root@hadoop1 hadoop]# vi /export/server/hadoop/etc/hadoop/mapred-env.shexport JAVA_HOME=/export/server/jdkexport HAPOOD_JOB_HISTORYSERVER_HEAPSIZE=1000export H