本文主要是介绍一、Spark性能调优——最优资源配置,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Spark 性能调优的第一步,就是为任务分配更多的资源, 在一定范围内,增加资源的分配与性能的提升是成正比的, 实现了最优的资源配置后, 在此基础上再考虑进行后面论述的性能调优策略。
资源的分配在使用脚本提交 Spark 任务时进行指定, 标准的 Spark 任务提交脚本:
/usr/opt/modules/spark/bin/spark-submit \
--class com.atguigu.spark.Analysis \
--num-executors 80 \
--driver-memory 6g \
--executor-memory 6g \
--executor-cores 3 \
/usr/opt/modules/spark/jar/spark.jar \
可以进行分配的资源如表
调节原则: 尽量将任务分配的资源调节到可以使用的资源的最大限度。
对于具体资源的分配,我们分别讨论 Spark 的两种 Cluster 运行模式:
第一种是 Spark Standalone 模式,你在提交任务前,一定知道或者可以从运维部门获取到你可以使用的资源情况,在编写 submit 脚本的时候,就根据可用的资源情况进行资源的分配,比如说集群有 15 台机器,每台机器为 8G 内存, 2 个 CPU core,那么就指定 15 个 Executor, 每个 Executor 分配 8G 内存, 2 个 CPU core。
第二种是 Spark Yarn 模式, 由于 Yarn 使用资源队列进行资源的分配和调度,在表写 submit 脚本的时候,就根据 Spark 作业要提交到的资源队列, 进行资源的分配,比如资源队列有 400G 内存, 100 个 CPU core,那么指定 50 个 Executor,每个 Executor分配 8G 内存, 2 个 CPU core。
名称 | 解析 |
增加 Executor·个数 | 在资源允许的情况下,增加 Executor的个数可以提高执行 task 的并行度。 比如有 4 个 Executor,每个 Executor 有 2个 CPU core,那么可以并行执行 8 个 task,如果将 Executor 的个数增加到 8 个(资源允许的情况下), 那么可以并行执行16 个 task,此时的并行能力提升了一倍。 |
增加每个 Executor 的 CPU core 个数 | 在 资 源 允 许 的 情 况 下 , 增 加 每 个Executor 的 Cpu core 个数,可以提高执行task 的并行度。 比如有 4 个Executor,每个 Executor 有 2 个 CPU core,那么可以并行执行 8 个 task,如果将每个 Executor的 CPU core 个数增加到 4 个(资源允许的情况下), 那么可以并行执行 16 个 task,此时的并行能力提升了一倍。 |
增加每个 Executor 的内存量 | 在 资 源 允 许 的 情 况 下 , 增 加 每 个Executor 的内存量以后,对性能的提升有三点: 甚至可以不写入磁盘,减少了可能的磁盘 IO; |
这篇关于一、Spark性能调优——最优资源配置的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!