本文主要是介绍《Learning Spark》第八章:调优及调试spark应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
2020/07/05 -
引言
我记得当时我就是因为使用hadoop太过费劲了,才上手的spark,然后因为自己的机器性能不行,又一点一点调优;当时调优的过程,主要是从底层的结构上来进行调优,主要就是那些worker数量以及内存大小等等。但是对于stage这些执行过程中的细粒度信息没有太过关注,现在我也不是非常理解这部分内容,特别是前几天从这个spark ui上来查看的时候,就感觉非常茫然。
再说回内存大小这种调优过程,我记得当时也是非常纳闷,当时好像也没有得出一个非常肯定,非常准确的信息。主要还是执行过程以及粒度等信息不够明确。所以,这里首先来明确几个信息:1)要知道spark在执行过程中,进程等粒度信息的内容,以及执行架构的各个角色,比如worker,excutor等等,2)关于stage等这些信息,spark ui上是怎么对应这些信息的,从界面上能够获取到什么信息,从哪些角度能够进行调优。这两个是关键问题。
昨天晚上的时候,我一直在看这部分内容,但是发现一个问题,就是感觉这部分有容仿佛上升了一个等级一样,他不是前面所说的那种东西,就感觉仿佛他没有完全讲清楚一样。总感觉缺少了哪些中间介绍的步骤。
文章spark ui部分的讲解
参考文章
[1]understanding-your-spark-application-through-visualization.html
这篇关于《Learning Spark》第八章:调优及调试spark应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!