《Learning Spark》第八章：调优及调试spark应用

本文主要是介绍《Learning Spark》第八章：调优及调试spark应用，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

2020/07/05 -

引言

我记得当时我就是因为使用hadoop太过费劲了，才上手的spark，然后因为自己的机器性能不行，又一点一点调优；当时调优的过程，主要是从底层的结构上来进行调优，主要就是那些worker数量以及内存大小等等。但是对于stage这些执行过程中的细粒度信息没有太过关注，现在我也不是非常理解这部分内容，特别是前几天从这个spark ui上来查看的时候，就感觉非常茫然。

再说回内存大小这种调优过程，我记得当时也是非常纳闷，当时好像也没有得出一个非常肯定，非常准确的信息。主要还是执行过程以及粒度等信息不够明确。所以，这里首先来明确几个信息：1）要知道spark在执行过程中，进程等粒度信息的内容，以及执行架构的各个角色，比如worker，excutor等等，2）关于stage等这些信息，spark ui上是怎么对应这些信息的，从界面上能够获取到什么信息，从哪些角度能够进行调优。这两个是关键问题。

昨天晚上的时候，我一直在看这部分内容，但是发现一个问题，就是感觉这部分有容仿佛上升了一个等级一样，他不是前面所说的那种东西，就感觉仿佛他没有完全讲清楚一样。总感觉缺少了哪些中间介绍的步骤。

文章spark ui部分的讲解