spark ui job和stage的dag图查看过去运行的任务,查不到,分析源码解决问题

本文主要是介绍spark ui job和stage的dag图查看过去运行的任务,查不到,分析源码解决问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

项目场景:

使用用2.x跑任务,产看耗时的spark job, stage,发现job和stage的dag信息缺失

问题描述:

sparkUI 显示dag信息缺失问题: 使用用2.x跑任务,查看spark 性能问题,从spark ui选择出最耗时的任务,进去查看,有一个任务有100多个job, 有几百个stage,程序跑完看前面 job和stage的dag图,提示没有了

按照UI提示,提高这两个值,发现一点用都没有,而且这两个值也没有超过spark的默认值1000,奇怪,怀疑是否spark ui提示错误信息了

问题如下图:
在这里插入图片描述

在这里插入图片描述
spark.ui.retainedStages=5000,总stage数量没有超过5000, job数量没有超过1000.

原因分析:

分析问题思路:从页面信息入手,进行源码分析

把页面提示信息,直接到spark源码里面进行搜索,找出页面信息
直接找出页面的源码(idea CTRL+SHIFT+F 搜索 No visualization information available )

function renderDagViz(forJob) {// If there is not a dot file to render, fail fast and report errorvar jobOrStage = forJob ? "job" : "stage";if (metadataContainer().empty() ||metadataContainer().selectAll("div").empty()) {var message ="<b>No visualization information available for this " + jobOrStage + "!</b><br/>" +"If this is an old " + jobOrStage + ", its visualization metadata may have been " +"cleaned up over time.<br/> You may consider increasing the value of ";if (forJob) {message += "<i>spark.ui.retainedJobs</i> and <i>spark.ui.retainedStages</i>.";} else {message += "<i>spark.ui.retainedStages</i>";}graphContainer().append("div").attr("id", "empty-dag-viz-message").html(message);return;}

在这里插入图片描述

在这里插入图片描述
原来点击DAG显示,的js里面把dag-viz-metadata进行显示和隐藏而已,说明数据是之前就生成好了,只是目前数据是空的。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

改了还不行:
继续查StagePage.class 搜索dag

 val dagViz = UIUtils.showDagVizForStage(stageId, operationGraphListener.getOperationGraphForStage(stageId))
找到:/** Return the graph metadata for the given stage, or None if no such information exists. */def getOperationGraphForStage(stageId: Int): Option[RDDOperationGraph] = synchronized {stageIdToGraph.get(stageId)}

stageIdToGraph 的stage信息删除是由cleanStage引起的

/** Clean metadata for the given stage, its job, and all other stages that belong to the job. */private[ui] def cleanStage(stageId: Int): Unit = {completedStageIds.remove(stageId)stageIdToGraph.remove(stageId)stageIdToJobId.remove(stageId).foreach { jobId => cleanJob(jobId) }
}

找找在哪触发cleanStage,发现在trimStagesIfNecessary和trimJobsIfNecessary触发

/** Clean metadata for old stages if we have exceeded the number to retain. */
private def trimStagesIfNecessary(): Unit = {if (stageIds.size >= retainedStages) {val toRemove = math.max(retainedStages / 10, 1)stageIds.take(toRemove).foreach { id => cleanStage(id) }stageIds.trimStart(toRemove)}
}
/** Clean metadata for old jobs if we have exceeded the number to retain. */
private def trimJobsIfNecessary(): Unit = {if (jobIds.size >= retainedJobs) {val toRemove = math.max(retainedJobs / 10, 1)jobIds.take(toRemove).foreach { id => cleanJob(id) }jobIds.trimStart(toRemove)}
}

找找 retainedJobs 和retainedStages 的配置是多少?

  // How many jobs or stages to retain graph metadata forprivate val retainedJobs =conf.getInt("spark.ui.retainedJobs", SparkUI.DEFAULT_RETAINED_JOBS)private val retainedStages =conf.getInt("spark.ui.retainedStages", SparkUI.DEFAULT_RETAINED_STAGES)val DEFAULT_RETAINED_STAGES = 1000val DEFAULT_RETAINED_JOBS = 1000
发现只有改spark.ui.retainedJobs和spark.ui.retainedStages参数,但改了木有用啊。。。崩溃。。。了。。。
最后一招:把源码改一下,在清理 stage那里增加log,看看

在这里插入图片描述
trimStagesIfNecessary()
trimJobsIfNecessary()
源码里面都打了 log去看, stage超过1000,不改这2个参数确实跑去删DAG, 改大发现没删DAG,但在页面也没看到DAG信息,气死 ,见鬼了

解决方案

spark-default.conf里面新增配置
spark.ui.timeline.tasks.maximum=100000

这篇关于spark ui job和stage的dag图查看过去运行的任务,查不到,分析源码解决问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/642916

相关文章

mysqld_multi在Linux服务器上运行多个MySQL实例

《mysqld_multi在Linux服务器上运行多个MySQL实例》在Linux系统上使用mysqld_multi来启动和管理多个MySQL实例是一种常见的做法,这种方式允许你在同一台机器上运行多个... 目录1. 安装mysql2. 配置文件示例配置文件3. 创建数据目录4. 启动和管理实例启动所有实例

IDEA运行spring项目时,控制台未出现的解决方案

《IDEA运行spring项目时,控制台未出现的解决方案》文章总结了在使用IDEA运行代码时,控制台未出现的问题和解决方案,问题可能是由于点击图标或重启IDEA后控制台仍未显示,解决方案提供了解决方法... 目录问题分析解决方案总结问题js使用IDEA,点击运行按钮,运行结束,但控制台未出现http://

解决Spring运行时报错:Consider defining a bean of type ‘xxx.xxx.xxx.Xxx‘ in your configuration

《解决Spring运行时报错:Considerdefiningabeanoftype‘xxx.xxx.xxx.Xxx‘inyourconfiguration》该文章主要讲述了在使用S... 目录问题分析解决方案总结问题Description:Parameter 0 of constructor in x

解决IDEA使用springBoot创建项目,lombok标注实体类后编译无报错,但是运行时报错问题

《解决IDEA使用springBoot创建项目,lombok标注实体类后编译无报错,但是运行时报错问题》文章详细描述了在使用lombok的@Data注解标注实体类时遇到编译无误但运行时报错的问题,分析... 目录问题分析问题解决方案步骤一步骤二步骤三总结问题使用lombok注解@Data标注实体类,编译时

Go中sync.Once源码的深度讲解

《Go中sync.Once源码的深度讲解》sync.Once是Go语言标准库中的一个同步原语,用于确保某个操作只执行一次,本文将从源码出发为大家详细介绍一下sync.Once的具体使用,x希望对大家有... 目录概念简单示例源码解读总结概念sync.Once是Go语言标准库中的一个同步原语,用于确保某个操

Vue项目中Element UI组件未注册的问题原因及解决方法

《Vue项目中ElementUI组件未注册的问题原因及解决方法》在Vue项目中使用ElementUI组件库时,开发者可能会遇到一些常见问题,例如组件未正确注册导致的警告或错误,本文将详细探讨这些问题... 目录引言一、问题背景1.1 错误信息分析1.2 问题原因二、解决方法2.1 全局引入 Element

Python如何使用seleniumwire接管Chrome查看控制台中参数

《Python如何使用seleniumwire接管Chrome查看控制台中参数》文章介绍了如何使用Python的seleniumwire库来接管Chrome浏览器,并通过控制台查看接口参数,本文给大家... 1、cmd打开控制台,启动谷歌并制定端口号,找不到文件的加环境变量chrome.exe --rem

解决systemctl reload nginx重启Nginx服务报错:Job for nginx.service invalid问题

《解决systemctlreloadnginx重启Nginx服务报错:Jobfornginx.serviceinvalid问题》文章描述了通过`systemctlstatusnginx.se... 目录systemctl reload nginx重启Nginx服务报错:Job for nginx.javas

Redis主从/哨兵机制原理分析

《Redis主从/哨兵机制原理分析》本文介绍了Redis的主从复制和哨兵机制,主从复制实现了数据的热备份和负载均衡,而哨兵机制可以监控Redis集群,实现自动故障转移,哨兵机制通过监控、下线、选举和故... 目录一、主从复制1.1 什么是主从复制1.2 主从复制的作用1.3 主从复制原理1.3.1 全量复制

Python Invoke自动化任务库的使用

《PythonInvoke自动化任务库的使用》Invoke是一个强大的Python库,用于编写自动化脚本,本文就来介绍一下PythonInvoke自动化任务库的使用,具有一定的参考价值,感兴趣的可以... 目录什么是 Invoke?如何安装 Invoke?Invoke 基础1. 运行测试2. 构建文档3.