Hive提交到yarn的任务一直在running问题排查

2024-09-04 17:18

本文主要是介绍Hive提交到yarn的任务一直在running问题排查,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 一、问题描述
    • 二、问题排查
      • Hive提交Spark任务流程
      • 问题定位
      • 问题总结
    • 三、解决方案
    • Tips:

一、问题描述

最近有数据平台的同学反馈yarn上面有一些任务跑了很久没有结束,状态一直处于running中。去Spark HistoryServer查看任务详情也没看到相关运行记录,需要人为手动kill任务才会停止并释放资源。


在这里插入图片描述
在这里插入图片描述

二、问题排查

从Spark HistoryServer可以看出,任务的Driver虽然启动了,但是并未执行job,并且一直阻塞在那没有退出。从yarn的角度来看,这个任务就是在运行中。

因此,我们需要排查是究竟什么原因导致Driver不退出,又不接收job运行呢

由于这是hive提交的任务,我们可以先看一下Hive是怎么提交spark任务的。

Hive提交Spark任务流程

  1. Hive要提交一个Spark任务时,会先通过spark-submit提交一个spark程序到yarn集群运行。而运行的MainClass就是RemoteDriver
  2. RemoteDriver在yarn的container启动后,会主动去连接Hiveserver2开放的rpc端口(这个端口在spark-submit时会带上,因此RemoteDriver知道要连接的host和ip)
  3. 连接建立后,SparkClientImpl这边会根据clientId从RpcServer中找到对应的channel,之后将要运行的job通过kvro工具序列化成字节流发送给RemoteDriver
  4. RemoteDriver这边在连接成功后,就开始准备接收SparkClientImpl发送过来的消息并执行。
  5. 最后,如果在SparkClientImpl关闭时也会相应的关闭远程的RemoteDriver,具体做法是发送一个关闭的消息给RemoteDriver,告诉它可以停掉了。(SparkClientImpl一般是在整个客户端的session关闭时关闭的)

RpcServer在整个Hiveserver2进程中只会有一个,因此需要通过clientId来标识对应的RemoteDriver客户端。这个clientId也会在spark-submit时带上。

问题定位

了解了提交的过程后,我们可以知道RemoteDriver的关闭依赖于SparkClientImpl发送的关闭请求。那么情况无非有两种:

  1. SparkClientImpl发送了关闭消息,但是RemoteDriver没收到或者忽略了该消息
  2. SparkClientImpl由于一些原因,没发送关闭消息

由于这种情况发生了好几例,且网络表现正常,因此基本可以排除掉因网络不佳丢包的可能性。之后仔细看了下RemoteDriver这边Rpc的相关代码,也基本可以排除RemoteDriver忽略消息的可能性。因此大概率是SparkClientImpl没有发送关闭消息导致的。

查了下HiveServer2这边那天的日志,果然发现一些异常,都是在任务启动时报的:
在这里插入图片描述

从异常信息我们可以很清晰的看出,SparkClientImpl在等待RemoteDriver的连接时抛出了InterruptedException。我们再看一下相关代码:

String clientId = UUID.randomUUID().toString();
String secret = rpcServer.createSecret();
//通过spark-submit提交RemoteDriver到yarn集群运行
this.driverThread = startDriver(rpcServer, clientId, secret);
this.protocol = new ClientProtocol();
try {//109行,等待RemoteDriver的连接并获取连接this.driverRpc = rpcServer.registerClient(clientId, secret, protocol).get();
} catch (Throwable e) {if (e.getCause() instanceof TimeoutException) {LOG.error("Timed out waiting for client to connect.\nPossible reasons include network " +"issues, errors in remote driver or the cluster has no available resources, etc." +"\nPlease check YARN or Spark driver's logs for further information.", e);} else {//InterruptedException会走这里LOG.error("Error while waiting for client to connect.", e);}//driverThread是阻塞等待spark-submit子进程跑完的线程driverThread.interrupt();try {driverThread.join();} catch (InterruptedException ie) {// Give up.LOG.debug("Interrupted before driver thread was finished.");}//向外层继续抛出异常throw Throwables.propagate(e);
}

从上面的代码来看,SparkClientImpl在等待RemoteDriver的连接时抛出了InterruptedException,代码除了关闭driverThread外,并没有做其他的事了。

这样就可能存在一个问题,虽然SparkClientImpl在这里退出了,但是RemoteDriver又连接上了RpcServer,它就会一直等待远程的消息并一直运行下去。

后面刚好有一个任务也出现这种情况,登陆RemoteDriver所在的机器看了下tcp连接**,发现连接确实还存活着,但是SparkClientImpl这时已经退出了。**

RemoteDriver所在服务器的端口扫描:
在这里插入图片描述
在这里插入图片描述

问题总结

出现这个问题的原因应该是用户提交一个sql到HiveServer后立马关闭了session,而此时SparkClientImpl又刚好在阻塞等待来自RemoteDriver的连接。因为session的关闭,关闭session的线程会主动interrupt掉SparkClientImpl所在的线程**。**

SparkClientImpl等待连接抛出异常后又没通知rpcServer进行相关解除注册处理,因此RemoteDriver成功的建立了连接,并一直等待来自SparkClientImpl的请求。然而此时SparkClientImpl已经退出,因此除非外界干涉,否则RemoteDriver永远不会停止运行。

三、解决方案

修改源码,在SparkClientImpl抛出InterruptedException时,移除SparkClientImpl对rpcServer的注册,这样客户端在连接过来时,rpcServer就会直接返回错误信息,客户端收到错误信息后就会判定连接失败从而退出进程。

try {//109行,等待RemoteDriver的连接并获取连接this.driverRpc = rpcServer.registerClient(clientId, secret, protocol).get();
} catch (Throwable e) {if (e.getCause() instanceof TimeoutException) {LOG.error("Timed out waiting for client to connect.\nPossible reasons include network " +"issues, errors in remote driver or the cluster has no available resources, etc." +"\nPlease check YARN or Spark driver's logs for further information.", e);} else {//InterruptedException会走这里LOG.error("Error while waiting for client to connect.", e);//以下是添加代码块//其实就是将clientInfo从pendingClients中移除// 在客户端发送连接时,rpcserver发现客户端clientId不在pendingClients中,就会返回失败的信息给客户端rpcServer.cancelClient(clientId,"cancel client for " + e.getMessage());//添加代码块结束}//driverThread是阻塞等待spark-submit子进程跑完的线程driverThread.interrupt();try {driverThread.join();} catch (InterruptedException ie) {// Give up.LOG.debug("Interrupted before driver thread was finished.");}//向外层继续抛出异常throw Throwables.propagate(e);
}

Tips:

如果排查发现不是上面的问题,也可以参考 Hive提交到yarn的任务一直在running问题排查-V2,有个此类问题的终极解决方案

这篇关于Hive提交到yarn的任务一直在running问题排查的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1136541

相关文章

SpringBoot启动报错的11个高频问题排查与解决终极指南

《SpringBoot启动报错的11个高频问题排查与解决终极指南》这篇文章主要为大家详细介绍了SpringBoot启动报错的11个高频问题的排查与解决,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一... 目录1. 依赖冲突:NoSuchMethodError 的终极解法2. Bean注入失败:No qu

Spring定时任务只执行一次的原因分析与解决方案

《Spring定时任务只执行一次的原因分析与解决方案》在使用Spring的@Scheduled定时任务时,你是否遇到过任务只执行一次,后续不再触发的情况?这种情况可能由多种原因导致,如未启用调度、线程... 目录1. 问题背景2. Spring定时任务的基本用法3. 为什么定时任务只执行一次?3.1 未启用

MySQL新增字段后Java实体未更新的潜在问题与解决方案

《MySQL新增字段后Java实体未更新的潜在问题与解决方案》在Java+MySQL的开发中,我们通常使用ORM框架来映射数据库表与Java对象,但有时候,数据库表结构变更(如新增字段)后,开发人员可... 目录引言1. 问题背景:数据库与 Java 实体不同步1.1 常见场景1.2 示例代码2. 不同操作

如何解决mysql出现Incorrect string value for column ‘表项‘ at row 1错误问题

《如何解决mysql出现Incorrectstringvalueforcolumn‘表项‘atrow1错误问题》:本文主要介绍如何解决mysql出现Incorrectstringv... 目录mysql出现Incorrect string value for column ‘表项‘ at row 1错误报错

如何解决Spring MVC中响应乱码问题

《如何解决SpringMVC中响应乱码问题》:本文主要介绍如何解决SpringMVC中响应乱码问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Spring MVC最新响应中乱码解决方式以前的解决办法这是比较通用的一种方法总结Spring MVC最新响应中乱码解

pip无法安装osgeo失败的问题解决

《pip无法安装osgeo失败的问题解决》本文主要介绍了pip无法安装osgeo失败的问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 进入官方提供的扩展包下载网站寻找版本适配的whl文件注意:要选择cp(python版本)和你py

如何使用Python实现一个简单的window任务管理器

《如何使用Python实现一个简单的window任务管理器》这篇文章主要为大家详细介绍了如何使用Python实现一个简单的window任务管理器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起... 任务管理器效果图完整代码import tkinter as tkfrom tkinter i

解决Java中基于GeoTools的Shapefile读取乱码的问题

《解决Java中基于GeoTools的Shapefile读取乱码的问题》本文主要讨论了在使用Java编程语言进行地理信息数据解析时遇到的Shapefile属性信息乱码问题,以及根据不同的编码设置进行属... 目录前言1、Shapefile属性字段编码的情况:一、Shp文件常见的字符集编码1、System编码

Spring MVC使用视图解析的问题解读

《SpringMVC使用视图解析的问题解读》:本文主要介绍SpringMVC使用视图解析的问题解读,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Spring MVC使用视图解析1. 会使用视图解析的情况2. 不会使用视图解析的情况总结Spring MVC使用视图

Spring Boot 集成 Quartz 使用Cron 表达式实现定时任务

《SpringBoot集成Quartz使用Cron表达式实现定时任务》本文介绍了如何在SpringBoot项目中集成Quartz并使用Cron表达式进行任务调度,通过添加Quartz依赖、创... 目录前言1. 添加 Quartz 依赖2. 创建 Quartz 任务3. 配置 Quartz 任务调度4. 启