Spark任务报java.lang.StackOverflowError

2024-05-25 19:08

本文主要是介绍Spark任务报java.lang.StackOverflowError,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Spark任务报java.lang.StackOverflowError

简介

日前遇到一个问题,在提交一个spark任务(提交模式:yarn-client),去读取2000+个字段的hive表时,报出一个错误:java.lang.StackOverflowError,于此分析记录一下问题。

问题分析

此问题的原因在于,通过sparksession去读取hive表时,会在 driver 端去解析语法树,和SQL执行计划,由于字段过多,产生大量引用,占用较多栈空间,而默认情况下,Java栈空间只有1M大小,因此报错了。

几点需要明确的

1.首先明确,解析语法树,是在driver端,报错也是driver报的,与executor没有什么关系,因此,需要修改的配置也是关于driver的。
2.也是由于问题是driver爆出来的,但是driver如果在yarn-cluster模式下,由于driver是被yarn根据一定的资源调度规则随机分配到某个node上,所以这种情况下,有可能就需要改动每个nodemanager的配置了(只是这样猜想,因为我的提交是yarn-client,能够确定driver的位置,所以能够确切知道该改哪里的配置)
3.有可能你会说在spark-submint提交命令里,可以指定参数,我的确这样尝试了,但是没有效果,不知道是环境问题还是配错了。小伙伴们可以尝试一下。

操作步骤

1.连接上提交spark-submit的服务器,输入下面命令,可以看看默认的栈大小,我的是1M

java -XX:+PrintFlagsFinal -version | grep ThreadStackSize

2.找到spark的配置文件,每个人的环境不一样,这里就不贴路径了,编辑之

 vim spark-defaults.conf

3.在最后面加上如下配置,大小可根据实际情况指定,大点无所谓,小了要报错。

spark.driver.extraJavaOptions="-Xss30M"

4.重启spark。
5.再次尝试提交任务,问题应该就能解决。

后续思考

1.上面的问题,是由于引用过多造成栈空间不足而报错。但是据周志明老师的JVM书籍上提到,如果调用层次过深,超过栈深度,也会报错,那么假如用spark执行一条比较复杂的SQL,比如有很多的or,and之类的条件,那么可以猜测,在解析树的时候,大量递归可能会造成栈深度溢出。这只是一种猜测,留待有缘人踩坑。解决方法,目前我只想到两种,第一是有没有办法增加栈深度,第二是简化SQL语句,减少递归。

这篇关于Spark任务报java.lang.StackOverflowError的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1002370

相关文章

SpringBoot中六种批量更新Mysql的方式效率对比分析

《SpringBoot中六种批量更新Mysql的方式效率对比分析》文章比较了MySQL大数据量批量更新的多种方法,指出REPLACEINTO和ONDUPLICATEKEY效率最高但存在数据风险,MyB... 目录效率比较测试结构数据库初始化测试数据批量修改方案第一种 for第二种 case when第三种

Java docx4j高效处理Word文档的实战指南

《Javadocx4j高效处理Word文档的实战指南》对于需要在Java应用程序中生成、修改或处理Word文档的开发者来说,docx4j是一个强大而专业的选择,下面我们就来看看docx4j的具体使用... 目录引言一、环境准备与基础配置1.1 Maven依赖配置1.2 初始化测试类二、增强版文档操作示例2.

一文详解如何使用Java获取PDF页面信息

《一文详解如何使用Java获取PDF页面信息》了解PDF页面属性是我们在处理文档、内容提取、打印设置或页面重组等任务时不可或缺的一环,下面我们就来看看如何使用Java语言获取这些信息吧... 目录引言一、安装和引入PDF处理库引入依赖二、获取 PDF 页数三、获取页面尺寸(宽高)四、获取页面旋转角度五、判断

Spring Boot中的路径变量示例详解

《SpringBoot中的路径变量示例详解》SpringBoot中PathVariable通过@PathVariable注解实现URL参数与方法参数绑定,支持多参数接收、类型转换、可选参数、默认值及... 目录一. 基本用法与参数映射1.路径定义2.参数绑定&nhttp://www.chinasem.cnbs

JAVA中安装多个JDK的方法

《JAVA中安装多个JDK的方法》文章介绍了在Windows系统上安装多个JDK版本的方法,包括下载、安装路径修改、环境变量配置(JAVA_HOME和Path),并说明如何通过调整JAVA_HOME在... 首先去oracle官网下载好两个版本不同的jdk(需要登录Oracle账号,没有可以免费注册)下载完

Spring StateMachine实现状态机使用示例详解

《SpringStateMachine实现状态机使用示例详解》本文介绍SpringStateMachine实现状态机的步骤,包括依赖导入、枚举定义、状态转移规则配置、上下文管理及服务调用示例,重点解... 目录什么是状态机使用示例什么是状态机状态机是计算机科学中的​​核心建模工具​​,用于描述对象在其生命

Spring Boot 结合 WxJava 实现文章上传微信公众号草稿箱与群发

《SpringBoot结合WxJava实现文章上传微信公众号草稿箱与群发》本文将详细介绍如何使用SpringBoot框架结合WxJava开发工具包,实现文章上传到微信公众号草稿箱以及群发功能,... 目录一、项目环境准备1.1 开发环境1.2 微信公众号准备二、Spring Boot 项目搭建2.1 创建

Java中Integer128陷阱

《Java中Integer128陷阱》本文主要介绍了Java中Integer与int的区别及装箱拆箱机制,重点指出-128至127范围内的Integer值会复用缓存对象,导致==比较结果为true,下... 目录一、Integer和int的联系1.1 Integer和int的区别1.2 Integer和in

SpringSecurity整合redission序列化问题小结(最新整理)

《SpringSecurity整合redission序列化问题小结(最新整理)》文章详解SpringSecurity整合Redisson时的序列化问题,指出需排除官方Jackson依赖,通过自定义反序... 目录1. 前言2. Redission配置2.1 RedissonProperties2.2 Red

IntelliJ IDEA2025创建SpringBoot项目的实现步骤

《IntelliJIDEA2025创建SpringBoot项目的实现步骤》本文主要介绍了IntelliJIDEA2025创建SpringBoot项目的实现步骤,文中通过示例代码介绍的非常详细,对大家... 目录一、创建 Spring Boot 项目1. 新建项目2. 基础配置3. 选择依赖4. 生成项目5.