Caused by: java.lang.IllegalArgumentException: Cannot grow BufferHolder by size 1752 because the siz

本文主要是介绍Caused by: java.lang.IllegalArgumentException: Cannot grow BufferHolder by size 1752 because the siz,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

报错如下:

Caused by: java.lang.IllegalArgumentException: Cannot grow BufferHolder by size 9384 because the size after growing exceeds size limitation 2147483632

在这里插入图片描述

不能按大小9384增加BufferHolder,因为增长后的大小超过了大小限制2147483632

参考链接:

https://docs.microsoft.com/zh-cn/azure/databricks/kb/sql/cannot-grow-bufferholder-exceeds-size

定位到出错位置:
我的需求是根据唯一键分组统计,有点击的保留所有点击,没点击的保留所有曝光,所以用到了collect_list,在数据起量之后,整个groupby之后转的df会非常大,collect_list传到udf的的行向量也会非常的长,所以超出缓存大小。

问题关键代码如下:

schema_getdataCols = ['newid'] + data_origin_columns1
df_HDFS_gp = df_HDFS_A.groupBy('newid').agg(fn.collect_list('suuid').alias('suuid'),fn.collect_list('aid').alias('aid'),fn.collect_list('slotid').alias('slotid'),fn.collect_list('adfrom').alias('adfrom'),fn.collect_list('appkey').alias('appkey'),fn.collect_list('appname').alias('appname'),fn.collect_list('battery').alias('battery'),fn.collect_list('brand').alias('brand'),fn.collect_list('channel').alias('channel'),fn.collect_list('hardware').alias('hardware'),fn.collect_list('product').alias('product'),fn.collect_list('screensize').alias('screensize'),fn.collect_list('manufacturer').alias('manufacturer'),fn.collect_list('model').alias('model'),fn.collect_list('nettype').alias('nettype'),fn.collect_list('operator').alias('operator'),fn.collect_list('os').alias('os'),fn.collect_list('city').alias('city'),fn.collect_list('actname').alias('actname'),
).rdd.map(row_dataID_druid_ad_behavior).toDF(schema=schema_getdataCols)

尝试过的方法:

  • 提高BufferHolder缓存大小
    • .config('spark.kryoserializer.buffer.max', 5120) \
  • 将df分割成多个数据帧进行后续的处理

最终解决的方法:

思路固化了,谈到分组处理就死盯着groupby不放了。根据需求有点击保留所有点击,没点击保留所有曝光,所有关键代码如下:

'''三元组拼接,划分label'''
# 先筛除有点击的数
df_have_click = df.filter(df['actname'] == 'ckads')# 保留有点击的三元组id
click_ids = df_have_click.select('newid').collect()
click_ids = [i[0] for i in click_ids]
click_ids = list(set(click_ids))# 筛除有曝光的数,排除有点击的三元组id
df_have_display = df.filter(df['actname'] == 'exads').filter(~df['newid'].isin(click_ids))# 拼接
df_HDFS_res = df_have_click.unionAll(df_have_display)

问题解决.

这篇关于Caused by: java.lang.IllegalArgumentException: Cannot grow BufferHolder by size 1752 because the siz的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/788302

相关文章

springboot将lib和jar分离的操作方法

《springboot将lib和jar分离的操作方法》本文介绍了如何通过优化pom.xml配置来减小SpringBoot项目的jar包大小,主要通过使用spring-boot-maven-plugin... 遇到一个问题,就是每次maven package或者maven install后target中的ja

Java中八大包装类举例详解(通俗易懂)

《Java中八大包装类举例详解(通俗易懂)》:本文主要介绍Java中的包装类,包括它们的作用、特点、用途以及如何进行装箱和拆箱,包装类还提供了许多实用方法,如转换、获取基本类型值、比较和类型检测,... 目录一、包装类(Wrapper Class)1、简要介绍2、包装类特点3、包装类用途二、装箱和拆箱1、装

如何利用Java获取当天的开始和结束时间

《如何利用Java获取当天的开始和结束时间》:本文主要介绍如何使用Java8的LocalDate和LocalDateTime类获取指定日期的开始和结束时间,展示了如何通过这些类进行日期和时间的处... 目录前言1. Java日期时间API概述2. 获取当天的开始和结束时间代码解析运行结果3. 总结前言在J

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

Java多线程父线程向子线程传值问题及解决

《Java多线程父线程向子线程传值问题及解决》文章总结了5种解决父子之间数据传递困扰的解决方案,包括ThreadLocal+TaskDecorator、UserUtils、CustomTaskDeco... 目录1 背景2 ThreadLocal+TaskDecorator3 RequestContextH

关于Spring @Bean 相同加载顺序不同结果不同的问题记录

《关于Spring@Bean相同加载顺序不同结果不同的问题记录》本文主要探讨了在Spring5.1.3.RELEASE版本下,当有两个全注解类定义相同类型的Bean时,由于加载顺序不同,最终生成的... 目录问题说明测试输出1测试输出2@Bean注解的BeanDefiChina编程nition加入时机总结问题说明

java父子线程之间实现共享传递数据

《java父子线程之间实现共享传递数据》本文介绍了Java中父子线程间共享传递数据的几种方法,包括ThreadLocal变量、并发集合和内存队列或消息队列,并提醒注意并发安全问题... 目录通过 ThreadLocal 变量共享数据通过并发集合共享数据通过内存队列或消息队列共享数据注意并发安全问题总结在 J

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

SpringBoot+MyBatis-Flex配置ProxySQL的实现步骤

《SpringBoot+MyBatis-Flex配置ProxySQL的实现步骤》本文主要介绍了SpringBoot+MyBatis-Flex配置ProxySQL的实现步骤,文中通过示例代码介绍的非常详... 目录 目标 步骤 1:确保 ProxySQL 和 mysql 主从同步已正确配置ProxySQL 的