本文主要是介绍Spark学习之路 (九)SparkCore的调优之数据倾斜调优,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
《2021年最新版大数据面试题全面开启更新》
欢迎关注github《大数据成神之路》
目录
调优概述
数据倾斜发生时的现象
数据倾斜发生的原理
如何定位导致数据倾斜的代码
某个task执行特别慢的情况
某个task莫名其妙内存溢出的情况
查看导致数据倾斜的key的数据分布情况
数据倾斜的解决方案
解决方案一:使用Hive ETL预处理数据
解决方案二:过滤少数导致倾斜的key
解决方案三:提高shuffle操作的并行度
解决方案四:两阶段聚合(局部聚合+全局聚合)
解决方案五:将reduce join转为map join
解决方案六:采样倾斜key并分拆join操作
解决方案七:使用随机前缀和扩容RDD进行join
解决方案八:多种方案组合使用
数据倾斜调优
调优概述
有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性
这篇关于Spark学习之路 (九)SparkCore的调优之数据倾斜调优的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!