本文主要是介绍“ error in shuffle in fetcher”的解决方案,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
问题场景
使用hive进行数据的统计,发现数据进行到一半,就异常退出。查看了报错,是栈溢出,导致了异常。
问题分析
通过查找资料和查看资料,才发现,在shuffle阶段,会将map的output数据给取下来,然后根据设定的参数决定是放进内存中,还是存储到磁盘里面进行操作。而mapreduce.reduce.shuffle.memory.limit.percent
这个参数默认值是0.25,代表单个shuffle能够消耗的内存占reduce所有内存的比例。所以将这个参数进行调小操作,那么单个shuffle能够消耗的内存就没办法满足将数据进行处理,就会进而使用磁盘来慢慢操作。
解决方案
将mapreduce.reduce.shuffle.memory.limit.percent
调为0.1,最后数据统计顺利进行。
这篇关于“ error in shuffle in fetcher”的解决方案的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!