本文主要是介绍hadoop需要多少个reducer?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Reduce的数目建议是0.95或1.75乘以 (<no. of nodes> * mapred.tasktracker.reduce.tasks.maximum)。
用0.95,所有reduce可以在maps一完成时就立刻启动,开始传输map的输出结果。用1.75,速度快的节点可以在完成第一轮reduce任务后,可以开始第二轮,这样可以得到比较好的负载均衡的效果。
增加reduce的数目会增加整个框架的开销,但可以改善负载均衡,降低由于执行失败带来的负面影响。
上述比例因子比整体数目稍小一些是为了给框架中的推测性任务(speculative-tasks) 或失败的任务预留一些reduce的资源。
这篇关于hadoop需要多少个reducer?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!