本文主要是介绍sparkRDD中key-value类型类型数据的三种方法对比,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
reduceBykey | groupByKey | sortByKey 的区别!
-
reduceBykey操作——reduceBykey在源码中reduce之前使用预先聚合的combine操作
-
groupByKey——直接进行shuffle的操作
-
sortByKey ——根据key进行排序的操作
总结:
reduceBykey 合并
groupByKey 只分组,未合并
sortByKey 只排序
这篇关于sparkRDD中key-value类型类型数据的三种方法对比的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!