什么是shuffle？为什么shuffle？什么算子shuffle？

2024-06-01 10:48

文章标签 算子 shuffle

本文主要是介绍什么是shuffle？为什么shuffle？什么算子shuffle？，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1、什么是shuffle？

把父RDD中的KV对按照Key重新分区，从而得到一个新的RDD。也就是说原本同属于父RDD同一个分区的数据需要进入到子RDD的不同的分区。

2、为什么需要shuffle？

在分布式计算框架中，数据本地化是一个很重要的考虑，即计算需要被分发到数据所在的位置，从而减少数据的移动，提高运行效率。

Map-Reduce的输入数据通常是HDFS中的文件，所以数据本地化要求map任务尽量被调度到保存了输入文件的节点执行。但是，有一些计算逻辑是无法简单地获取本地数据的，reduce的逻辑都是如此。对于reduce来说，处理函数的输入是key相同的所有value，但是这些value所在的数据集(即map的输出)位于不同的节点上，因此需要对map的输出进行重新组织，使得同样的key进入相同的reducer。 shuffle移动了大量的数据，对计算、内存、网络和磁盘都有巨大的消耗，因此，只有确实需要shuffle的地方才应该进行shuffle，否则尽可能避免shuffle。

3、什么时候shuffle？

1．去重操作：

Distinct等。

2．聚合，byKey类操作

reduceByKey、groupByKey、sortByKey等。

byKey类的操作要对一个key，进行聚合操作，那么肯定要保证集群中，所有节点上的相同的key，移动到同一个节点上进行处理。

3．排序操作：

sortByKey等。

4．重分区操作：

repartition、repartitionAndSortWithinPartitions、coalesce(shuffle=true)等。

重分区一般会shuffle，因为需要在整个集群中，对之前所有的分区的数据进行随机，均匀的打乱，然后把数据放入下游新的指定数量的分区内。

5．集合或者表操作：

join、cogroup等。

两个rdd进行join，就必须将相同join key的数据，shuffle到同一个节点上，然后进行相同key的两个rdd数据的笛卡尔乘积。

这篇关于什么是shuffle？为什么shuffle？什么算子shuffle？的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1020800。 23002807@qq.com

相关文章

【智能优化算法改进策略之局部搜索算子(五)—自适应Rosenbrock坐标轮换法】

【智能优化算法改进策略之局部搜索算子(五)—自适应Rosenbrock坐标轮换法】

1、原理介绍作为一种有效的直接搜索技术，Rosenbrock坐标轮换法[1,2]是根据Rosenbrock著名的“香蕉函数”的特点量身定制的，该函数的最小值位于曲线狭窄的山谷中。此外，该方法是一种典型的基于自适应搜索方向集的无导数局部搜索技术。此法于1960年由Rosenbrock提出，它与Hooke-Jeeves模式搜索法有些类似，但比模式搜索更为有效。每次迭代运算分为两部分[3]： 1)

阅读更多...

智能优化算法改进策略之局部搜索算子(六)--进化梯度搜索

智能优化算法改进策略之局部搜索算子(六)--进化梯度搜索

1、原理介绍进化梯度搜索(Evolutionary Gradient Search, EGS)[1]是兼顾进化计算与梯度搜索的一种混合算法，具有较强的局部搜索能力。在每次迭代过程中，EGS方法首先用受进化启发的形式估计梯度方向，然后以最陡下降的方式执行实际的迭代步骤，其中还包括步长的自适应，这一过程的总体方案如下图所示：文献[1]

阅读更多...

智能优化算法改进策略之局部搜索算子(三)—二次插值法

智能优化算法改进策略之局部搜索算子(三)—二次插值法

1、原理介绍多项式是逼近函数的一种常用工具。在寻求函数极小点的区间（即寻查区间）上，我们可以利用在若干点处的函数值来构成低次插值多项式，用它作为求极小点的函数的近似表达式，并用这个多项式的极小点作为原函数极小点的近似。低次多项式的极小点比较容易计算。常用的插值多项式为二次或三次，一般说来三次插值公式的收敛性好一些，但在导数不变计算时，三点二次插值也是一种常用的方法[1]。 3

阅读更多...

智能优化算法改进策略之局部搜索算子(四)--梯度搜索法

智能优化算法改进策略之局部搜索算子(四)--梯度搜索法

2、仿真实验以海洋捕食者算法（MPA）为基本算法。考察基于梯度搜索的改进海洋捕食者算法（命名为GBSMPA） vs. 海洋捕食者算法（MPA）在Sphere函数上的比较在Penalized1函数上的比较在CEC2017-1上的比较在CEC2017-3上的比较在CEC2017-4上的比较代码获取：

阅读更多...

智能优化算法改进策略之局部搜索算子(八)--Powell方法

智能优化算法改进策略之局部搜索算子(八)--Powell方法

1、原理介绍 Powell方法[1]是一种无约束优化算法，又称为方向加速法，用于寻找多变量函数的极小值。其基本思想是在迭代中逐次产生Q共轭方向组，本质上它属于不需计算导数的共轭方向法。每次迭代后，算法会更新搜索方向，并包含新的方向以改善优化效果。由于Powell方法不需要计算梯度信息，因此适用于目标函数不可导或计算梯度成本较高的情况。它在迭代过程中通过调整方向和步长，逐步缩小搜索范围，以达到目标

阅读更多...

智能优化算法改进策略之局部搜索算子(七)--自适应模式搜索法

智能优化算法改进策略之局部搜索算子(七)--自适应模式搜索法

1、原理介绍模式搜索法[1]是Hooke与Jeeves提出的一种直接搜索算法，其目的是通过比较目标函数在有限点集中的函数值来优化目标函数。更重要的是，它不仅不使用任何导数知识，而且不需要隐式地建立任何一种导数近似。在这种直接搜索技术中，将模式移动和探索移动相结合，迭代地寻找最优解。该技术首先沿着每个轴进行探索性移动，以寻找新的基点和有利于函数值下降的方向。然后，为了加快在探索性移动

阅读更多...

Spark算子：RDD行动Action操作(3)–aggregate、fold、lookup

Spark算子：RDD行动Action操作(3)–aggregate、fold、lookup

aggregate def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): U aggregate用户聚合RDD中的元素，先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型，再使用combOp将之前每个分区聚合后的U类型聚合成U类型，特别注意se

阅读更多...

Spark算子:RDDAction操作–first/count/reduce/collect/collectAsMap

Spark算子:RDDAction操作–first/count/reduce/collect/collectAsMap

first def first(): T first返回RDD中的第一个元素，不排序。 scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)rdd1: org.apache.spark.rdd.RDD[(String, String)] = ParallelCollectionRDD[33] at mak

阅读更多...

Spark算子:RDD键值转换操作(4)–cogroup/join

Spark算子:RDD键值转换操作(4)–cogroup/join

cogroup 函数原型：最多可以组合4个RDD，可以通过partitioner和numsPartitions设置 def cogroup[W1, W2, W3](other1: RDD[(K, W1)], other2: RDD[(K, W2)], other3: RDD[(K, W3)], partitioner: Partitioner) :RDD[(K, (Iterable[V],

阅读更多...

Spark算子：RDD键值转换操作(3)–groupByKey、reduceByKey、reduceByKeyLocally

Spark算子：RDD键值转换操作(3)–groupByKey、reduceByKey、reduceByKeyLocally

groupByKey def groupByKey(): RDD[(K, Iterable[V])] def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])] def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])] 该函数用于将RDD[K,V]中每个K对应

阅读更多...