repatition专题

Spark SQL用UDF实现按列特征重分区 repatition

转:https://cloud.tencent.com/developer/article/1371921 解决问题之前,要先了解一下Spark 原理,要想进行相同数据归类到相同分区,肯定要有产生shuffle步骤。 比如,F到G这个shuffle过程,那么如何决定数据到哪个分区去的呢?这就有一个分区器的概念,默认是hash分区器。 假如,我们能在分区这个地方着手的话肯定能实现我们的目标