repatition专题

Spark SQL用UDF实现按列特征重分区 repatition

转：https://cloud.tencent.com/developer/article/1371921 解决问题之前，要先了解一下Spark 原理，要想进行相同数据归类到相同分区，肯定要有产生shuffle步骤。比如，F到G这个shuffle过程，那么如何决定数据到哪个分区去的呢？这就有一个分区器的概念，默认是hash分区器。假如，我们能在分区这个地方着手的话肯定能实现我们的目标