Spark SQL用UDF实现按列特征重分区 repatition

2024-04-06 18:58

本文主要是介绍Spark SQL用UDF实现按列特征重分区 repatition,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转:https://cloud.tencent.com/developer/article/1371921

解决问题之前,要先了解一下Spark 原理,要想进行相同数据归类到相同分区,肯定要有产生shuffle步骤。

比如,F到G这个shuffle过程,那么如何决定数据到哪个分区去的呢?这就有一个分区器的概念,默认是hash分区器。

假如,我们能在分区这个地方着手的话肯定能实现我们的目标。

那么,在没有看Spark Dataset的接口之前,浪尖也不知道Spark Dataset有没有给我门提供这种类型的API,抱着试一试的心态,可以去Dataset类看一下,这个时候会发现有一个函数叫做repartition。

/*** Returns a new Dataset partitioned by the given partitioning expressions, using* `spark.sql.shuffle.partitions` as number of partitions.* The resulting Dataset is hash partitioned.** This is the same operation as "DISTRIBUTE BY" in SQL (Hive QL).** @group typedrel* @since 2.0.0*/@scala.annotation.varargsdef repartition(partitionExprs: Column*): Dataset[T] = {repartition(sparkSession.sessionState.conf.numShufflePartitions, partitionExprs: _*)}

可以传入列表达式来进行重新分区,产生的新的Dataset的分区数是由参数spark.sql.shuffle.partitions决定,那么是不是可以满足我们的需求呢?

明显,直接用是不行的,可以间接使用UDF来实现该功能。

方式一-简单重分区

首先,实现一个UDF截取列值共同前缀,当然根据业务需求来写该udf

val substring = udf{(str: String) => {str.substring(0,str.length-1)}}

注册UDF

spark.udf.register("substring",substring)

创建Dataset

val sales = spark.createDataFrame(Seq(("Warsaw1", 2016, 100),("Warsaw2", 2017, 200),("Warsaw3", 2016, 100),("Warsaw4", 2017, 200),("Beijing1", 2017, 200),("Beijing2", 2017, 200),("Warsaw4", 2017, 200),("Boston1", 2015, 50),("Boston2", 2016, 150))).toDF("city", "year", "amount")

执行充分去操作

val res = sales.repartition(substring(col("city")))

打印分区ID及对应的输出结果

res.foreachPartition(partition=>{println("---------------------> Partition start ")println("partitionID is "+TaskContext.getPartitionId())partition.foreach(println)println("=====================> Partition stop ")})

浪尖这里spark.sql.shuffle.partitions设置的数值为10.

输出结果截图如下:

方式二-SQL实现

对于Dataset的repartition产生的shuffle是不需要进行聚合就可以产生shuffle使得按照字段值进行归类到某些分区。

SQL的实现要实现重分区要使用group by,然后udf跟上面一样,需要进行聚合操作。

完整代码如下:

val sales = spark.createDataFrame(Seq(("Warsaw1", 2016, 100),("Warsaw2", 2017, 200),("Warsaw3", 2016, 100),("Warsaw4", 2017, 200),("Beijing1", 2017, 200),("Beijing2", 2017, 200),("Warsaw4", 2017, 200),("Boston1", 2015, 50),("Boston2", 2016, 150))).toDF("city", "year", "amount")sales.registerTempTable("temp");val substring = udf{(str: String) => {str.substring(0,str.length-1)}}spark.udf.register("substring",substring)val res = spark.sql("select sum(amount) from temp group by substring(city)")
//res.foreachPartition(partition=>{println("---------------------> Partition start ")println("partitionID is "+TaskContext.getPartitionId())partition.foreach(println)println("=====================> Partition stop ")})

输出结果如下:

由上面的结果也可以看到task执行结束时间是无序的。

浪尖在这里主要是讲了Spark SQL 如何实现按照自己的需求对某列重分区。

那么,浪尖在这里就顺带问一下,如何用Spark Core实现该功能呢?

这篇关于Spark SQL用UDF实现按列特征重分区 repatition的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/880586

相关文章

Java枚举类实现Key-Value映射的多种实现方式

《Java枚举类实现Key-Value映射的多种实现方式》在Java开发中,枚举(Enum)是一种特殊的类,本文将详细介绍Java枚举类实现key-value映射的多种方式,有需要的小伙伴可以根据需要... 目录前言一、基础实现方式1.1 为枚举添加属性和构造方法二、http://www.cppcns.co

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

MySQL双主搭建+keepalived高可用的实现

《MySQL双主搭建+keepalived高可用的实现》本文主要介绍了MySQL双主搭建+keepalived高可用的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录一、测试环境准备二、主从搭建1.创建复制用户2.创建复制关系3.开启复制,确认复制是否成功4.同

Java实现文件图片的预览和下载功能

《Java实现文件图片的预览和下载功能》这篇文章主要为大家详细介绍了如何使用Java实现文件图片的预览和下载功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... Java实现文件(图片)的预览和下载 @ApiOperation("访问文件") @GetMapping("

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

使用Sentinel自定义返回和实现区分来源方式

《使用Sentinel自定义返回和实现区分来源方式》:本文主要介绍使用Sentinel自定义返回和实现区分来源方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Sentinel自定义返回和实现区分来源1. 自定义错误返回2. 实现区分来源总结Sentinel自定

Mysql表的简单操作(基本技能)

《Mysql表的简单操作(基本技能)》在数据库中,表的操作主要包括表的创建、查看、修改、删除等,了解如何操作这些表是数据库管理和开发的基本技能,本文给大家介绍Mysql表的简单操作,感兴趣的朋友一起看... 目录3.1 创建表 3.2 查看表结构3.3 修改表3.4 实践案例:修改表在数据库中,表的操作主要

Java实现时间与字符串互相转换详解

《Java实现时间与字符串互相转换详解》这篇文章主要为大家详细介绍了Java中实现时间与字符串互相转换的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、日期格式化为字符串(一)使用预定义格式(二)自定义格式二、字符串解析为日期(一)解析ISO格式字符串(二)解析自定义

opencv图像处理之指纹验证的实现

《opencv图像处理之指纹验证的实现》本文主要介绍了opencv图像处理之指纹验证的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录一、简介二、具体案例实现1. 图像显示函数2. 指纹验证函数3. 主函数4、运行结果三、总结一、

Springboot处理跨域的实现方式(附Demo)

《Springboot处理跨域的实现方式(附Demo)》:本文主要介绍Springboot处理跨域的实现方式(附Demo),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不... 目录Springboot处理跨域的方式1. 基本知识2. @CrossOrigin3. 全局跨域设置4.