利用repartition和mapPartitions替代reduce功能

2024-03-28 15:18

本文主要是介绍利用repartition和mapPartitions替代reduce功能,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据:用户,时间,地点 样例:

10001,20190401 14:20:06,20000000010000010000000000048793
10002,20190612 00:36:24,00000001000000050000000000181362
10002,20190612 01:49:05,00000001000000050000000000181362

需求统计:用户在每个地点的停留时长 如果相邻记录的地点不一致,时长累加在前一个地点上。

正常流程是根据用户id分组,根据时间戳升序排列,遍历记录相邻记录时间戳相减,得到停留时长,再做累加。

这个需求正好符合spark里面 repartitionAndSortWithinPartitions 算子的使用功能。

 

import util.DateFormat
import org.apache.spark.{Partitioner, SparkConf, SparkContext}
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types.{DataTypes, StructField, StructType}object Test {def main(args: Array[String]): Unit = {//读取Spark Application 的配置信息val sparkConf = new SparkConf()//设置SparkApplication名称.setAppName("ModuleSpark Application").setMaster("local[2]")val sc = SparkContext.getOrCreate(sparkConf)val spark = SparkSession.builder.config(sparkConf).getOrCreate()val hadoopConf = sc.hadoopConfigurationval schema = StructType(Array(StructField("user_id", DataTypes.StringType),StructField("start_time", DataTypes.StringType),StructField("content_id", DataTypes.StringType)))//读入数据的时候可以直接加schema参数 同样可以利用csv直接切分val testRDD = spark.read.option("delimiter", ",").schema(schema).csv("localtest/input/userTimeLineDir/test.txt")//替换默认的排序 repartition中默认使用到orderingimplicit val my_self_Ordering = new Ordering[Tuple2[String,String]] {override def compare(a: Tuple2[String,String], b: Tuple2[String,String]): Int = {if(a._1 == b._1){a._2.compareTo(b._2)}else{a._1.compareTo(a._2)}}}//数据分区依据,分区时使用默认排序class KeyBasePartitioner(partitions: Int) extends Partitioner {//分区数override def numPartitions: Int = partitionsoverride def getPartition(key: Any): Int = {val k = key.asInstanceOf[Tuple2[String,String]]Math.abs(k._1.hashCode() % numPartitions)}}//特殊迭代器生成,直接生成结果数据的迭代器 尽量避免OOM//不可更改迭结果的记录条数class CustomIterator(iter: Iterator[((String,String),Row)]) extends Iterator[Row] {var lastUser:String = null;var lasttime:String = null;def hasNext : Boolean={iter.hasNext}def next :Row={val cur:((String,String),Row)=iter.nextval user = cur._2.getString(0)val contentid = cur._2.getString(2)val starttime = cur._2.getString(1)if(lastUser == null || lastUser != user ){lastUser = userlasttime = starttimeRow("3","4","5")}else{val dura = DateFormat.dateToTimestamp(starttime,"yyyyMMdd HH:mm:ss") - DateFormat.dateToTimestamp(lasttime,"yyyyMMdd HH:mm:ss")lastUser = userlasttime = starttimeRow(user,contentid,dura)}}}val result = testRDD.rdd.map( x =>((x.getString(0),x.getString(1)) ,x)).repartitionAndSortWithinPartitions(new KeyBasePartitioner(10)).mapPartitions(v => new CustomIterator(v))result.collect();result.saveAsTextFile("localtest/output")}
}

1 利用spark的参数设置,直接生成固定格式的DataSet

spark.read.csv可以直接根据分隔符将读取的文件分列,通过设置option("delimiter",",")改变分隔符,通过.schema()直接设置读取的内容格式。

 

2 利用Ordering和Partitioner对数据进行重排序

排序工作在分区的时候一起进行,所有需要排序的内容都要并入key值。(疑惑点在这里,如果把时间戳并入key值,之后的reduce操作就需要重新map一次,重新分配key值userid,但在这个过程中,无法保证数据的排列顺序,而且正常reduce需要再一次触发shuffle操作,达不到优化的效果,所以这边选择采用MapPartitions来避免reduce。)

Ordering的排序是默认进行的,当重写了Ordering方法之后,默认使用重写后的方法进行排序。代码中按userid降序时间戳升序。

repartitionAndSortWithinPartitions对原始数据进行重新分区,分区时用到了自定义的Parititioner,注意分区时只用了userid字段,字段顺序按照定义的Ordering排列。

 

3 利用MapPartitions遍历记录,替换reduce效果

Map和MapPartitions区别:map算子中的执行命令针对每一条记录调用一次(不确定有没有内部优化),mappartitions算子针对每个分区记录调用一次。一般来说,使用MapPartitions的时候先获取一个包含分区内所有记录的迭代器,依次遍历,计算结果存储到List等集合容器,返回容器的迭代器。整个过程中如果分区中结果数据的数据量量太大,容易爆内存。但是MapPartitions的优点在于,可以很方便的使用外部变量,减少初始化的次数,也可以联系上下记录。

例如在计算停留时长,外部变量保留上条记录的用户编号和时间戳,如果用户编号相同,时间戳相减;用户编号不同,更新用户编号和时间戳(正常可以通过迭代器直接返回需要的结果,问题是分区内包含大量不同用户的数据,如果数据量过大,可能爆内存)。

有个替换方法是,继承迭代器的子类,传入原始数据(MapPartitions的迭代器),直接生成包含正确结果的迭代器返回,避免使用存储结果的集合容器。(不过这样做的缺点是,返回的数据没有办法控制记录条数,和输入的记录条数一模一样,如果是删除某些记录,可以用filter,但如果是增加部分记录,没想到处理办法。)

 

参考文章

你真知道如何高效用mapPartitions吗? https://blog.csdn.net/rlnLo2pNEfx9c/article/details/81613035

How to Use Spark Transformations Efficiently for MapReduce-like Jobs https://technology.finra.org/code/using-spark-transformations-for-mpreduce-jobs.html

这篇关于利用repartition和mapPartitions替代reduce功能的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/855961

相关文章

mysql表操作与查询功能详解

《mysql表操作与查询功能详解》本文系统讲解MySQL表操作与查询,涵盖创建、修改、复制表语法,基本查询结构及WHERE、GROUPBY等子句,本文结合实例代码给大家介绍的非常详细,感兴趣的朋友跟随... 目录01.表的操作1.1表操作概览1.2创建表1.3修改表1.4复制表02.基本查询操作2.1 SE

Golang如何用gorm实现分页的功能

《Golang如何用gorm实现分页的功能》:本文主要介绍Golang如何用gorm实现分页的功能方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录背景go库下载初始化数据【1】建表【2】插入数据【3】查看数据4、代码示例【1】gorm结构体定义【2】分页结构体

Java Web实现类似Excel表格锁定功能实战教程

《JavaWeb实现类似Excel表格锁定功能实战教程》本文将详细介绍通过创建特定div元素并利用CSS布局和JavaScript事件监听来实现类似Excel的锁定行和列效果的方法,感兴趣的朋友跟随... 目录1. 模拟Excel表格锁定功能2. 创建3个div元素实现表格锁定2.1 div元素布局设计2.

HTML5实现的移动端购物车自动结算功能示例代码

《HTML5实现的移动端购物车自动结算功能示例代码》本文介绍HTML5实现移动端购物车自动结算,通过WebStorage、事件监听、DOM操作等技术,确保实时更新与数据同步,优化性能及无障碍性,提升用... 目录1. 移动端购物车自动结算概述2. 数据存储与状态保存机制2.1 浏览器端的数据存储方式2.1.

基于 HTML5 Canvas 实现图片旋转与下载功能(完整代码展示)

《基于HTML5Canvas实现图片旋转与下载功能(完整代码展示)》本文将深入剖析一段基于HTML5Canvas的代码,该代码实现了图片的旋转(90度和180度)以及旋转后图片的下载... 目录一、引言二、html 结构分析三、css 样式分析四、JavaScript 功能实现一、引言在 Web 开发中,

springboot下载接口限速功能实现

《springboot下载接口限速功能实现》通过Redis统计并发数动态调整每个用户带宽,核心逻辑为每秒读取并发送限定数据量,防止单用户占用过多资源,确保整体下载均衡且高效,本文给大家介绍spring... 目录 一、整体目标 二、涉及的主要类/方法✅ 三、核心流程图解(简化) 四、关键代码详解1️⃣ 设置

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

《苹果macOS26Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色》在整体系统设计方面,macOS26采用了全新的玻璃质感视觉风格,应用于Dock栏、应用图标以及桌面小部件等多个界面... 科技媒体 MACRumors 昨日(6 月 13 日)发布博文,报道称在 macOS 26 Tahoe 中

Java使用HttpClient实现图片下载与本地保存功能

《Java使用HttpClient实现图片下载与本地保存功能》在当今数字化时代,网络资源的获取与处理已成为软件开发中的常见需求,其中,图片作为网络上最常见的资源之一,其下载与保存功能在许多应用场景中都... 目录引言一、Apache HttpClient简介二、技术栈与环境准备三、实现图片下载与保存功能1.

MybatisPlus service接口功能介绍

《MybatisPlusservice接口功能介绍》:本文主要介绍MybatisPlusservice接口功能介绍,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友... 目录Service接口基本用法进阶用法总结:Lambda方法Service接口基本用法MyBATisP

Java反射实现多属性去重与分组功能

《Java反射实现多属性去重与分组功能》在Java开发中,​​List是一种非常常用的数据结构,通常我们会遇到这样的问题:如何处理​​List​​​中的相同字段?无论是去重还是分组,合理的操作可以提高... 目录一、开发环境与基础组件准备1.环境配置:2. 代码结构说明:二、基础反射工具:BeanUtils