利用repartition和mapPartitions替代reduce功能

2024-03-28 15:18

本文主要是介绍利用repartition和mapPartitions替代reduce功能,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据:用户,时间,地点 样例:

10001,20190401 14:20:06,20000000010000010000000000048793
10002,20190612 00:36:24,00000001000000050000000000181362
10002,20190612 01:49:05,00000001000000050000000000181362

需求统计:用户在每个地点的停留时长 如果相邻记录的地点不一致,时长累加在前一个地点上。

正常流程是根据用户id分组,根据时间戳升序排列,遍历记录相邻记录时间戳相减,得到停留时长,再做累加。

这个需求正好符合spark里面 repartitionAndSortWithinPartitions 算子的使用功能。

 

import util.DateFormat
import org.apache.spark.{Partitioner, SparkConf, SparkContext}
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types.{DataTypes, StructField, StructType}object Test {def main(args: Array[String]): Unit = {//读取Spark Application 的配置信息val sparkConf = new SparkConf()//设置SparkApplication名称.setAppName("ModuleSpark Application").setMaster("local[2]")val sc = SparkContext.getOrCreate(sparkConf)val spark = SparkSession.builder.config(sparkConf).getOrCreate()val hadoopConf = sc.hadoopConfigurationval schema = StructType(Array(StructField("user_id", DataTypes.StringType),StructField("start_time", DataTypes.StringType),StructField("content_id", DataTypes.StringType)))//读入数据的时候可以直接加schema参数 同样可以利用csv直接切分val testRDD = spark.read.option("delimiter", ",").schema(schema).csv("localtest/input/userTimeLineDir/test.txt")//替换默认的排序 repartition中默认使用到orderingimplicit val my_self_Ordering = new Ordering[Tuple2[String,String]] {override def compare(a: Tuple2[String,String], b: Tuple2[String,String]): Int = {if(a._1 == b._1){a._2.compareTo(b._2)}else{a._1.compareTo(a._2)}}}//数据分区依据,分区时使用默认排序class KeyBasePartitioner(partitions: Int) extends Partitioner {//分区数override def numPartitions: Int = partitionsoverride def getPartition(key: Any): Int = {val k = key.asInstanceOf[Tuple2[String,String]]Math.abs(k._1.hashCode() % numPartitions)}}//特殊迭代器生成,直接生成结果数据的迭代器 尽量避免OOM//不可更改迭结果的记录条数class CustomIterator(iter: Iterator[((String,String),Row)]) extends Iterator[Row] {var lastUser:String = null;var lasttime:String = null;def hasNext : Boolean={iter.hasNext}def next :Row={val cur:((String,String),Row)=iter.nextval user = cur._2.getString(0)val contentid = cur._2.getString(2)val starttime = cur._2.getString(1)if(lastUser == null || lastUser != user ){lastUser = userlasttime = starttimeRow("3","4","5")}else{val dura = DateFormat.dateToTimestamp(starttime,"yyyyMMdd HH:mm:ss") - DateFormat.dateToTimestamp(lasttime,"yyyyMMdd HH:mm:ss")lastUser = userlasttime = starttimeRow(user,contentid,dura)}}}val result = testRDD.rdd.map( x =>((x.getString(0),x.getString(1)) ,x)).repartitionAndSortWithinPartitions(new KeyBasePartitioner(10)).mapPartitions(v => new CustomIterator(v))result.collect();result.saveAsTextFile("localtest/output")}
}

1 利用spark的参数设置,直接生成固定格式的DataSet

spark.read.csv可以直接根据分隔符将读取的文件分列,通过设置option("delimiter",",")改变分隔符,通过.schema()直接设置读取的内容格式。

 

2 利用Ordering和Partitioner对数据进行重排序

排序工作在分区的时候一起进行,所有需要排序的内容都要并入key值。(疑惑点在这里,如果把时间戳并入key值,之后的reduce操作就需要重新map一次,重新分配key值userid,但在这个过程中,无法保证数据的排列顺序,而且正常reduce需要再一次触发shuffle操作,达不到优化的效果,所以这边选择采用MapPartitions来避免reduce。)

Ordering的排序是默认进行的,当重写了Ordering方法之后,默认使用重写后的方法进行排序。代码中按userid降序时间戳升序。

repartitionAndSortWithinPartitions对原始数据进行重新分区,分区时用到了自定义的Parititioner,注意分区时只用了userid字段,字段顺序按照定义的Ordering排列。

 

3 利用MapPartitions遍历记录,替换reduce效果

Map和MapPartitions区别:map算子中的执行命令针对每一条记录调用一次(不确定有没有内部优化),mappartitions算子针对每个分区记录调用一次。一般来说,使用MapPartitions的时候先获取一个包含分区内所有记录的迭代器,依次遍历,计算结果存储到List等集合容器,返回容器的迭代器。整个过程中如果分区中结果数据的数据量量太大,容易爆内存。但是MapPartitions的优点在于,可以很方便的使用外部变量,减少初始化的次数,也可以联系上下记录。

例如在计算停留时长,外部变量保留上条记录的用户编号和时间戳,如果用户编号相同,时间戳相减;用户编号不同,更新用户编号和时间戳(正常可以通过迭代器直接返回需要的结果,问题是分区内包含大量不同用户的数据,如果数据量过大,可能爆内存)。

有个替换方法是,继承迭代器的子类,传入原始数据(MapPartitions的迭代器),直接生成包含正确结果的迭代器返回,避免使用存储结果的集合容器。(不过这样做的缺点是,返回的数据没有办法控制记录条数,和输入的记录条数一模一样,如果是删除某些记录,可以用filter,但如果是增加部分记录,没想到处理办法。)

 

参考文章

你真知道如何高效用mapPartitions吗? https://blog.csdn.net/rlnLo2pNEfx9c/article/details/81613035

How to Use Spark Transformations Efficiently for MapReduce-like Jobs https://technology.finra.org/code/using-spark-transformations-for-mpreduce-jobs.html

这篇关于利用repartition和mapPartitions替代reduce功能的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/855961

相关文章

C++11第三弹:lambda表达式 | 新的类功能 | 模板的可变参数

🌈个人主页: 南桥几晴秋 🌈C++专栏: 南桥谈C++ 🌈C语言专栏: C语言学习系列 🌈Linux学习专栏: 南桥谈Linux 🌈数据结构学习专栏: 数据结构杂谈 🌈数据库学习专栏: 南桥谈MySQL 🌈Qt学习专栏: 南桥谈Qt 🌈菜鸡代码练习: 练习随想记录 🌈git学习: 南桥谈Git 🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈�

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Spring框架5 - 容器的扩展功能 (ApplicationContext)

private static ApplicationContext applicationContext;static {applicationContext = new ClassPathXmlApplicationContext("bean.xml");} BeanFactory的功能扩展类ApplicationContext进行深度的分析。ApplicationConext与 BeanF

JavaFX应用更新检测功能(在线自动更新方案)

JavaFX开发的桌面应用属于C端,一般来说需要版本检测和自动更新功能,这里记录一下一种版本检测和自动更新的方法。 1. 整体方案 JavaFX.应用版本检测、自动更新主要涉及一下步骤: 读取本地应用版本拉取远程版本并比较两个版本如果需要升级,那么拉取更新历史弹出升级控制窗口用户选择升级时,拉取升级包解压,重启应用用户选择忽略时,本地版本标志为忽略版本用户选择取消时,隐藏升级控制窗口 2.

Android 10.0 mtk平板camera2横屏预览旋转90度横屏拍照图片旋转90度功能实现

1.前言 在10.0的系统rom定制化开发中,在进行一些平板等默认横屏的设备开发的过程中,需要在进入camera2的 时候,默认预览图像也是需要横屏显示的,在上一篇已经实现了横屏预览功能,然后发现横屏预览后,拍照保存的图片 依然是竖屏的,所以说同样需要将图片也保存为横屏图标了,所以就需要看下mtk的camera2的相关横屏保存图片功能, 如何实现实现横屏保存图片功能 如图所示: 2.mtk

Spring+MyBatis+jeasyui 功能树列表

java代码@EnablePaging@RequestMapping(value = "/queryFunctionList.html")@ResponseBodypublic Map<String, Object> queryFunctionList() {String parentId = "";List<FunctionDisplay> tables = query(parent

PostgreSQL核心功能特性与使用领域及场景分析

PostgreSQL有什么优点? 开源和免费 PostgreSQL是一个开源的数据库管理系统,可以免费使用和修改。这降低了企业的成本,并为开发者提供了一个活跃的社区和丰富的资源。 高度兼容 PostgreSQL支持多种操作系统(如Linux、Windows、macOS等)和编程语言(如C、C++、Java、Python、Ruby等),并提供了多种接口(如JDBC、ODBC、ADO.NET等

寻迹模块TCRT5000的应用原理和功能实现(基于STM32)

目录 概述 1 认识TCRT5000 1.1 模块介绍 1.2 电气特性 2 系统应用 2.1 系统架构 2.2 STM32Cube创建工程 3 功能实现 3.1 代码实现 3.2 源代码文件 4 功能测试 4.1 检测黑线状态 4.2 未检测黑线状态 概述 本文主要介绍TCRT5000模块的使用原理,包括该模块的硬件实现方式,电路实现原理,还使用STM32类

nginx介绍及常用功能

什么是nginx nginx跟Apache一样,是一个web服务器(网站服务器),通过HTTP协议提供各种网络服务。 Apache:重量级的,不支持高并发的服务器。在Apache上运行数以万计的并发访问,会导致服务器消耗大量内存。操作系统对其进行进程或线程间的切换也消耗了大量的CPU资源,导致HTTP请求的平均响应速度降低。这些都决定了Apache不可能成为高性能WEB服务器  nginx:

详解Tomcat 7的七大新特性和新增功能(1)

http://developer.51cto.com/art/201009/228537.htm http://tomcat.apache.org/tomcat-7.0-doc/index.html  Apache发布首个Tomcat 7版本已经发布了有一段时间了,Tomcat 7引入了许多新功能,并对现有功能进行了增强。很多文章列出了Tomcat 7的新功能,但大多数并没有详细解释它们