Rdds基本操作Transformation,逐元素,map,filter,flatMap,集合运算

本文主要是介绍Rdds基本操作Transformation,逐元素,map,filter,flatMap,集合运算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Rdds基本操作Transformation

转换,从之前的RDD构建一个新的RDD,map操作

逐元素map,接受一个函数,应用在RDD每一个元素,并返回一个新的RDD

val lines = sc.parallelize(Array("hello","spark","hello","world","!"))      测试时候使用,从已有集合中构造一个RDD

lines.foreach(println)  打印出每一行,5个元素分为了5个分区  hello  spark

val line2 = lines.map(word=>(word,1))    在每个元素后面加1

lines2.foreach(println)     (hello,1)   (spark,1)


filter()

接受函数,返回只包含满足filter函数的新RDD

val line3 = lines.filter(word=>word.contains("hello"")

lines3.foreach(println)          hello hello


flatMap()

对每个输入元素,输出多个输出元素

压扁,将RDD元素压扁后返回一个新的RDD

val inputs = sc.textFile("/home/maixia/soft/helloSpark.txt")

inputs.foreach(println)                      hello!        hello spark         hello world

val lines = inputs.flatMap(line=>line.split(" "))

line代表每一行,空格分割;将3行的6个元素压成一起

lines.foreach(println)          hellosparkhelloworldhello!

val lines2 = lines.map(word=>(word,1))

line2.foreach(print)    (hello,1)  (spark,1)


Rdds基本操作Transformation

集合运算,并集交集

val rdd1 = sc.parallelize(Array(("coffe","coffe","panda","monkey","tea"))

rdd1.foreach(print)                                              coffe coffe panda  monkey tea

val rdd2 = sc.parallelize(Array("coffe","monkey","kitty"))

rdd2.foreach(print)             coffe  monkey kitty

val rdd_distinct = rdd1.distinct()  去重

rdd_distinct.foreach(print)     coffe panda  monkey tea

val rdd_union=rdd1.union(rdd2)  不去重并集   coffe coffe panda  monkey tea  coffe  monkey kitty

val rdd_inter=rdd1.intersection(rdd2)  交集    monkey coffe

val rdd_sub=rdd1.substract(rdd2)     tea  panda    在rdd1中有,rdd2没有的













这篇关于Rdds基本操作Transformation,逐元素,map,filter,flatMap,集合运算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1127591

相关文章

深度解析Spring Boot拦截器Interceptor与过滤器Filter的区别与实战指南

《深度解析SpringBoot拦截器Interceptor与过滤器Filter的区别与实战指南》本文深度解析SpringBoot中拦截器与过滤器的区别,涵盖执行顺序、依赖关系、异常处理等核心差异,并... 目录Spring Boot拦截器(Interceptor)与过滤器(Filter)深度解析:区别、实现

postgresql数据库基本操作及命令详解

《postgresql数据库基本操作及命令详解》本文介绍了PostgreSQL数据库的基础操作,包括连接、创建、查看数据库,表的增删改查、索引管理、备份恢复及退出命令,适用于数据库管理和开发实践,感兴... 目录1. 连接 PostgreSQL 数据库2. 创建数据库3. 查看当前数据库4. 查看所有数据库

python3如何找到字典的下标index、获取list中指定元素的位置索引

《python3如何找到字典的下标index、获取list中指定元素的位置索引》:本文主要介绍python3如何找到字典的下标index、获取list中指定元素的位置索引问题,具有很好的参考价值,... 目录enumerate()找到字典的下标 index获取list中指定元素的位置索引总结enumerat

CSS实现元素撑满剩余空间的五种方法

《CSS实现元素撑满剩余空间的五种方法》在日常开发中,我们经常需要让某个元素占据容器的剩余空间,本文将介绍5种不同的方法来实现这个需求,并分析各种方法的优缺点,感兴趣的朋友一起看看吧... css实现元素撑满剩余空间的5种方法 在日常开发中,我们经常需要让某个元素占据容器的剩余空间。这是一个常见的布局需求

Java中Map.Entry()含义及方法使用代码

《Java中Map.Entry()含义及方法使用代码》:本文主要介绍Java中Map.Entry()含义及方法使用的相关资料,Map.Entry是Java中Map的静态内部接口,用于表示键值对,其... 目录前言 Map.Entry作用核心方法常见使用场景1. 遍历 Map 的所有键值对2. 直接修改 Ma

C#之List集合去重复对象的实现方法

《C#之List集合去重复对象的实现方法》:本文主要介绍C#之List集合去重复对象的实现方法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C# List集合去重复对象方法1、测试数据2、测试数据3、知识点补充总结C# List集合去重复对象方法1、测试数据

Java中JSON格式反序列化为Map且保证存取顺序一致的问题

《Java中JSON格式反序列化为Map且保证存取顺序一致的问题》:本文主要介绍Java中JSON格式反序列化为Map且保证存取顺序一致的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未... 目录背景问题解决方法总结背景做项目涉及两个微服务之间传数据时,需要提供方将Map类型的数据序列化为co

C/C++中OpenCV 矩阵运算的实现

《C/C++中OpenCV矩阵运算的实现》本文主要介绍了C/C++中OpenCV矩阵运算的实现,包括基本算术运算(标量与矩阵)、矩阵乘法、转置、逆矩阵、行列式、迹、范数等操作,感兴趣的可以了解一下... 目录矩阵的创建与初始化创建矩阵访问矩阵元素基本的算术运算 ➕➖✖️➗矩阵与标量运算矩阵与矩阵运算 (逐元

Spring Boot拦截器Interceptor与过滤器Filter深度解析(区别、实现与实战指南)

《SpringBoot拦截器Interceptor与过滤器Filter深度解析(区别、实现与实战指南)》:本文主要介绍SpringBoot拦截器Interceptor与过滤器Filter深度解析... 目录Spring Boot拦截器(Interceptor)与过滤器(Filter)深度解析:区别、实现与实

Java使用Stream流的Lambda语法进行List转Map的操作方式

《Java使用Stream流的Lambda语法进行List转Map的操作方式》:本文主要介绍Java使用Stream流的Lambda语法进行List转Map的操作方式,具有很好的参考价值,希望对大... 目录背景Stream流的Lambda语法应用实例1、定义要操作的UserDto2、ListChina编程转成M