本文主要是介绍理解Spark的RDD算子,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
什么是Spark的算子呢?说简单一些就是Spark内部封装了一些处理RDD数据的函数方法。
其中算子又分为两部分:
Transformation 与 Actions
-
Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作
-
Action(执行):触发Spark作业的运行,真正触发转换算子的计算。
Transformation | Meaning |
map(func) | 返回通过函数func传递源的每个元素形成的新分布式数据集。 |
filter(func) | 返回通过选择funcreturns为true的源元素形成的新数据集。 |
flatMap(func) | 与map类似,但每个输入项可以映射到0个或更多输出项,将所有的数据返回到一个集合(因此func应该返回Seq而不是单个项)。 |
mapPartitions(func) | 与map类似,但在R |
这篇关于理解Spark的RDD算子的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!