本文主要是介绍Spark学习笔记 --- RDD的创建,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Spark所有的操作都围绕弹性分布式数据集(RDD)进行,这是一个有容错机制并可以被并行操作的元素集合,
具有只读、分区、容错、高效、无需物化、可以缓存、RDD依赖等特征。
目前有两种类型的基础RDD:
并行集合(Parallelized Collections):接收一个已经存在的Scala集合,然后进行各种并行计算。
Hadoop数据集(Hadoop Datasets) :在一个文件的每条记录上运行函数。只要文件系统是HDFS,
或者hadoop支持的任意存储系统即可。
这两种类型的RDD都可以通过相同的方式进行操作,从而获得子RDD等一系列拓展,形成lineage血统关系图。
(1). 并行化集合
<
这篇关于Spark学习笔记 --- RDD的创建的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!