本文主要是介绍理解Spark中RDD(Resilient Distributed DataSet),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1。Spark围绕弹性分布式数据集(RDD)的概念展开,RDD是一个可以并行操作的容错的容错集合。 创建RDD有两种方法:并行化驱动程序中的现有集合,或引用外部存储系统中的数据集,例如共享文件系统,HDFS,HBase或提供Hadoop InputFormat的任何数据源。
val sc = spark.sparkContext // 已有内部数据源val data = Array(1, 2, 3, 4, 5)val disData = sc.parallelize(data)
// 外部数据源
val distFile = sc.textFile("xxxx.txt”)
2.有关使用Spark读取文件的一些注意事项
-
如果在本地文件系统上使用路径,则还必须可以在工作节点上的相同路径上访问该文件。 将文件复制到所有工作者或使用网络安装的共享文件系统。
-
Spark的所有基于文件的输入方法(包括textFile)都支持在目录,压缩文件和通配符上运行。 例如,您可以使用textFile(“/ my / directory”),textFile(“/ my / directory / * .txt”)和textFile(“/ my / directory / * .gz”)。
-
textFile方法还采用可选的第二个参数来
这篇关于理解Spark中RDD(Resilient Distributed DataSet)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!