SparkCore编程RDD

2023-10-14 18:28

文章标签 编程 rdd sparkcore

本文主要是介绍SparkCore编程RDD，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

RDD概述

中文名为弹性分布式数据集，是数据处理基本单位。代表一个弹性的，不可变，可分区，里面的数据可并行计算的集合。

RDD和Hadoop MR 的区别：

RDD特性：

为了能够看到分区的情况，不使用collect收集，而是采用saveAsTextFile方法来看并行操作的具体情形。local[2]代表并行度，也会影响文件的数量，这个是分区数的上限。也可以通过parallelize(list, 分区数)方法来控制分区数量，而不影响分区的上限。

内存数据分区策略：如果数据个数无法被分区数整除，多出来的数据优先分配给后面的分区。

def positions()={val start = ((下标*数据个数)/分区数).toIntval end = ((下标+1)* 数据个数/ 分区数).toInt
}

从集合获取数据时，负载均衡，尽量保证每个分区的数据数量是一致的，后面的分区的数据会比前面的多。

MR和spark的切分区别：

文件数据分区策略：分区数量最低为2，最高为环境CPU数量。分区数量根据文件大小来计算得出，跟MR切片规则很类似。大致是这样：

这篇关于SparkCore编程RDD的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！