首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
spark03专题
Spark03:RDD编程接口
公众号:数据挖掘与机器学习笔记 Spark中提供了通用接口来抽象每个RDD,包括: 分区信息:数据集的最小分片依赖关系:指向其父RDD函数:基于父RDD的计算方法划分策略和数据位置的元数据 1.RDD分区 RDD的分区是一个逻辑概念,变换前后的新旧分区在物理上可能是同一块内存或存储,这种优化防止函数式不变性导致的内存需求无限扩张。在RDD操作中可以使用Partitions方法获取RDD
阅读更多...