dfds专题

6.2.3 Spark《RDD高阶》序列化,依赖,持久,容错,分区,广播,累加,TopN《原理初》独立作业提交,洗牌原理,RDD优化《SQL概述》数据抽象,类型《SQL编程》SpkSes,DFDS

目录 第4节 RDD编程高阶 Spark原理 4.1 序列化 4.2 RDD依赖关系 4.3 RDD持久化/缓存 4.4 RDD容错机制Checkpoint 4.5 RDD的分区 1、本地模式 (取决于核数) 2、伪分布式(x为本机上启动的executor数,y为每个executor使用的core数,z为每个 executor使用的内存) 3、分布式模式(yarn & stan