首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
blockmanager专题
深入理解Spark BlockManager:定义、原理与实践
深入理解Spark BlockManager:定义、原理与实践 1.定义 Spark是一个开源的大数据处理框架,其主要特点是高性能、易用性以及可扩展性。在Spark中,BlockManager是其核心组件之一,它负责管理内存和磁盘上的数据块,并确保这些数据块在集群中的各个节点上可以高效地共享和访问,其中包括存储、复制、序列化和反序列化数据块,并且负责将这些数据块分发到集群中的各个节点上,以便进
阅读更多...
39 BlockManager深入理解
主要内容: 1. BlockManager源码再探 2. BlockManagerMaster 3. BlockManager具体读写数据源码 一、BlockManager 概述 BlockManager也是Master-slaves结构。Driver中的BlockManager会管理所有Executor中的BlockManage
阅读更多...
38 Sparkcore中的BlockManager
主要内容: 1. BlockManager 运行实例 2. BlockManager 原理流程图 37中的回顾: 首先讲解了Task内部具体执行的流程;然后介绍了Driver是如何对Executor处理后的Task执行的结果进行进一步的处理的。 从上一讲的内容可以看出在Shuffle过程中要读写数据(即上一个Stage的数据)时需要BlockManager的
阅读更多...