hadoop入门--简述hadoop 2.x Yarn组件协作过程

本文主要是介绍hadoop入门--简述hadoop 2.x Yarn组件协作过程，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

系统结构

hadoop2.x主要包括三个核心部分：

(1) hdfs-分布式存储组件

hadoop用于存储数据的基础组件。分布式的，跨网络交互的hdfs集群。

(2) yarn-资源管理、任务调度组件

hadoop用于资源管理、任务调度的基础组件。yarn使hadoop成为分布式处理数据的通用平台，支持MapReduce v2、Tez、Hoya等多种计算框架。

(3) processing framework-分布式计算框架

有很多针对不同计算模型的计算框架，比如进行批量处理的MapReduce v2，图像处理的Giraph,流数据处理的Storm等。

(4) API-应用编程接口

用户与hadoop交互的并行计算编程接口。

Yarn组件

(1) Resource Manager

Resource Manager资源管理器是yarn的核心组件，它管理hadoop集群所有的数据处理资源。Resource Manager的任务是维护一个全局的hadoop集群的资源视图，处理资源请求，调度请求和分配资源给发起请求的应用程序。Resource Manager本质上是一个给发起请求的应用程序分配资源的专用调度器，但是它依赖执行实际调度逻辑的调度模块。

Resource Manager对应用程序和计算框架是不可知的，yarn的Resource Manager没有map task或reduce task的概念，不跟踪job工作和task任务的进程，也不处理故障。Resource Manager唯一的任务就是调度工作负载。高度的职责分离，使yarn更易扩展，能够对应用程序提供一个更通用的hadoop平台，也使yarn支持多租户hadoop集群。

(2) Node Manager

每个salve节点都有一个Node Manager守护进程，这个守护进程作为Resource Manager的slave。每个slave node都有一个服务，它关联到使hadoop成为分布式系统的处理服务和存储服务。每个Node Manager跟踪本节点可用的数据处理资源的情况，并定期向Resource Manager发送报告。

hadoop集群中处理资源是以container的形式被消费的，一个container是运行一个应用必要资源的集合，包括 CPU cores,内存，网络带宽和磁盘空间。一个已部署的container是作为一个独立的进程运行在hadoop集群一个节点上的。运行在slave节点上的所有container进程在最初被slave节点的Node Manager守护进程配置、监控和跟踪。

提示：hadoop2的container概念和hadoop1的slot概念类似，但是存在很多不同的地方：1）slot是为运行map或reduce任务而定义的；而container是通用的，可以允许任何应用程序逻辑。2）container可以用自定义的资源数量来请求，只要请求的资源数量在一个container包含的资源范围之内皆可；但是，请求slot资源，都是分配一个完全的slot资源。

(3) Application Master

运行在hadoop集群中的每个应用程序都有它自己的专用Application Master实例，事实上这个实例运行在节点的container进程里。在这个Application Master实例整个生命周期，它都给Resource Manager发送心跳信息，告之Resource Manager资源管理器Application Master示例的状态和应用程序对资源需要的情况。基于Resource Manager资源管理器调度的结果，资源管理器会给某个特定slave节点的Application Master实例分配container资源租用权-提前预定资源container的需要。

Application Master监督应用程序的整个生命周期，包括从Resource Manager请求资源container到向Node Manager提交container资源租用请求。

提示：每个应用程计算框架都必须有自己的Application Master实现。比如，MapReduce有一个专门用来执行map和reduce任务的Application Maser实现。

发布一个基于Yarn应用程序，了解Yarn组件协作的过程

1）客户端应用向Resource Manager提交请求。
2）Resource Manager向Node Manager提交Application Master Instance创建请求。
3）Node Manager获取可用container，并启动container进程。
4）Application Master在container进程中进行初始化，并注册到Resource Manager。
5）Application Master向NameNode提交请求，获取文件的名称、位置和应用程序需要处理的数据块，并计算处理完这些数据块需要多少map和reduce任务。
6）Application Master向Resource Manager发送心跳信息（带有请求资源和状态变化的清单），请求获取应用程序运行所必要的资源。
7）Resouce Manager接受资源请求，并把这个请求放在请求待调度的队列里，等待被调度。当请求的资源在slave节点有可用的，Resource Manager授予Application Master实例container资源的租用权。
8）Application Master向Node Manager发送CLC（包含应用程序任务需要的一切：环境变量、授权token、运行时的本地资源、开启实际进程的命令行信息），请求Resource Manager分配的container。然后Node Manager创建container进程，并启动进程。
9）当container进程开启时，应用程序开始执行。Application Master会监督应用程序的进程。
10）当应用的所有任务完成，Application Master发送结果集给客户端，通知Resource Manager应用完成并从Resource Manager撤销，关闭自身实例。

这篇关于hadoop入门--简述hadoop 2.x Yarn组件协作过程的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！