hadoop入门--简述hadoop 2.x Yarn组件协作过程

2024-08-24 02:58

本文主要是介绍hadoop入门--简述hadoop 2.x Yarn组件协作过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

系统结构

hadoop2.x主要包括三个核心部分:

(1) hdfs-分布式存储组件

hadoop用于存储数据的基础组件。分布式的,跨网络交互的hdfs集群。

(2) yarn-资源管理、任务调度组件

hadoop用于资源管理、任务调度的基础组件。yarn使hadoop成为分布式处理数据的通用平台,支持MapReduce v2、Tez、Hoya等多种计算框架。

(3) processing framework-分布式计算框架

有很多针对不同计算模型的计算框架,比如进行批量处理的MapReduce v2,图像处理的Giraph,流数据处理的Storm等。

(4) API-应用编程接口

用户与hadoop交互的并行计算编程接口。


Yarn组件

(1) Resource Manager

Resource Manager资源管理器是yarn的核心组件,它管理hadoop集群所有的数据处理资源。Resource Manager的任务是维护一个全局的hadoop集群的资源视图,处理资源请求,调度请求和分配资源给发起请求的应用程序。Resource Manager本质上是一个给发起请求的应用程序分配资源的专用调度器,但是它依赖执行实际调度逻辑的调度模块。

Resource Manager对应用程序和计算框架是不可知的,yarn的Resource Manager没有map task或reduce task的概念,不跟踪job工作和task任务的进程,也不处理故障。Resource Manager唯一的任务就是调度工作负载。高度的职责分离,使yarn更易扩展,能够对应用程序提供一个更通用的hadoop平台,也使yarn支持多租户hadoop集群。

(2) Node Manager

每个salve节点都有一个Node Manager守护进程,这个守护进程作为Resource Manager的slave。每个slave node都有一个服务,它关联到使hadoop成为分布式系统的处理服务和存储服务。每个Node Manager跟踪本节点可用的数据处理资源的情况,并定期向Resource Manager发送报告。

hadoop集群中处理资源是以container的形式被消费的,一个container是运行一个应用必要资源的集合,包括 CPU cores,内存,网络带宽和磁盘空间。一个已部署的container是作为一个独立的进程运行在hadoop集群一个节点上的。运行在slave节点上的所有container进程在最初被slave节点的Node Manager守护进程配置、监控和跟踪。

提示:hadoop2的container概念和hadoop1的slot概念类似,但是存在很多不同的地方:1)slot是为运行map或reduce任务而定义的;而container是通用的,可以允许任何应用程序逻辑。2)container可以用自定义的资源数量来请求,只要请求的资源数量在一个container包含的资源范围之内皆可;但是,请求slot资源,都是分配一个完全的slot资源。

(3) Application Master

运行在hadoop集群中的每个应用程序都有它自己的专用Application Master实例,事实上这个实例运行在节点的container进程里。在这个Application Master实例整个生命周期,它都给Resource Manager发送心跳信息,告之Resource Manager资源管理器Application Master示例的状态和应用程序对资源需要的情况。基于Resource Manager资源管理器调度的结果,资源管理器会给某个特定slave节点的Application Master实例分配container资源租用权-提前预定资源container的需要。

Application Master监督应用程序的整个生命周期,包括从Resource Manager请求资源container到向Node Manager提交container资源租用请求。

提示:每个应用程计算框架都必须有自己的Application Master实现。比如,MapReduce有一个专门用来执行map和reduce任务的Application Maser实现。


发布一个基于Yarn应用程序,了解Yarn组件协作的过程

  • 1)客户端应用向Resource Manager提交请求。
  • 2)Resource Manager向Node Manager提交Application Master Instance创建请求。
  • 3)Node Manager获取可用container,并启动container进程。
  • 4)Application Master在container进程中进行初始化,并注册到Resource Manager。
  • 5)Application Master向NameNode提交请求,获取文件的名称、位置和应用程序需要处理的数据块,并计算处理完这些数据块需要多少map和reduce任务。
  • 6)Application Master向Resource Manager发送心跳信息(带有请求资源和状态变化的清单),请求获取应用程序运行所必要的资源。
  • 7)Resouce Manager接受资源请求,并把这个请求放在请求待调度的队列里,等待被调度。当请求的资源在slave节点有可用的,Resource Manager授予Application Master实例container资源的租用权。
  • 8)Application Master向Node Manager发送CLC(包含应用程序任务需要的一切:环境变量、授权token、运行时的本地资源、开启实际进程的命令行信息),请求Resource Manager分配的container。然后Node Manager创建container进程,并启动进程。
  • 9)当container进程开启时,应用程序开始执行。Application Master会监督应用程序的进程。
  • 10)当应用的所有任务完成,Application Master发送结果集给客户端,通知Resource Manager应用完成并从Resource Manager撤销,关闭自身实例。

这篇关于hadoop入门--简述hadoop 2.x Yarn组件协作过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1101249

相关文章

JSON Web Token在登陆中的使用过程

《JSONWebToken在登陆中的使用过程》:本文主要介绍JSONWebToken在登陆中的使用过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录JWT 介绍微服务架构中的 JWT 使用结合微服务网关的 JWT 验证1. 用户登录,生成 JWT2. 自定义过滤

java中使用POI生成Excel并导出过程

《java中使用POI生成Excel并导出过程》:本文主要介绍java中使用POI生成Excel并导出过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录需求说明及实现方式需求完成通用代码版本1版本2结果展示type参数为atype参数为b总结注:本文章中代码均为

Vue中组件之间传值的六种方式(完整版)

《Vue中组件之间传值的六种方式(完整版)》组件是vue.js最强大的功能之一,而组件实例的作用域是相互独立的,这就意味着不同组件之间的数据无法相互引用,针对不同的使用场景,如何选择行之有效的通信方式... 目录前言方法一、props/$emit1.父组件向子组件传值2.子组件向父组件传值(通过事件形式)方

SpringCloud之LoadBalancer负载均衡服务调用过程

《SpringCloud之LoadBalancer负载均衡服务调用过程》:本文主要介绍SpringCloud之LoadBalancer负载均衡服务调用过程,具有很好的参考价值,希望对大家有所帮助,... 目录前言一、LoadBalancer是什么?二、使用步骤1、启动consul2、客户端加入依赖3、以服务

Oracle存储过程里操作BLOB的字节数据的办法

《Oracle存储过程里操作BLOB的字节数据的办法》该篇文章介绍了如何在Oracle存储过程中操作BLOB的字节数据,作者研究了如何获取BLOB的字节长度、如何使用DBMS_LOB包进行BLOB操作... 目录一、缘由二、办法2.1 基本操作2.2 DBMS_LOB包2.3 字节级操作与RAW数据类型2.

Spring组件初始化扩展点BeanPostProcessor的作用详解

《Spring组件初始化扩展点BeanPostProcessor的作用详解》本文通过实战案例和常见应用场景详细介绍了BeanPostProcessor的使用,并强调了其在Spring扩展中的重要性,感... 目录一、概述二、BeanPostProcessor的作用三、核心方法解析1、postProcessB

C#原型模式之如何通过克隆对象来优化创建过程

《C#原型模式之如何通过克隆对象来优化创建过程》原型模式是一种创建型设计模式,通过克隆现有对象来创建新对象,避免重复的创建成本和复杂的初始化过程,它适用于对象创建过程复杂、需要大量相似对象或避免重复初... 目录什么是原型模式?原型模式的工作原理C#中如何实现原型模式?1. 定义原型接口2. 实现原型接口3

kotlin中的行为组件及高级用法

《kotlin中的行为组件及高级用法》Jetpack中的四大行为组件:WorkManager、DataBinding、Coroutines和Lifecycle,分别解决了后台任务调度、数据驱动UI、异... 目录WorkManager工作原理最佳实践Data Binding工作原理进阶技巧Coroutine

Python FastAPI入门安装使用

《PythonFastAPI入门安装使用》FastAPI是一个现代、快速的PythonWeb框架,用于构建API,它基于Python3.6+的类型提示特性,使得代码更加简洁且易于绶护,这篇文章主要介... 目录第一节:FastAPI入门一、FastAPI框架介绍什么是ASGI服务(WSGI)二、FastAP

Spring Security注解方式权限控制过程

《SpringSecurity注解方式权限控制过程》:本文主要介绍SpringSecurity注解方式权限控制过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、摘要二、实现步骤2.1 在配置类中添加权限注解的支持2.2 创建Controller类2.3 Us