大数据框架OOZIE 五分钟入门学习

本文主要是介绍大数据框架OOZIE 五分钟入门学习，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Apache Oozie是工作流调度用在Hadoop中。它是一个运行相关的作业工作流系统。这里，用户被允许创建向非循环图工作流程，其可以在并列 Hadoop 并顺序地运行。

它由两部分组成：

Oozie可扩展性和可管理及时执行成千上万的工作流程(每个由几十个作业)的Hadoop集群。

Oozie 也非常灵活。人们可以很容易启动，停止，暂停和重新运行作业。Oozie 可以很容易地重新运行失败的工作流。可以很容易重做因宕机或故障错过或失败的作业。甚至有可能跳过一个特定故障节点。

Oozie 运行作为集群服务，客户端提交的工作流定义：立即或以后处理。

Oozie 工作流由动作节点和控制流的节点组成。

一个操作节点代表一个工作流任务，例如，移动文件到HDFS，运行 MapReduce，Pig 或 Hive 作业，使用 Sqoop 导入数据或运行Java 编写程序的 shell 脚本。

一个控制流节点通过允许像条件逻辑结构，不同的分支可以根据较早动作节点的结果，随后执行动作工作流程。

开始节点，终端节点和错误节点属于这一类节点。

开始节点, 指定的工作流程作业的开始。

结束节点, 作业的结束信号。

错误节点, 指定要打印错误和相应的错误信息的发生。

在执行工作流的结束, HTTP 回调用于通过 Oozie 更新客户端与工作流状态。入门或出口，从动作节点还可能会触发回调。

工作流程图示例
OOZIE 五分钟入门学习

使用Oozie的主要目的是为了管理不同类型的作业在Hadoop系统中处理。

作业之间的依赖关系是由用户向无环图的形式指定。Oozie 的消费信息以及在工作流中指定负责其执行的顺序正确。这样，用户同时管理保存整个工作流程。此外 Oozie 有指定执行特定工作频率规定。

这篇关于大数据框架OOZIE 五分钟入门学习的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！