2.6.3 hadoop体系之离线计算-Azkaban工作流调度系统-Azkaban多例实战

本文主要是介绍2.6.3 hadoop体系之离线计算-Azkaban工作流调度系统-Azkaban多例实战,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

1.Command 类型单一 Job 示例

1.1 创建job文件

1.2 将job资源文件打包成zip文件

1.3 在web上创建项目并且上传压缩包

1.4 启动执行job

2.Command 类型多 Job 示例(有依赖关系)

2.1 创建有依赖关系的多个job描述

2.2 将所有job文件,打包到一个zip包中

2.3 在azkaban的web管理界面创建工程并且上传zip包

2.4 启动工作流flow

3.HDFS 操作任务

3.1 创建job描述文件fs.job

3.2 将job资源文件打包成zip文件

3.3 通过azkaban的web管理平台创建project并上传job压缩包,并且启动执行该job

4.MapReduce 任务

4.1 创建job描述文件,及mr程序jar包(示例中直接使用hadoop自带的example jar)

4.2 将所有job资源文件打到一个zip包中

4.3 在azkaban中web管理界面中创建工程并且上传zip包,并且启动job

5.Hive脚本任务

5.1 创建job描述文件和hive脚本

5.2 Job描述文件:hive.job

5.3 将所有job资源文件打包到一个zip中

5.4 在azkaban的web管理界面创建工程并上传zip包,并且启动job任务

6.Azkaban 的定时任务


Azkaba内置的任务类型支持command、java

1.Command 类型单一 Job 示例

1.1 创建job文件

创建文本文件,更改名称为mycommand.job 注意后缀.txt一定不要带上,保存为格式为UFT-8 without bom 内容如下:

type=command
command=echo 'hello world'

1.2 将job资源文件打包成zip文件

1.3 在web上创建项目并且上传压缩包

通过azkaban的web管理平台创建project并上传job压缩包

首先创建project

上传zip包

1.4 启动执行job

2.Command 类型多 Job 示例(有依赖关系)

2.1 创建有依赖关系的多个job描述

2.2 将所有job文件,打包到一个zip包中

2.3 在azkaban的web管理界面创建工程并且上传zip包

2.4 启动工作流flow

3.HDFS 操作任务

3.1 创建job描述文件fs.job

type=command
command=/export/servers/hadoop‐3.1.1/bin/hdfs dfs ‐mkdir /azkaban

3.2 将job资源文件打包成zip文件

3.3 通过azkaban的web管理平台创建project并上传job压缩包,并且启动执行该job

4.MapReduce 任务

MR 任务依然可以使用command的job类型来执行

4.1 创建job描述文件,及mr程序jar包(示例中直接使用hadoop自带的example jar)

type=command
command=/export/servers/hadoop‐3.1.1/bin/hadoop jar hadoop‐mapreduce‐examples‐3.1.1.jar pi 3 5

4.2 将所有job资源文件打到一个zip包中

4.3 在azkaban中web管理界面中创建工程并且上传zip包,并且启动job

5.Hive脚本任务

5.1 创建job描述文件和hive脚本

Hive脚本: hive.sql

create database if not exists azhive;
use azhive;
create table if not exists aztest(id string,name string) row format
delimited fields terminated by '\t';

5.2 Job描述文件:hive.job

type=command
command=/export/servers/apache‐hive‐3.1.1‐bin ‐f 'hive.sql'

5.3 将所有job资源文件打包到一个zip中

5.4 在azkaban的web管理界面创建工程并上传zip包,并且启动job任务

6.Azkaban 的定时任务

使用azkaban的scheduler功能可以实现对我们的作业任务进行定时调度功能

这篇关于2.6.3 hadoop体系之离线计算-Azkaban工作流调度系统-Azkaban多例实战的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/754505

相关文章

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Linux系统中卸载与安装JDK的详细教程

《Linux系统中卸载与安装JDK的详细教程》本文详细介绍了如何在Linux系统中通过Xshell和Xftp工具连接与传输文件,然后进行JDK的安装与卸载,安装步骤包括连接Linux、传输JDK安装包... 目录1、卸载1.1 linux删除自带的JDK1.2 Linux上卸载自己安装的JDK2、安装2.1

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Pandas使用SQLite3实战

《Pandas使用SQLite3实战》本文主要介绍了Pandas使用SQLite3实战,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1 环境准备2 从 SQLite3VlfrWQzgt 读取数据到 DataFrame基础用法:读

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时

Linux系统之主机网络配置方式

《Linux系统之主机网络配置方式》:本文主要介绍Linux系统之主机网络配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、查看主机的网络参数1、查看主机名2、查看IP地址3、查看网关4、查看DNS二、配置网卡1、修改网卡配置文件2、nmcli工具【通用

Linux系统之dns域名解析全过程

《Linux系统之dns域名解析全过程》:本文主要介绍Linux系统之dns域名解析全过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、dns域名解析介绍1、DNS核心概念1.1 区域 zone1.2 记录 record二、DNS服务的配置1、正向解析的配置

Python实战之屏幕录制功能的实现

《Python实战之屏幕录制功能的实现》屏幕录制,即屏幕捕获,是指将计算机屏幕上的活动记录下来,生成视频文件,本文主要为大家介绍了如何使用Python实现这一功能,希望对大家有所帮助... 目录屏幕录制原理图像捕获音频捕获编码压缩输出保存完整的屏幕录制工具高级功能实时预览增加水印多平台支持屏幕录制原理屏幕

Linux系统中配置静态IP地址的详细步骤

《Linux系统中配置静态IP地址的详细步骤》本文详细介绍了在Linux系统中配置静态IP地址的五个步骤,包括打开终端、编辑网络配置文件、配置IP地址、保存并重启网络服务,这对于系统管理员和新手都极具... 目录步骤一:打开终端步骤二:编辑网络配置文件步骤三:配置静态IP地址步骤四:保存并关闭文件步骤五:重