Azkaban官网文档1-概述-Overvie

2023-10-23 11:50

本文主要是介绍Azkaban官网文档1-概述-Overvie,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Azkaban是在LinkedIn上实现的,用来解决Hadoop作业依赖的问题。我们的工作需要按顺序运行,从ETL工作到数据分析产品。

Azkaban最初是一个单一的服务器解决方案,随着多年来Hadoop用户数量的增加,它已经发展成为一个更健壮的解决方案。

Azkaban由三个关键部分组成:

  1. 关系型数据库(MySQL)
  2. AzkabanWebServer
  3. AzkabanExecutorServer

Relational Database (MySQL)

Azkaban使用MySQL来存储它的大部分状态。AzkabanWebServer和AzkabanExecutorServer都访问数据库。

AzkabanWebServer 是如何访问数据库的?

web服务器使用数据库的原因如下:

  1. 项目管理——项目、项目权限、上传文件。
  2. 执行工作流状态——跟踪执行工作流以及哪个执行器正在运行它们。
  3. 以前的工作流/作业——搜索以前执行的作业和工作流,并访问它们的日志文件。
  4. 调度程序——保持调度作业的状态。
  5. SLA——保持所有SLA规则

AzkabanExecutorServer 用数据库来干啥?

  1. 访问项目——从数据库中检索项目文件。
  2. 执行工作流/作业——检索和更新正在执行的工作流的数据
  3. 日志——将作业和工作流的输出日志存储到数据库中。
  4. 互流依赖——如果一个工作流在不同的执行程序上运行,它将从数据库获取状态。

选择MySQL的原因是它是一个广泛使用的数据库。我们希望实现与其他数据库的兼容性,尽管在历史上运行作业的搜索需求受益于关系数据存储。

 

AzkabanWebServer

AzkabanWebServer是阿兹卡班的主要管理器。它处理项目管理、身份验证、调度器和执行监视。它还充当web用户界面。

使用Azkaban很容易,Azkaban使用*.job键值属性文件定义工作流中的各个任务,_dependencies_属性定义作业的依赖链。这些作业文件和相关代码可以归档到一个*.zip文件中,并通过Azkaban UI或curl通过web服务器上传。

AzkabanExecutorServer

以前的Azkaban版本同时具有AzkabanWebServer和AzkabanExecutorServer的功能。后来,执行程序被分离到它自己的服务器中。拆分这些服务有几个原因:我们很快就可以扩展执行的数量,如果有一个失败,我们就可以使用操作执行器。同时,我们能够在对用户影响最小的情况下升级Azkaban。随着Azkaban的使用增加,我们发现升级Azkaban变得越来越困难,因为一天中的任何时候都变成了“高峰”。

Getting Started

在3.0版本中,我们提供了三种模式:独立的“单服务器”模式、较重的双服务器模式和分布式多执行器模式。下面将介绍这两种模式之间的区别。

在solo服务器模式下,DB嵌入H2, web服务器和executor服务器在同一个进程中运行。如果你只是想尝试一下,这应该是有用的。它也可以在小规模的用例中使用。

Download and Install Solo Server Package

Install Azkaban Plugins

两种服务器模式适用于更复杂的生产环境。它的DB应该由主-从设置的MySQL实例来支持。web服务器和executor服务器应该运行在不同的进程中,因此升级和维护不应该影响用户。

  1. Set up the database
  2. Download and install the Web Server
  3. Download and install the Executor Server
  4. Install Azkaban Plugins

多执行器模式适用于最正式的生产环境。它的DB应该由主-从设置的MySQL实例来支持。理想情况下,web服务器和执行服务器应该运行在不同的主机上,这样升级和维护就不会影响用户。这种多主机设置为azkaban带来了健壮和可伸缩的方面。

  1. Set up the database
  2. Download and install the Web Server
  3. Configure database to use multiple executors
  4. Download and install the Executor Server for each executor configured in database
  5. Install Azkaban Plugins

下面是如何设置azkaban的说明。

Azkaban构建使用Gradle(使用gradlew (Gradle包装器)自动下载),需要Java 8或更高版本。

下面的命令运行在*nix平台上,比如Linux, OS X。

 # Build Azkaban./gradlew build# Clean the build./gradlew clean# Build and install distributions./gradlew installDist# Run tests./gradlew test# Build without running tests./gradlew build -x test

这些都是标准的gradle指令。请查看Gradle文档获取更多信息。

Gradle在项目目录中创建.tar.gz文件。如。

./azkaban-solo-server/build/distributions/azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz. 
Untar using 
tar -xvzf path/to/azkaban-*.tar.gz.

Getting started with the Solo Server

solo Server是azkaban的一个独立实例,也是最简单的入门工具。solo服务器有以下优点。

  1. 易于安装-不需要MySQL实例。它将H2打包为主要的持久性存储。
  2. 易于启动——web服务器和executor服务器运行在同一个进程中。
  3. 全功能-它包所有阿兹卡班功能。你可以用正常的方式使用它,并为它安装插件。

安装方法:

  1. Clone the repo: run git clone https://github.com/azkaban/azkaban.git
  2. Build Azkaban and create an installation: run cd azkaban; ./gradlew build installDist
  3. Start the server: run cd azkaban-solo-server/build/install/azkaban-solo-server; bin/azkaban-solo-start.sh
  4. Stop server: run bin/azkaban-solo-shutdown.sh from within the azkaban-solo-server installation directory

solo-server安装应该包含以下目录。

FolderDescription
binThe scripts to start/stop Azkaban jetty server
confThe configuration files for Azkaban solo server
libThe jar dependencies for Azkaban
extlibAdditional jars that are added to extlib will be added to Azkaban's classpath
pluginsthe directory where plugins can be installed
webThe web (css, javascript, image) files for Azkaban web server.

在conf目录中,应该有三个文件:

azkaban.private.properties - 运行时参数
azkaban.properties - 使用运行时参数
global.properties - 作为共享属性传递给每个工作流和作业的全局静态属性。
azkaban-users.xml - 用于为身份验证添加用户和角色。如果XmLUserManager没有设置为使用该文件,则不使用该文件。

azkaban.properties是最主要的配置文件

Getting KeyStore for SSL (Optional)

阿兹卡班solo服务器默认不使用SSL。但是您可以在独立的web服务器上以相同的方式进行设置。这里是:

Azkaban web服务器可以使用SSL套接字连接器,这意味着密钥库必须是可用的。您可以按照这个链接提供的步骤进行调用([http://docs.codehaus.org/display/JETTY/How+to+configure+SSL](http://docs.codehaus.org/display/JETTY/How+to+configure+SSL)) 创建一个。创建密钥存储库文件后,必须向azkaban提供其位置和密码。azkaban.properties,应重写下列属性。

jetty.keystore=keystore
jetty.password=password
jetty.keypassword=password
jetty.truststore=keystore
jetty.trustpassword=password

下面就不写了,大家自己看吧:

https://azkaban.readthedocs.io/en/latest/index.html#

 

这篇关于Azkaban官网文档1-概述-Overvie的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/267651

相关文章

SpringBoot3集成swagger文档的使用方法

《SpringBoot3集成swagger文档的使用方法》本文介绍了Swagger的诞生背景、主要功能以及如何在SpringBoot3中集成Swagger文档,Swagger可以帮助自动生成API文档... 目录一、前言1. API 文档自动生成2. 交互式 API 测试3. API 设计和开发协作二、使用

基于C#实现将图片转换为PDF文档

《基于C#实现将图片转换为PDF文档》将图片(JPG、PNG)转换为PDF文件可以帮助我们更好地保存和分享图片,所以本文将介绍如何使用C#将JPG/PNG图片转换为PDF文档,需要的可以参考下... 目录介绍C# 将单张图片转换为PDF文档C# 将多张图片转换到一个PDF文档介绍将图片(JPG、PNG)转

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

活用c4d官方开发文档查询代码

当你问AI助手比如豆包,如何用python禁止掉xpresso标签时候,它会提示到 这时候要用到两个东西。https://developers.maxon.net/论坛搜索和开发文档 比如这里我就在官方找到正确的id描述 然后我就把参数标签换过来

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

计算机毕业设计 大学志愿填报系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点赞 👍 收藏 ⭐评论 📝 🍅 文末获取源码联系 👇🏻 精彩专栏推荐订阅 👇🏻 不然下次找不到哟~Java毕业设计项目~热门选题推荐《1000套》 目录 1.技术选型 2.开发工具 3.功能

【编程底层思考】垃圾收集机制,GC算法,垃圾收集器类型概述

Java的垃圾收集(Garbage Collection,GC)机制是Java语言的一大特色,它负责自动管理内存的回收,释放不再使用的对象所占用的内存。以下是对Java垃圾收集机制的详细介绍: 一、垃圾收集机制概述: 对象存活判断:垃圾收集器定期检查堆内存中的对象,判断哪些对象是“垃圾”,即不再被任何引用链直接或间接引用的对象。内存回收:将判断为垃圾的对象占用的内存进行回收,以便重新使用。

Java 多线程概述

多线程技术概述   1.线程与进程 进程:内存中运行的应用程序,每个进程都拥有一个独立的内存空间。线程:是进程中的一个执行路径,共享一个内存空间,线程之间可以自由切换、并发执行,一个进程最少有一个线程,线程实际数是在进程基础之上的进一步划分,一个进程启动之后,进程之中的若干执行路径又可以划分成若干个线程 2.线程的调度 分时调度:所有线程轮流使用CPU的使用权,平均分配时间抢占式调度

Python脚本:TXT文档行数统计

count = 0 #计数变量file_dirs = input('请输入您要统计的文件根路径:')filename = open(file_dirs,'r') #以只读方式打开文件file_contents = filename.read() #读取文档内容到file_contentsfor file_content in file_contents:

bcolz文档

原文:http://bcolz.blosc.org/en/latest/reference.html First level variables bcolz.__version__'''bcolz包的版本。''' bcolz.dask_here'''是否检测到dask的最低版本。''' bcolz.min_dask_version'''需要dask的最低版本(dask是可选