FlinkX各种模式的启动脚本和解释

2023-11-11 21:58

本文主要是介绍FlinkX各种模式的启动脚本和解释,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

官方启动参数说明

名称

说明

可选值

是否必填

默认值

mode

执行模式,也就是flink集群的工作模式

1.local: 本地模式

2.standalone: 独立部署模式的flink集群

3.yarn: yarn模式的flink集群,需要提前在yarn上启动一个flink session,使用默认名称"Flink session cluster"

4.yarnPer: yarn模式的flink集群,单独为当前任务启动一个flink session,使用默认名称"Flink per-job cluster"

local

job

数据同步任务描述文件的存放路径;该描述文件中使用json字符串存放任务信息

jobid

指定flink任务名称

Flink Job

pluginRoot

插件根目录地址,也就是打包后产生的pluginRoot目录。

$FLINKX_HOME/syncplugins

在linux上按该格式配置好环境变量即可,启动脚本就不必在配置这些参数

flinkconf

flink配置文件所在的目录

$FLINK_HOME/conf

$FLINK_HOME/conf

flinkLibJar

flink lib所在的目录(单机模式下不需要),如/opt/dtstack/flink-1.10.1/lib

$FLINK_HOME/lib

$FLINK_HOME/lib

yarnconf

Hadoop配置文件(包括hdfs和yarn)所在的目录

$HADOOP_HOME/etc/hadoop

$HADOOP_HOME/etc/hadoop

queue

yarn队列,如default

default

pluginLoadMode

yarn session模式插件加载方式

1.classpath:提交任务时不上传插件包,需要在yarn-node节点pluginRoot目录下部署插件包,但任务启动速度较快

2.shipfile:提交任务时上传pluginRoot目录下部署插件包的插件包,yarn-node节点不需要部署插件包,任务启动速度取决于插件包的大小及网络环境

shipfile

confProp

flink额外配置,如checkpoint、内存

flink.checkpoint.interval:快照生产频率(毫秒)

flink.checkpoint.timeout:快照超时时间(毫秒)

jobmanager.memory.mb:perJob模式下jobmanager内存设置

taskmanager.memory.mb:perJob模式下taskmanager内存设置

taskmanager.slots:perJob模式下jobmanager slots个数设置

s

checkpoint快照路径,设置后从该快照恢复任务

-s /user/flink/checkpoints/eb64f097c9504b1f1cfecb1420a71903/chk-2

p

自定义入参,用于替换脚本中的占位符,如脚本中存在占位符pt1,{pt2},则该参数可配置为pt1=20200101,pt2=20200102

"path": "hdfs://xxx/user/hive/warehouse/xxx.db/xx/d=${pt1}"

appId

yarn session模式下,提交到指定的的flink session的application Id

krb5conf

提交到开启kerberos的Hadoop集群的krb5文件路径

keytab

提交到开启kerberos的Hadoop集群的keytab文件路径

principal

kerberos认证的principal

Local模式

在本地启动执行Flink任务,不需要下载安装Flink。当临时需要将某份数据源的数据做同步任务时,无需配置环境,只需编写任务脚本就可实现。该模式一次只能运行一个任务,且任务执行中无法查看指标等信息,因此适合小数据量低频率的任务

/usr/local/src/flinkx-1.10/bin/flinkx \ -job /usr/local/src/flinkx-1.10/docs/example/stream_stream.json

Standalone模式

需要事先启动Flink session,该模式可以同时运行多个同步任务,也方便观察任务运行状态和日志信息,但由于taskmanager持续运行的缘故,不适合长时间多任务持续提交任务

1. 每个flink服务的配置修改为parent-first: classloader.resolve-order: parent-first

2. 将flinkx的插件包syncplugins拷贝到每个$FLINK_HOME/lib下

3. 进入flink/bin目录 ./start-cluster.sh

4. 启动任务:pluginRoot指定syncplugins

/usr/local/src/flinkx-1.10/bin/flinkx \ -mode standalone \ -job /usr/local/src/flinkx-1.10/docs/example/stream_stream.json \ -confProp "{\"jobmanager.memory.mb\":200,\"taskmanager.memory.mb\":200}"

Yarn 模式

借助yarn来管理flink session,并通过队列来隔离不用的flink session,适合高频率的任务提交,目前生产环境中使用

再谈双亲委派模型与Flink的类加载策略

a. 将准备的如下的jar包上传到flink lib目录下: flink-shaded-hadoop-2-uber-2.4.1-9.0.jar

b. 启动 flink session 配置好flink的环境变量

1). nohup yarn-session.sh -qu default -n 1 -s 2 -jm 1024 -tm 1024 & 以这种方式运行需要在每个服务器节点相同路径下部署flinkx插件包(只需要syncplugins),且flink-conf.yaml中classloader.resolve-order = child-first, 后续更新插件包时所有节点都需要更新,这种方式启动session的速度较快

2). nohup yarn-session.sh -qu root.default -jm 1024 -tm 1024 -ship $FLINKX_HOME/syncplugins/ & 以这种方式运行只需要在提交任务的节点部署flinkx插件包,且flink-conf.yaml中classloader.resolve-order = parent-first,但这种方式session启动速度较慢

/usr/local/src/flinkx-1.10/bin/flinkx \ -mode yarn \ -job /usr/local/src/flinkx-1.10/docs/example/stream_stream.json \ -pluginLoadMode classpath \ -queue root.default

Yarn Perjob模式

该模式为每个任务单独申请一个session,并且可以自由配置任务所需要的资源,适合资源消耗大以及如实时采集、间隔轮询等需要长时间运行的任务模式的选择标准,比如某个CPU

# 配置好Flink,FlinkX,Hadoop环境变量后,这三段代码实际作用一样
/usr/local/src/flinkx-1.10/bin/flinkx \ -mode yarnPer \ -job /usr/local/src/flinkx-1.10/docs/example/stream_stream.json \ -queue root.default /usr/local/src/flinkx-1.10/bin/flinkx \ -mode yarnPer \ -job /usr/local/src/flinkx-1.10/docs/example/stream_stream.json \ -pluginRoot $FLINKX_HOME/syncplugins \ -flinkconf $FLINK_HOME/conf \ -flinkLibJar $FLINK_HOME/lib \ -yarnconf $HADOOP_HOME/etc/hadoop \ -queue root.default /usr/local/src/flinkx-1.10/bin/flinkx \ -mode yarnPer \ -job /usr/local/src/flinkx-1.10/docs/example/stream_stream.json \ -pluginRoot /usr/local/src/flinkx-1.10/syncplugins \ -flinkconf /opt/cloudera/parcels/FLINK-1.10.1-BIN-SCALA_2.12/lib/flink/conf \ -flinkLibJar /opt/cloudera/parcels/FLINK-1.10.1-BIN-SCALA_2.12/lib/flink/lib \ -yarnconf /opt/cloudera/parcels/CDH/lib/hadoop/etc/hadoop \ -queue root.default

断点续传恢复

/usr/local/src/flinkx-1.10/bin/flinkx \ -mode yarnPer \ -job /usr/local/src/flinkx-1.10/job/mysql2hiverestore.json \ -confProp "{\"flink.checkpoint.interval\":30000}" \ -queue root.default \ -s /user/flink/cluster_yarn/checkpoints/eb64f097c9504b1f1cfecb1420a71903/chk-2

提交任务添加变量

bin/flinkx \ -mode local \ -job job_flinkx.json \ -p "date=20191122" job_flinkx.json: "name": "hdfsreader", "parameter": { "path": "hdfs://xxx/user/hive/warehouse/xxx.db/xx/d=${date}", "hadoopConfig": { "dfs.nameservices": "xxx", "dfs.ha.namenodes.xxx": "nn1,nn2", "dfs.namenode.rpc-address.xxx.nn1": "xxx-bd-nn01.self.internal:8020","dfs.namenode.rpc-address.xxx.nn2": "xxx-bd-nn02.self.internal:8020","dfs.client.failover.proxy.provider.xxx":"org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider" },

Flinkx启动脚本

/usr/local/src/flinkx-1.10/bin/flinkx

set -eexport FLINKX_HOME="$(cd "`dirname "$0"`"/..; pwd)"# Find the java binary
if [ -n "${JAVA_HOME}" ]; thenJAVA_RUN="${JAVA_HOME}/bin/java"
elseif [ `command -v java` ]; thenJAVA_RUN="java"elseecho "JAVA_HOME is not set" >&2exit 1fi
fiJAR_DIR=$FLINKX_HOME/lib/*
CLASS_NAME=com.dtstack.flinkx.launcher.Launcherecho "flinkx starting ..."
nohup $JAVA_RUN -cp $JAR_DIR $CLASS_NAME $@ &
tail -f nohup.out1.nohup
用途:不挂断地运行命令。
语法:nohup Command [ Arg … ] [ & ]无论是否将 nohup 命令的输出重定向到终端,输出都将附加到当前目录的 nohup.out 文件中。如果当前目录的 nohup.out 文件不可写,输出重定向到 $HOME/nohup.out 文件中。如果没有文件能创建或打开以用于追加,那么 Command 参数指定的命令不可调用。
退出状态:该命令返回下列出口值:   126 可以查找但不能调用 Command 参数指定的命令。   127 nohup 命令发生错误或不能查找由 Command 参数指定的命令。   否则,nohup 命令的退出状态是 Command 参数指定命令的退出状态。
2.&
用途:在后台运行
一般两个一起用
nohup command &

这篇关于FlinkX各种模式的启动脚本和解释的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/393073

相关文章

SpringBoot项目启动错误:找不到或无法加载主类的几种解决方法

《SpringBoot项目启动错误:找不到或无法加载主类的几种解决方法》本文主要介绍了SpringBoot项目启动错误:找不到或无法加载主类的几种解决方法,具有一定的参考价值,感兴趣的可以了解一下... 目录方法1:更改IDE配置方法2:在Eclipse中清理项目方法3:使用Maven命令行在开发Sprin

通过Python脚本批量复制并规范命名视频文件

《通过Python脚本批量复制并规范命名视频文件》本文介绍了如何通过Python脚本批量复制并规范命名视频文件,实现自动补齐数字编号、保留原始文件、智能识别有效文件等功能,听过代码示例介绍的非常详细,... 目录一、问题场景:杂乱的视频文件名二、完整解决方案三、关键技术解析1. 智能路径处理2. 精准文件名

web网络安全之跨站脚本攻击(XSS)详解

《web网络安全之跨站脚本攻击(XSS)详解》:本文主要介绍web网络安全之跨站脚本攻击(XSS)的相关资料,跨站脚本攻击XSS是一种常见的Web安全漏洞,攻击者通过注入恶意脚本诱使用户执行,可能... 目录前言XSS 的类型1. 存储型 XSS(Stored XSS)示例:危害:2. 反射型 XSS(Re

Python3脚本实现Excel与TXT的智能转换

《Python3脚本实现Excel与TXT的智能转换》在数据处理的日常工作中,我们经常需要将Excel中的结构化数据转换为其他格式,本文将使用Python3实现Excel与TXT的智能转换,需要的可以... 目录场景应用:为什么需要这种转换技术解析:代码实现详解核心代码展示改进点说明实战演练:从Excel到

Python脚本实现图片文件批量命名

《Python脚本实现图片文件批量命名》这篇文章主要为大家详细介绍了一个用python第三方库pillow写的批量处理图片命名的脚本,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言源码批量处理图片尺寸脚本源码GUI界面源码打包成.exe可执行文件前言本文介绍一个用python第三方库pi

Nginx启动失败:端口80被占用问题的解决方案

《Nginx启动失败:端口80被占用问题的解决方案》在Linux服务器上部署Nginx时,可能会遇到Nginx启动失败的情况,尤其是错误提示bind()to0.0.0.0:80failed,这种问题通... 目录引言问题描述问题分析解决方案1. 检查占用端口 80 的进程使用 netstat 命令使用 ss

shell脚本自动删除30天以前的文件(最新推荐)

《shell脚本自动删除30天以前的文件(最新推荐)》该文章介绍了如何使用Shell脚本自动删除指定目录下30天以前的文件,并通过crontab设置定时任务,此外,还提供了如何使用Shell脚本删除E... 目录shell脚本自动删除30天以前的文件linux按照日期定时删除elasticsearch索引s

Android里面的Service种类以及启动方式

《Android里面的Service种类以及启动方式》Android中的Service分为前台服务和后台服务,前台服务需要亮身份牌并显示通知,后台服务则有启动方式选择,包括startService和b... 目录一句话总结:一、Service 的两种类型:1. 前台服务(必须亮身份牌)2. 后台服务(偷偷干

Windows设置nginx启动端口的方法

《Windows设置nginx启动端口的方法》在服务器配置与开发过程中,nginx作为一款高效的HTTP和反向代理服务器,被广泛应用,而在Windows系统中,合理设置nginx的启动端口,是确保其正... 目录一、为什么要设置 nginx 启动端口二、设置步骤三、常见问题及解决一、为什么要设置 nginx

Java实现状态模式的示例代码

《Java实现状态模式的示例代码》状态模式是一种行为型设计模式,允许对象根据其内部状态改变行为,本文主要介绍了Java实现状态模式的示例代码,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来... 目录一、简介1、定义2、状态模式的结构二、Java实现案例1、电灯开关状态案例2、番茄工作法状态案例