灵活运用DataWorks参数配置

2023-10-23 23:59

本文主要是介绍灵活运用DataWorks参数配置,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

阅读全文请点击

数据工场DataWorks (原大数据开发套件Data IDE) 是基于MaxCompute作为计算和存储引擎的,并用于工作流可视化开发和托管调度运维的海量数据离线分析平台。DataWorks可以按照时间和依赖关系,实现任务的全面托管和调度。在这里,笔者跟大家探讨一下众多DataWorks用户经常遇到的一类问题,就是在DataWorks中如何灵活运用参数配置这个功能。

很多用户的需求场景是和时间有关的。为使周期运行的任务能根据运行时间的变化而变化,DataWorks提供了系统参数和自定义参数等两种参数,供用户来使用。下面来具体介绍下。

一、系统参数

DataWorks(数据工场)提供了 2 个系统参数,定义如下:
${bdp.system.cyctime}:定义为一个实例的定时运行时间,默认格式为: yyyymmddhh24miss。
${bdp.system.bizdate}:定义为一个实例运行时对应的业务日期,业务日期默认为运行日期的前一天,默认以 yyyymmdd 的格式显示。

从定义可知,运行时间和业务日期有如下计算公式:运行时间=(业务日期+1)+定时时间。
若使用系统参数,可以直接在代码中引用 ${bdp.system.bizdate} 和 ${bdp.system.cyctime} 即可,系统在调度运行时将自动把这两个参数替换成相应的时间。
很多用户的周期任务都是和日期/时间有关的,比如某用户的一个周期任务,每天都要处理昨天产生的业务数据,用户需要先按照昨天的日期创建一个分区,然后再把昨天的相关数据写入到该分区下。这里以每天周期运行,生成一个新的分区为例,为大家演示如何灵活利用好这两个系统参数。

image

如上图所示,首先新建一个分区表tbltest1,分区字段有3个,分别是sale_biz_date ,sale_curtime 和 region,其中sale_biz_date代表业务日期,sale_curtime代表运行时间,region代表区域。
上图中,sql任务的目的是,为表tbltest1增加一个分区,分区中使用了2个系统参数,每次运行该任务时,这两个系统参数${bdp.system.bizdate} 和 ${bdp.system.cyctime}都会被分别替换成具体日期和时间。

image

如上图所示,在这个sql周期任务的“调度配置”处,设置成小时周期任务,并且从0点开始,每小时执行一次,这样1天理论上每个小时就会产生一个实例。
通过上图的设置,每个小时都会运行一次这个sql任务。在DataWorks的“运维中心”——“任务运维”——“周期实例”下可以看到每个小时都会产生一个任务实例,如下图所示。

image

点击进到某个任务实例,比如0点这个实例,点击工作流中对应的sql任务节点,点击“运行日志”,能看到在日志中,sql语句alter table tbltest1 add partition(sale_biz_date='${bdp.system.bizdate}',sale_curtime='${bdp.system.cyctime}', region='china');中的系统参数${bdp.system.bizdate}已经被替换成了20180304,而${bdp.system.cyctime}已经被替换成了20180305000000。这正是符合我们的预期的。

image


这篇关于灵活运用DataWorks参数配置的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/271313

相关文章

Zookeeper安装和配置说明

一、Zookeeper的搭建方式 Zookeeper安装方式有三种,单机模式和集群模式以及伪集群模式。 ■ 单机模式:Zookeeper只运行在一台服务器上,适合测试环境; ■ 伪集群模式:就是在一台物理机上运行多个Zookeeper 实例; ■ 集群模式:Zookeeper运行于一个集群上,适合生产环境,这个计算机集群被称为一个“集合体”(ensemble) Zookeeper通过复制来实现

CentOS7安装配置mysql5.7 tar免安装版

一、CentOS7.4系统自带mariadb # 查看系统自带的Mariadb[root@localhost~]# rpm -qa|grep mariadbmariadb-libs-5.5.44-2.el7.centos.x86_64# 卸载系统自带的Mariadb[root@localhost ~]# rpm -e --nodeps mariadb-libs-5.5.44-2.el7

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

NameNode内存生产配置

Hadoop2.x 系列,配置 NameNode 内存 NameNode 内存默认 2000m ,如果服务器内存 4G , NameNode 内存可以配置 3g 。在 hadoop-env.sh 文件中配置如下。 HADOOP_NAMENODE_OPTS=-Xmx3072m Hadoop3.x 系列,配置 Nam

wolfSSL参数设置或配置项解释

1. wolfCrypt Only 解释:wolfCrypt是一个开源的、轻量级的、可移植的加密库,支持多种加密算法和协议。选择“wolfCrypt Only”意味着系统或应用将仅使用wolfCrypt库进行加密操作,而不依赖其他加密库。 2. DTLS Support 解释:DTLS(Datagram Transport Layer Security)是一种基于UDP的安全协议,提供类似于

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

C++11第三弹:lambda表达式 | 新的类功能 | 模板的可变参数

🌈个人主页: 南桥几晴秋 🌈C++专栏: 南桥谈C++ 🌈C语言专栏: C语言学习系列 🌈Linux学习专栏: 南桥谈Linux 🌈数据结构学习专栏: 数据结构杂谈 🌈数据库学习专栏: 南桥谈MySQL 🌈Qt学习专栏: 南桥谈Qt 🌈菜鸡代码练习: 练习随想记录 🌈git学习: 南桥谈Git 🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈�

如何在页面调用utility bar并传递参数至lwc组件

1.在app的utility item中添加lwc组件: 2.调用utility bar api的方式有两种: 方法一,通过lwc调用: import {LightningElement,api ,wire } from 'lwc';import { publish, MessageContext } from 'lightning/messageService';import Ca

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

4B参数秒杀GPT-3.5:MiniCPM 3.0惊艳登场!

​ 面壁智能 在 AI 的世界里,总有那么几个时刻让人惊叹不已。面壁智能推出的 MiniCPM 3.0,这个仅有4B参数的"小钢炮",正在以惊人的实力挑战着 GPT-3.5 这个曾经的AI巨人。 MiniCPM 3.0 MiniCPM 3.0 MiniCPM 3.0 目前的主要功能有: 长上下文功能:原生支持 32k 上下文长度,性能完美。我们引入了