灵活运用DataWorks参数配置

本文主要是介绍灵活运用DataWorks参数配置，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

阅读全文请点击

数据工场DataWorks (原大数据开发套件Data IDE) 是基于MaxCompute作为计算和存储引擎的，并用于工作流可视化开发和托管调度运维的海量数据离线分析平台。DataWorks可以按照时间和依赖关系，实现任务的全面托管和调度。在这里，笔者跟大家探讨一下众多DataWorks用户经常遇到的一类问题，就是在DataWorks中如何灵活运用参数配置这个功能。

很多用户的需求场景是和时间有关的。为使周期运行的任务能根据运行时间的变化而变化，DataWorks提供了系统参数和自定义参数等两种参数，供用户来使用。下面来具体介绍下。

一、系统参数

DataWorks（数据工场）提供了 2 个系统参数，定义如下：
${bdp.system.cyctime}：定义为一个实例的定时运行时间，默认格式为： yyyymmddhh24miss。
${bdp.system.bizdate}：定义为一个实例运行时对应的业务日期，业务日期默认为运行日期的前一天，默认以 yyyymmdd 的格式显示。

从定义可知，运行时间和业务日期有如下计算公式：运行时间=（业务日期+1）+定时时间。
若使用系统参数，可以直接在代码中引用 ${bdp.system.bizdate} 和 ${bdp.system.cyctime} 即可，系统在调度运行时将自动把这两个参数替换成相应的时间。
很多用户的周期任务都是和日期/时间有关的，比如某用户的一个周期任务，每天都要处理昨天产生的业务数据，用户需要先按照昨天的日期创建一个分区，然后再把昨天的相关数据写入到该分区下。这里以每天周期运行，生成一个新的分区为例，为大家演示如何灵活利用好这两个系统参数。

如上图所示，首先新建一个分区表tbltest1，分区字段有3个，分别是sale_biz_date ,sale_curtime 和 region，其中sale_biz_date代表业务日期，sale_curtime代表运行时间，region代表区域。
上图中，sql任务的目的是，为表tbltest1增加一个分区，分区中使用了2个系统参数，每次运行该任务时，这两个系统参数${bdp.system.bizdate} 和 ${bdp.system.cyctime}都会被分别替换成具体日期和时间。

如上图所示，在这个sql周期任务的“调度配置”处，设置成小时周期任务，并且从0点开始，每小时执行一次，这样1天理论上每个小时就会产生一个实例。
通过上图的设置，每个小时都会运行一次这个sql任务。在DataWorks的“运维中心”——“任务运维”——“周期实例”下可以看到每个小时都会产生一个任务实例，如下图所示。

点击进到某个任务实例，比如0点这个实例，点击工作流中对应的sql任务节点，点击“运行日志”，能看到在日志中，sql语句alter table tbltest1 add partition(sale_biz_date='${bdp.system.bizdate}',sale_curtime='${bdp.system.cyctime}', region='china');中的系统参数${bdp.system.bizdate}已经被替换成了20180304，而${bdp.system.cyctime}已经被替换成了20180305000000。这正是符合我们的预期的。