御膳房数据开发平台学习

2023-11-02 09:50

本文主要是介绍御膳房数据开发平台学习,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.开发工作台简介

基本上分为左侧菜单右侧主界面。点击菜单时,右侧弹出tab页,和普通的管理系统没有太大的差别。

左侧菜单包括以下内容:

  • 数据开发:当任务需要日常自动调度时,可以建工作流节点。数据开发tab就是设计工作流的各种任务包括 工作流节点、函数。各种任务类型实例请看 "工作流节点例子"
  • 模型设计:主要是数据流设计模块,一般是提供架构师进行模型ER图设计。激活该tab,点击红色“+”图标新建数据流,详细请看模型设计。
  • 临时查询:主要是跑临时查询job的tab,临时查询文件不能发布到生产环境。激活该tab,点击红色“+”图标新建临时查询文件。
  • 手动任务:主要建一次性任务。当前只支持odps sql类型任务,可发到生产环境,完全靠手动促发的任务,不会自动调度。激活该tab,点击红色“+”图标新建手动任务,编辑好代码和配置,提交发布到生产环境,然后运维工作台里到“手动节点”tab进行手动操作运行。
  • 找数据:meta的缩化版,搜索查看元数据列表。 
  • 表管理:可视化模型建表管理,可视化建表,详情请查看表管理
  • 函数列表:odps内置函数列表。
  • 数据服务: 已经订购并拥有权限的数据服务列表。
  • 回收站:右键删除任务后,会进入回收站,可以在回收站里恢复,但是恢复的前提是删除的任务也已经发布到生产环境然后再来恢复,恢复的文件需要提交生成新的id再走发布管理发布任务。

操作方法基本上是激活tab页,点击左上方“+”号进行操作,当然,也可点击右键进行操作。

右侧主工作区常用功能如下:

  • 工具栏:新建任务后右边编辑区每个任务一个页签打开,顶部是工具栏,常用工具:

    • 保存:保存节点代码和配置,相当于svn保存本地。

    • 提交:提交任务到调度开发服务,相当于svn提交,提交后文件是当前用户锁定,同时会生成一个版本,首次提交后会生成版本1同时给任务一个唯一的任务id号。可在目录栏对任务右键“查看历史版本”看任务有多少个版本。

        注意:提交是指提交到调度开发环境,任务需要提到生产环境必须是先提交到开发环境在走发布管理发布到生产环境。
  • 提交并解锁:与上面的“提交功能”基本一致,不一样的是提交后非当前用户锁定状态而是可编辑状态。

  • 运行:运行当前节点代码,也可以选择当前节点里部分代码运行。

  • 高级运行:运行当前节点代码,当前节点代码里有变量时,高级运行会每次弹框让用户自己填写变量值。

  • 终止:kill掉正在运行的job。

  • 在开发环境测试:任务提交后可以在调度开发环境调试,这个功能即会运行一次这个任务调试代码+节点配置。

  • 前往开发环境的调度系统:进入调度的开发环境界面,可以看节点工作流图。

  • 编辑区域:主要是任务代码,调度配置的编辑,节点血缘和版本查看。

    • 代码,节点代码编辑,各种代码语法各自参考对应的语法。

    • 调度,节点的调度配置,一个工作流节点需要什么时候执行,需要依赖什么上游,调度内置时间参数等包括基本属性、时间属性、调度依赖、调度内置时间参数列表

    • 血缘,查看该节点血缘关系,包括数据血缘(内部血缘图)和调度血缘(依赖关系图)。

    • 版本,查看节点版本。节点提交成功一次生成一个版本,与左边目录上对任务右键“查看历史版本”功能一样。

2.工作流节点

《1》ODPS SQL

  ODPS SQL适用于海量数据(TB级别)。实时性要求不高的场合,他的每个作业的准备,提交等阶段要花费较长时间,因此每秒处理成千上万比事务的业务是不能用ODPS SQL完成的。

  配置ODPS SQL类型的任务大概有这些步骤:①建立节点->②编辑节点代码->③节点配置->④提交到开发环境->⑤调试->⑥发布到生产环境。

《2》同步数据

  它的作用是:提供数据从公网、阿里云内网等不同网络环境与BASE实例数据存储间的高速数据传输能力。

  配置步骤与ODPS SQL基本上一致。区别是它不提供开发调试功能,只能上线运行。

     同步方式包括

    - 跨平台导入:从外部导入数据到官方数据源

    - 平台内同步:官方数据源之间数据同步

    - 跨平台导出:从官方数据源导出数据

《3》虚拟节点

基本上和ODPS SQL一模一样,只是为了方便管理和结构清晰。类似于狗、猫、鼠需要一个动物来连接它们,这个动物就是虚拟节点。

3.表管理

主要有以下注意点:

①类型分为(按照表名下标):

◇ 上传表 - 通过数据同步工具上传到ODPS中的表。在数据同步中上传任务可以选择,不可以导出,仅可用于数据计算。

◇ 临时表 - 数据处理过程的临时表,系统会不定期进行清理。不保证数据的存储周期。

◇ 结果表 - 数据处理后需要持久化的数据表。可以用来导出,也可以持久保存(依赖生命周期)

②字段类型只支持四种:string、bigint、double、datetime。

③默认增加dt字段用于分区

4.发布管理

任务(包括工作流节点、函数)新增,修改需要发布到生产环境,必须走发布管理发布。

任务发布前提条件:任务必须是提交有新版本(未发布到生产环境)。

转载于:https://www.cnblogs.com/ZhangWanFan/p/5263311.html

这篇关于御膳房数据开发平台学习的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/329779

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo