【华为数据之道学习笔记】6-3数据服务分类与建设规范

2023-12-21 08:28

本文主要是介绍【华为数据之道学习笔记】6-3数据服务分类与建设规范,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        数据服务是为了更好地满足用户的数据消费需求而产生的,因此数据消费方的差异是数据服务分类的最关键因素。具体包括两大类:数据集服务和数据API服务。

        1. 数据集服务

      (1)数据集服务定义
比较常见的数据消费者有两类:一类是真实的“人”,一类是“IT系统”。企业越来越强调各业务部门的自我运营,因此产生了大量自助分析消费者,这类消费者就是业务人员,甚至可能是管理者,他们通过各种数据分析工具,直接使用、消费数据。这种情况下,消费者是“访问”某个相对完整的“数据集”,这种消费方式称之为“数据集服务”。
  • 数据集服务最主要的特征是由服务提供方提供相对完整的数据集合,消费方“访问”数据集合,并自行决定接下来的处理逻辑。
  • 数据服务提供方被动地公开数据以供数据消费方检索。
  • 数据服务提供方并不定义数据处理逻辑,但数据和数据处理逻辑仍然由其控制。
  • 数据服务的生命周期即数据访问授权的有效期。
举例来说,数据服务供应方提供信息搜索、查询服务,但并不清楚用户的真实意图,用户可以自由地在服务提供方的地盘上“玩”数据。
(2)数据集服务建设规范
数据集服务主要面向自助分析场景提供相对完整的数据集合,因此所提供的数据主要来自数据底座,包括“数据湖”和“主题联接”。
1)允许将数据湖的同一个业务对象内的一个或多个资产封装为数据服务。
在部分实时性要求极高的场景下,例如,对于某个地区所有销售投标项目的实时状态可视化场景,可以将“投标项目(Proposal)”这个业务对象下的多个逻辑数据实体封装在一起,设计成可以支撑投标的实时可视化的数据服务。
2)允许将数据湖内单个资产及其关联主数据合并封装为数据服务。
在部分实时数据服务需求场景下,需要向用户提供相对完整的主数据或基础数据信息,以便于用户自助分析。例如,某个业务部门可能需要交付项目实施计划的数据服务,以便进行实时监控和指挥。当通过IT系统或应用实现该功能时,只需获取数据湖中原始的事务数据(交付项目实施计划明细),但在自助分析场景下,由于数据服务面对的是具体的业务人员,而业务人员不可能读懂任务ID、区域组织ID等物理层主键或外键,并且没有必要让每个自助分析人员都重复进行共性数据联接,因此可以在数据服务封装时,将必要的数据联接在一起,比如将“任务与任务资源关系”或“任务与区域组织关系”与交付项目实施计划明细合并封装为一个数据集服务。
3)不允许将数据湖中跨业务对象的多个资产合并封装为一个数据服务。
要注意数据服务合并封装的边界,数据服务的本质是将已有数据资产以服务的形式提供给消费者,而不是在服务中创建一个新的数据资产,面向OLAP的数据资产创建应该在数据主题联接完成,这在一定程度上也可以避免出现数据服务大量重复建设的情况。
      当所提供的数据来自于主题联接时,建设规范如下:
1)允许将单个主题联接的数据资产封装为一个或多个数据服务。
数据服务在面对不同消费者的不同需求时,可以适当地拆分为多个数据服务,以便更好地提供给数据消费者,减少冗余数据,提升用户体验。例如,在封装“区域损益明细实际数据”服务时,集团职能部门和具体业务部门的需求可能是不同的,具体业务部门不需要精细到产品L3以下的明细数据。如果把产品L1~L5的所有明细都提供出来,数据量将会以百倍的规模增加,会极大地影响数据分析性能,这显然是不必要的。比较恰当的方式是将两类需求分别封装为不同的数据服务,并确保这些数据服务的数据来源于同一个主题联接数据资产。
2)允许将由多个主题联接数据资产组成的多维模型整体封装为一个数据服务。
在部分情况下,主题联接数据资产并不是以宽表的形式落地,而是以多维模型的形式存在,此时可以将多维模型整体封装为一个数据集服务。例如,可以将“预测多维分析模型”中的“区域组织维表、产品维表、预算事实表”等封装为一个服务,满足区域组织经营管理的需要。
3)不允许将多个主题联接数据资产直接合并封装为一个数据服务。
数据资产之间的联接属于主题联接范畴,应该首先沉淀为公共数据主题联接资产,再封装为服务。

2. 数据API服务定义

数据服务的另外一类消费者是“IT系统”,即面向某个IT系统提供数据事件驱动的“响应”,这种服务的封装方式与前面所提到的数据集不同,称为“数据API服务”。
(1)数据API服务特征
  • 服务提供方“响应”消费方的服务请求,提供执行结果。
  • 数据服务提供方基于随机的数据事件主动地传送数据。
  • 数据服务提供方会基于事件定义数据处理逻辑,由消费方提前订阅并随机触发。
  • 服务的生命周期跟着事件走,事件关闭了,服务就终止了。
例如,华为公司给OBS(Object Storage Service,对象存储服务)提供面向客户的服务能力评估和报价复核服务。
数据API服务是对用户随机数据事件的响应,这个需求往往伴随着用户的某个任务产生,随着任务的结束,整个服务也就完成了。通过数据API服务,用户可以及时地获知任务的协同情况,并基于服务方的反馈结果,做出相应的调整。服务供给方和消费方是协同关系(互操作),而非交接棒关系(交换情报),有效提升了面向协同任务的互操作一致性。
(2)数据API服务VS数据集成服务
数据API服务与传统系统集成相比有非常明显的优势。
  • 供应/消费数据服务: 应用组件间传递的是基于数据服务契约的消息,即传递对数据进行逻辑操作的结果。
  • 高聚合: 订单服务使业务逻辑变得更加集中,易于数据同源管控。
  • 松耦合: 业务逻辑的变化对服务消费方没有直接影响。

这篇关于【华为数据之道学习笔记】6-3数据服务分类与建设规范的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/519254

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

SpringBoot整合jasypt实现重要数据加密

《SpringBoot整合jasypt实现重要数据加密》Jasypt是一个专注于简化Java加密操作的开源工具,:本文主要介绍详细介绍了如何使用jasypt实现重要数据加密,感兴趣的小伙伴可... 目录jasypt简介 jasypt的优点SpringBoot使用jasypt创建mapper接口配置文件加密

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解

Oracle存储过程里操作BLOB的字节数据的办法

《Oracle存储过程里操作BLOB的字节数据的办法》该篇文章介绍了如何在Oracle存储过程中操作BLOB的字节数据,作者研究了如何获取BLOB的字节长度、如何使用DBMS_LOB包进行BLOB操作... 目录一、缘由二、办法2.1 基本操作2.2 DBMS_LOB包2.3 字节级操作与RAW数据类型2.