数据资产入表-数据治理-指标建设标准

2024-06-07 00:12

本文主要是介绍数据资产入表-数据治理-指标建设标准,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

       前情提要:数据价值管理是指通过一系列管理策略和技术手段,帮助企业把庞大的、无序的、低价值的数据资源转变为高价值密度的数据资产的过程,即数据治理和价值变现。上一讲介绍了标签标准设计的基本逻辑和思路。数据资产入表-数据治理-标签设计标准

本章重点讲解指标建设标准设计

       指标数据是为了基于场景出发,为了满足内部分析决策或者外部使用的一个高度凝练的数据结果集,指标数据标准是为满足管理指标生产过程、对基础类数据加工而产生的指标数据标准化规范。

       数据分析师或者数仓治理人员常常会听到”统计结果不对”、”这个指标没有”、”这个指标怎么用?”的灵魂拷问。在做了问题定位之后,除了真的指标缺失之外,还有以下三张情形:

       ①指标名称不规范:当指标生产了一段时间,有了初步沉淀后,发现存量指标的名称千奇百怪,各有各的风格,这个是在指标设计之初对于指标的命名没有做出对应的规范(做出规范的同时需要有工具支撑);

       ②指标重复建设:在盘点指标的过程中,发现指标因名称不规范、单位不规范等原因,同一个指标出现多次建设的情况;

       ③指标口径不清晰:在指标使用的过程中,发现指标命名长得相似,但是不知道具体含义,也不清楚哪个指标适用于哪个场景;

       因此需要构建一套指标数据标准,帮助我们在指标体系搭建的过程中和用户使用的过程中更为清晰明了。

指标数据标准建设

       指标数据标准是为满足内部分析管理需要和外部监管要求,对基础类数据加工而产生的指标数据标准化规范。指标数据标准通过基础属性、业务属性、技术属性和管理属性来描述指标数据规范化要求。--引用《JR/T0137-2017银行经营管理指标数据元》

指标类型

       指标的梳理还是离不开实体的确认,实体在指标体系中是指标统计的对象,在指标体系梳理的过程中,在业务的角度上把指标分为原子指标、复合指标、派生指标;

       原子指标:是针对实体对象的基础统计值;例如(企业数量)

       复合指标:是在原子指标的基础上,增加属性维度的统计;例如(杭州市:企业数量;杭州市:新成立企业数量)

       派生指标:是在原子指标、复合指标的基础上,进行复合计算的派生指标;例如(杭州市:企业数量累计同比)

指标体系搭建

       指标体系的搭建一般是业务运行一段时间后,对于明细数据有一定沉淀,且业务人员在实际业务管理过程中存在一定的场景需求之后,才有具体的指标体系搭建场景。指标体系搭建的步骤如下:

step1:场景/业务需求收集和调研

        在业务收集的过程中,需要用户明确的内容包含指标统计的场景描述、统计的时间范围、统计的类型(要当前值、同比值、累计值、环比值)、统计的区域(若业务上没有,可忽略),平常使用的频率,如果是金额维度,需要描述统计的单元;

step2:在收集和调研业务需求后,开始梳理指标体系,需要基于业务需求拆解核心信息

 ①确定原子指标:明确出来业务需求中需要统计的实体;

 ②确定复合属性:明确统计口径中包含的修饰维度,其中需要区分出常用修饰维度和使用率较低的属性;

 ③确定统计口径:基于需求确定统计时间、统计类型的口径;

 ④输出指标清单:基于上述的信息收集和梳理,生成版本号、构建指标名称模板、统计单位、计算类型、指标释义、指标计算规则、更新频率等;

  1. 版本号:是指本次指标逻辑操作的次数记录,一般依托于工具生成;
  2. 指标名称模板:在指标生产的过程中,一般不会一个个罗列指标进行生产,会采用group by 的逻辑分类统计,因此在我们输出需求清单的时候,可能不是实际的指标名称,而是指标名称的模板,需要在命名的时候给分类修饰词留下占位符;
  3. 指标类型:描述指标的类型是属于原子指标、复合指标,派生指标
  4. 业务标签:描述业务标签类型,业务标签类型背后可以映射一张标签结果表;
  5. 计算类型:指的是这个指标是基于count、sum、avg等类型计算而成;
  6. 指标释义:需要描述指标的统计维度,包含的必要维度有统计实体、参与统计的业务标签;
  7. 实体所在明细表:顾名思义是被统计实体的明细表表名;
  8. 计算规则:是指该指标的计算规则;
  9. 单位:描述指标的单位信息;
  10. 更新频率:指定指标计算的频率;结合明细表的更新频率,指标的计算频率要低于明细表的更新频率;
  11. 负责人:明确该指标的业务负责人名称;

 step3:推动开发和验收:基于输出的需求清单推动开发和验收上线;

指标梳理流程

这篇关于数据资产入表-数据治理-指标建设标准的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1037632

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav