数智先锋 | 多场景数据治理案例,释放数据要素生产力

2024-05-06 22:44

本文主要是介绍数智先锋 | 多场景数据治理案例,释放数据要素生产力,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据作为第五大生产要素,成为释放新质生产力的关键基础。

当前各个行业数字化建设如火如荼,全力挖掘数据价值以驱动行业高质量应用发展。数据治理成为数据要素价值发挥的重要基础和前提。

数据治理不单是技术问题,不是依赖工具就能解决的,重难点在于结合实际业务需求进行数据顶层设计、数据治理体系建设、标准管控实施、服务共享机制等。

从企业、园区、政务领域的不同需求场景,我们为您介绍基于smardaten平台的典型数据治理实践案例。

01 企业数据治理

数据资源是企业数字化转型的核心要素和基础资源,当前数据资产管理中依然存在三大难题:找数据难、治数据难、用数据难。企业进行数据资产管理是数字化建设的长期任务。

案例1煤矿集团数据治理

某煤矿集团目前在煤炭板块建立集团数据标准化体系,包括一套数据标准和数据管理、应用、运行3大保障体系,但聚焦到煤矿板块尚无矿井侧数据采、治、管等能力。作为核心领域之一,解决数据标准问题,才能进一步扩展创新数字化应用,因此需要建设基于数据标准化体系的数据整合治理平台。

主要思路就是以集团数据标准化体系为基础,整合矿井侧的煤炭产业、安全管理、生产辅助、生产调度、生产技术、销售管理和其他业务相关的数据资源,构建矿井侧数据采集、治理、共享和应用等能力,适配矿井侧业务特点及数据特性,从而达到数据标准化体系落地的数据整合治理研究的目标。

主体建设内容如下:

1.数据标准内置转换:按照标准管理体系梳理各类数据标准,并进行全面深入的可视化展示,提供数据标准概览、标准录入、标准审批、标准质量管理能力。

2.数据采集:提供对业务数据采集任务的分类展示功能,通过数据连接器完成业务数据、设备数据等实时/准实时采集,通过设定的数据传输方式、存储地址、数据字段处理等,根据采集频次自动采集。

3.数据治理:具备数据源管理、数据质量、数据清洗、数据字典、数据编目等功能,能够有效与原有业务系统或标准库进行对接。

4.数据调度:通过数据统一监控调度,管理数据流与任务流执行情况。调度中心负责调度上传数据任务,支持任务定制、上线、调度频率等相关配置,及调度记录、执行日志的查看能力。

5.数据应用:基于标准化数据治理结果,提供数据多维分析和应用模块构建,结合业务实现融合应用,支持各类图表可视化分析与展示大屏,全局性展现数据管理与应用成效。

02 大型园区数据资产管理

数字化园区管理场景多、且需求碎片化,对业务系统定制化更高。经过长期分散化系统建设和数据积累,大多面临数据资源分散、数据权属不清晰、数据难收/未收等问题,对园区内的企业、人员、设备等数据的归集整理和使用的需求更迫切。

案例2 西部某大型开发区数据中台

西部某大型开发区当前正在推动新一批数字转型实施,培育一批数字标杆场景应用,打造一个数字产业聚集区,旨在通过数据要素与生产要素的结合,推动产业数字化、数字产业化。

本次核心是建设覆盖园区全域数字化场景的公共服务平台。数据中台作为其中重要组成部分,将为园区业务构建、经营管理、企业服务、生产发展等提供底层数据服务能力。

数据中台提供数据接入、清洗、治理、分析、开放等一站式底层能力,还支持多租户、日志审计、加解密等数据安全管控,同样能够涵盖全过程数据治理能力,具备数据血缘分析和质量报告自动生成等亮点功能,并打造统一开放的API工厂实现数据共享,为上层应用的多元化使用奠定基础。

主体建设内容如下:

1.数据专题库:汇聚覆盖综合安全、生产安全、物联感知、人力等相关数据作为数据源。按照不同业务属性将数据分类形成产业主题库、政府主题库、企业主题库,并抽象其中的关键指标信息集聚作为指标专题库。

2.数据仓库:建设源数据层(ODS)、标准数据层(STD)、数据模型层(DWD)、数据集市层(DM)四层数据仓库,层层递进,完成数据的拉宽、升维处理,为主题库的建设提供逻辑框架。

3.共享交换:依据平台共享交换能力,对外开放数据服务接口,便于各级委办局查询相关信息,涵盖生产安全、数字综治及相关分析指标等。

4.指标建设:最后按照业务需要建设业务要素和业务场景专题库,对数据进行进一步深度计算、分析、融合,抽象出可以反映区域产业发展和政府公共服务类数据指标,为相关部门领导制定安全发展政策提供数据支撑。

03 政务数据治理

政务领域对数据治理和共享使用有着更为严格的要求,国家和各地区都有相应的政务大数据治理体系顶层设计及治理实施规范,实施政务数据的有效治理是推进“数字政府治理”的基础,是发挥政务数据要素价值的必要条件。

案例3城市生命线数据治理

正如其名,城市生命线包括燃气、桥梁、排水(排水防涝、污水)、供水、道路、 综合管廊、第三方施工等影响城市建设和发展的关键基础设施。

某市政园林局为提升城市基础设施安全运行智慧监管能力,规划构建城市生命线数据能力中心成为必要基础和前提,是数字化层面上的基础设施。

本次目标是以构建城市生命线数据库为核心,汇聚相关权属单位数据,依托数据库开展数据治理与分析,为基础设施运行监管提供更有效的支撑。

主体建设内容如下:

1.数据库设计:从数据字典设计、汇聚整合、清洗转换、数据治理的角度,设定数据库设计原则,整体上分为:归集库、主题库、专题库。

2.数据汇集:建立数据采集规范,建立数据模型编码标准完成对数据的分域分类管理,汇聚多源数据,满足按需接入、分类传输、更新同步、传输安全等要求。

3.数据加工转换:为保障进入归集库的数据能满足主题库和专题库的使用需求,对数据开展标准化分析加工工作,将数据转换成标准结构,提升数据质量标准。

4.数据治理:对汇集的数据进行质量评估、规范化处理以及数据全生命周期管理,例如实现对图片等形式数据进行结构化处理,对不同设施的坐标系进行转换,多档案ID关联、完整性校验、数据命名规范等。

5.数据发布:对治理后的各类生命线数据面向省级、市级相关监管系统进行发布共享。


数据治理是一套涉及数据标准、质量、分类、共享、安全等多方面的数据管理方法,在不同场景下数据管理需求不尽相同,但数据治理核心逻辑是一致的。

数睿数据打造一体化的数据治理解决方案,覆盖数据全生命周期的一站式数据管理能力。以数据规划为基础,为数据治理提供明确的战略方向和实施路径,提供统一的数据标准、流程和策略,促进数据资产的整合、共享和利用。确保数据治理项目能够满足组织的业务需求和目标。

数睿数据助力推动“数据要素X”行动,提升行业数据资源开发利用能力,数据驱动行业数字化高质量发展。

这篇关于数智先锋 | 多场景数据治理案例,释放数据要素生产力的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/965591

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi