华为数据之道-读书笔记

2024-09-01 10:12

本文主要是介绍华为数据之道-读书笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

华为数据之道 (qq.com)

一家电子制造企业的数字化转型实践

Part1 数字化转型三大件

第1章 数字化转型

对本章中提到的非数字原生企业和数字原生企业,感触很深,互联网企业的成功是不能照搬到传统企业中的,所谓互联网行业的下半场也大多是难啃或不赚钱的生意。最接近于互联网企业的服务业如金融、零售,在这方面会更容易成功一些。传统企业的数字化转型有很多“脏活/累活”要做,过程曲折,不仅仅是技术,其中涉及到很多管理问题,真做到华为这种程度,确实可以视为一种核心竞争力。

 

数字化转型的原因: 解决企业的成本和效率;在这个大家都进行数字化转型的世界,如果你不进行数字化转型,也许三年之内就会失去三分之二的目标市场。

 

非数字原生企业与数字原生企业的区别:

1.非数字原生企业业务范围往往覆盖研发营销,制造,供应,采购,服务等多个领域。信息化时代初期建立相对独立的IT系统会形成数据孤岛,不同系统中的语言不统一,数据不贯通数据重复和数据不一致,限制了运营效率的提升和效益的改进。

2.非数字原生企业以物理世界为中心,围绕生产、流通、服务等经济活动展开,天然缺乏以软件和数据平台为核心的数字世界入口。

3.数字原生企业设立之初,以软件和数据平台建立数字世界的入口,可通过机器学习的人工智能技术理解用户需求,这些企业引领着云计算大数据人工智能技术的发展。

 

非数字原生企业数字化转型面临的挑战:

挑战一,业务特征:产业链条长多业态并存,产品从研发到销售具有很长的工艺流程,每个工艺流程沉淀着大量复杂数据。构建面向客户价值流的过程中,形成了从研发到销售、供应、交付、运维的长链条,同时产品类型包括基站、服务器等多个产业。

挑战二,运营环境,数据交互和共享风险高,场景复杂,销售、生产侧数据顾及隐私。

挑战三,IT系统数据复杂,历史包袱重。

挑战四,数据质量,数据可信和一致化要求程度高。

 

愿景-目标-蓝图-要素:

数字化转型愿景: 数据实时可视,海量业务自动,算法支撑决策,实现万物互联的智能世界;

数字化转型目标:各业务领域数字化、服务化,打通跨领域的信息断点,达到领先于行业的运营效率;构建以面向客户做生意和基于市场的创新两个业务流为核心的端到端数字化管理体系。

 

数字化转型蓝图:1客户交互方式转变,2作战模式转变,3平台能力提供方式转变,流程数字化,能力服务化4运营模式转变基于统一数据底座,5服务化的IT基础设施和IT应用。

 

关键要素:在现实世界的基础上,构建一个跨越孤立系统,承载业务的“数字孪生”的世界。通过在数字世界汇聚、联接与分析数据,进行描述、诊断和预测,最终指导业务改进。一方面利用现有IT系统的存量数据资产,一方面构建从现实世界直接感知、采集、汇聚数据到数字世界的通道,不断驱动业务对象过程与规则的数字化。

 

第2章 数据综合治理体系

治理体系的落地是各种政策的发布及执行,政策在实际业务中还是蛮有用的,在一个很高的角度去定义未来的方向,和日常操作规范,当迷失方向时,去看看政策、纲领、指导这类的文件,大概率会找到自己想要的答案,一句话总结,体系或政策的作用就是为了以后能不忘初心,牢记使命,砥砺前行,方得始终。

 

建立治理体系的目的:数据作为一种新的生产要素,在企业构筑竞争优势的过程中起着重要作用,企业应将数据作为一种战略资产进行管理, 为确保资产有清晰的管理责任,消费者有规范的流程与指导,及解决争议的途径,需建立规范的数据治理体系。

 

治理体系的范围:据架构标准、质量管理,信息价值链(战略到执行,业务交易到核算,产品创意到生命周期管理,存量管理到问题解决)

 

治理政策及价值:

信息架构管理政策、管理总纲,规定了很多了细节措施;数据源管理政策:数据同源,跨流程跨系统数据的唯一性和一致性。

管理数据主要是管理信息架构,数据质量和数据分析。

流程运营体系和变革管理体系,内控体系和内部审计,推动数据治理有效运作。

华为数据全生命周期治理规范与方案,从数据产生、数据整合与数据服务、数据搜索、数据消费,每个环节都有对应的原则章程规范方案。

感兴趣的点:知识图谱设计与建设、数字孪生(DTO)指导/方案包、数据感知方案包、图模型资产注册规范、算法数据资产注册规范。

 

第3章 企业数据分类

常规的分类为结构化数据/非结构化数据,新看到的一个分类是外部数据和内部数据,能把外部数据如市场热点、商机等整理完整,及时推送,确实可成为企业的一个核心竞争力。

结构化数据的细分,基础数据、主数据、事务数据、报告数据、观测和规则数据,每种数据都有定义,但之间的区分边界现在还不是很明白,或许就没有很明确的边界,但没有边界就意味着冗余。

非结构化数据主要是深度学习那一套,自然语言处理/图像识别/语音识别,提取特征值,上下文语境,解析内内容。

“元数据”与“源数据”在本书中确实有点分不太清,但还是觉得元数据就是描述数据的数据,本身不具有业务/技术/操作数据的内容。

 

Part2 数字化转型三大件

数字化转型(或称数据治理)的三大件,信息架构/数据底座/数据服务,先顶层设计,再建基础设施,最后产出数据工具。信息架构进行顶层设计,企业各资源及资源之间的交互进行抽象,制定原则;数据底座通过数据湖和数据主题对数据进行统一汇聚和连接;数据服务提供自助消费(看板+决策执行)的数据工具。

 

第4章 信息架构建设

过去信息架构在系统之中,IT关注点是功能是否完善,系统中完成还是手工完成,现在需关注企业数据资产,提升事务数据传递效率。本章把现实企业中的人/财/物等资源,及资源之间的联系进行抽象,当作资产进行管理。

具体管理方式为统一标准、制定资产目录、搭建模型和数据同源。并制定了执行措施的5项原则,确定数据owner/企业视角定义/遵从公司框架/业务对象数字化/数据服务化。

业务对象采用三层模型进行设计和落地,是信息架构的核心要素。

 

第5章 数据底座建设

数据底座主要起数据汇聚和连接的作用,实现方式为数据湖和数据主题联接。

数据湖起主要进行数据集成,提供了5种技术手段(批量集成/数据复制同步/消息集成/流集成/数据虚拟化),进行离线采集和实时采集,并制定了严格的入湖标准。

数据主题联接为对原数据的进一步加工,提供了5种联接方式,将原材料加工成半成品或成品,支持不同场景的数据消费。

5种联接方式为以业务流(事件)为中心连接、以对象(主体)为中心连接、智能标签、指标数据和算法模型,高阶分析会涉及到图模型、知识计算和算法。

 

第6章 数据服务建设

数据服务作为一种数据产品,用于满足用户的实时数据需求,根据面向的对象分为数据集和数据API。

数据地图提供了一个检索入口,觉得类似百度/谷歌这种搜索引擎,随时随地可提供数据服务。公司级方面的功能有战略落地、业务可视化、预测预警、作业指挥、跨领域问题解决和联动指挥。

 

Part 3 数字孪生,数据质量&安全管理

第7章 数字孪生

本章中提到了一个新的名词,DTO企业数字孪生(data twin of an organization),将数字孪生从个体的建模上升到组织,是一个动态的软件模型, 模型输入组织运营及其他相关数据,实现在虚拟世界的映射。DT关注单个设备、产品或它们的组合,仿真模型及分析;DTO关注流程/运营/绩效指标,将‘人’这一元素融入数字孪生中,实时了解企业运营情况。要想达到DTO,就需要具有全量感知的能力,分为软感知、硬感知,软感知:感知过程发生在数字世界,如埋点/爬虫/系统日志;硬感知:数据从物理世界向数字世界转化,如二维码/音频/视频等。感知数据为孤立物理对象的镜像,需与企业内部其它数据资产进行连接,关联流程、运营、指标。

感知数据很多是杂乱文章,不可用的,需要进行统一化管理,才可对接到数字供应链(data supply chain),作为资产统一管理,如接入前需核实:数据源可用性、数据量、接入方式(推/拉,批次/按需/实时)、存储介质/数据库等。感知元数据应含感知方式元数据(知数据来源)/感知内容元数据(知数据内容)。

埃森哲定义数字孪生各阶段为,基础(记录静态数据)-被动(记录某时点数据)-动态(记录实时数据)-半智能(物理实体/数字模型双向流通)-智能(数字模型=物理实体)。考虑到物理对象的纬度和可能的数据量,构建一个全量感知的企业数字化孪生成本相当惊人,需业务价值驱动数字化转型。

 

第8章 数据质量管理

买东西我们都希望能买到物美价廉的商品,这里的物美一般都指的是产品的质量,是否可靠耐用,但”物美“和”价廉“本身就是一对较为矛盾的词语,质量的提升一般都会以成本(人力/检测成本等)的提升为代价,所以有些时候高质量并不是最优的选择,需要视场景而定。提升产品的质量是一个管理问题,不像突破某项技术,集中突击一段时间说不定就能搞定了,解决数据质量问题更多的需从机制、制度、流程、工具和管理等多方面发力,将各员工的习惯性动培养为标准动作。数据质量的原则为“garbage in garbage out”,从源头就要管控好数据质量。

 

数据质量管理为系统工程,从数据质量领导力(自上而下/政策/原则)、数据质量持续改进、数据质量能力保障三方面展开,六个纬度描述:完整(实体/属性/记录/字段)、及时、准确、一致、唯一、有效。

流程质量,基于流程结构评估业务执行好坏;数据质量,关注业务对象/规则/过程/结果等数据是否得到了及时记录。监控企业业务异常数据的方式,“正向”主动监控,“逆向”下游环节反馈问题。通过数据质量规则给数据打标签,判断是否满足质量要求的逻辑约束。

四类质量规则(15小类):单列(不可为空/语法约束/格式规范/长度/值域约束/事实参照)、跨列(应为空值/等值一致/逻辑一致/入库及时)、跨行(记录唯一/层级结构一致)、跨表数据质量规则(外关联约束/等值一致/逻辑一致)。

流程为:识别监控对象确定内容(重要性,关键主数据/基础数据/事务数据、成本效益,优先级)、数据源剖析(内容/结构/质量)、设计配置监控规则,自动监测。

 

数据质量度量模型建立(识别度量对象、确定度量指标、实施质量度量、改进质量问题)、度量规则(对象频率/方法/标准)。执行质量度量六性、三要素(一致性/完整性/及时性/唯一性/有效性/准确性)(客户关注重要性/法律财务风险性/业务流程战略性)。质量指标5原则(重要性/成本效益/明确性/分层分级/持续度量),叠加度量指标:逻辑实体(数据格面积)。变革体系和流程运营体系实现质量管控落地。

 

第9章 数据安全合规

数据安全问题没解决,宁愿数字化转型慢一点,或不转型,也不在错误的方向上渐行渐远。作为除货物/人员/资金外的”战略资源“和”生产要素“,数据流动需受到限制。 随着数据资产越来越庞大,”买方市场需求决定市场价值“,买方市场会越来越大,数据资产价值也会越来越大,在利益驱动下,需警惕一些违法行为。

元数据对安全隐私的保护流程:(数据扫描、数据治理、制定安全策略、执行策略)。数据安全隐私分层分级管控,外部公开/内部公开/秘密/机密/绝密,核心资产/关键资产,个人数据/敏感个人数据/商业联系个人数据/一般个人数据/特种个人数据。数据底座安全隐私5个子方案包,安全隐私管理/风险标识/保护能力架构/组织授权/权限管理,AI自动标识。

 

Part 4 机器认知世界

本章基于对”机器认知世界“的理解,提出对数据治理未来的思考,畅想了AI治理、数据主权和数据生态建设。

数据作为一种新生产要素,拥有数据或具有治理数据的能力,也可算为一种财富或技能,利益驱动下,数据可能会淘金热般开垦扩张。企业未来的常态是基于各种算法决策和行动,运作成功与否,很大程度上取决于对”机器认知世界“的管理水平。

 

随着数字化改革的推进,数据将会越来越受到重视和关注。在2019年4月举行的中共十九届四中全会上,数据首次作为与劳动、资本、土地、知识、技术、管理并列的生产要素。2020年4月,《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》中提出土地、劳动力、资本、技术、数据五个要素领域改革的方向。另外,数据在未来也可能进入企业资产负债表,作为企业的一项资产或负债。与商誉的估值有点像,不太能精准计量。书中提到的定价方法为市场定价,传统方法(根据数量/质量/及时性/稀缺性/稳定性来定)、现代方法(根据提升生产效率的能力)。

 

对数据这一新的生产要素,主要关注两个方面的问题,1如何提高数据的利用率,2如何降低数据运行和维护成本。

期望数据具有的功能为提升劳动者能力、加速资本周转、加速知识转化、推进技术进步和提高管理水平。智能数据管理方式:内容级分析能力/属性特征启动主外键智能连接/质量缺陷预发现/算法助力。

 

数据是对真实世界的对象、事件、概念某一属性的抽象标识,数据创建这一抽象过程。不同部门认识对数据的理解不同,如”产品“这一重要的主数据,销售部认为是可销售单元,研发--功能和系统,供应链--制造和交付单元,实施--安装单元和结构,财务--产品盈亏和核算。

人类认知世界有明显的个体差异,认知能力和认知视角正是形成”数据孤岛“的根本原因,所以统一业务的数据语言、制定统一的规则很重要,如5G中制定的三大应用场景eMMB(增强型移动带宽),mMTC(海量物联网通信)和URLLC(低时延高可靠通信)。香农提出的”采样定理“奠定了数字化的基础,即离散序列可完全代表一个连续函数,有这个采样定理后,即可通过有限的点将现实中的连续问题在数字世界恢复。

 

本书定义了四个世界,物理世界(第1世界),人类认知世界(第2世界),数字世界(第3世界),机器认知世界(第4世界),在第4世界中,基于大量数据,各种人工智能”机器“按照各自的算法对映射到数字世界中的事物进行认知,其认知结论会直接影响人类的决策和行动,如电商的智能推荐、汽车自动驾驶、股票交易智能助手。对企业来说,未来的常态是基于各种人工智能算法,做出一系列的决策与行动,企业的运作成功与否将在很大程度上取决于其对”数字世界“和”机器认知世界“的治理和管理水平。

 

这篇关于华为数据之道-读书笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1126645

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者