华为数据之道第一部分导读

2024-05-09 13:12

本文主要是介绍华为数据之道第一部分导读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

导读

第一部分

第1章 数据驱动的企业数字化转型

非数字原生企业的数字化转型挑战

业态特征:产业链条长、多业态并存

运营环境:数据交互和共享风险高

IT建设过程:数据复杂、历史包袱重

数据质量:数据可信和一致化的要求程度高

华为数字化转型与数据治理

华为数字化转型整体目标

华为数字化转型蓝图及对数据治理的要求

华为数据治理实践

华为数据治理历程

1. 第一阶段:2007~2016年

2. 第二阶段:2017年至今

华为数据工作的愿景与目标

华为数据工作建设的整体思路和框架

第2章 建立企业级数据综合治理体系

建立公司级的数据治理政策

华为数据管理总纲

信息架构管理政策

数据源管理政策

数据质量管理政策

融入变革、运营与IT的数据治理

建立管理数据流程

管理数据流程与管理变革项目、管理质量与运营之间的关系

通过变革体系和运营体系进行决策

数据治理融入IT实施

通过内控体系赋能数据治理

建立业务负责制的数据管理责任体系

任命数据Owner和数据管家

建立公司层面的数据管理组织

第3章 差异化的企业数据分类管理框架

基于数据特性的分类管理框架

以统一语言为核心的结构化数据管理

基础数据治理

主数据治理

事务数据治理

报告数据治理

观测数据治理

规则数据治理

以特征提取为核心的非结构化数据管理

以确保合规遵从为核心的外部数据管理

作用于数据价值流的元数据管理

元数据治理面临的挑战

元数据管理架构及策略

元数据管理

1. 产生元数据

2. 采集元数据

3. 注册元数据

4. 运维元数据


导读

第一部分

第一部分为第1~3章。
第1章以非数字原生企业在数字化转型时面临的挑战为引导,阐述了数据驱动的企业数字化转型理念,介绍了华为公司的数据治理框架;
第2章从企业政策和架构协同的角度,介绍了企业级的数据综合治理体系,理顺了数据与变革、运营、IT之间的协同关系,明确了数据管理的责任主体在业务;
第3章以数据特性的差异为维度,详细阐述了不同类型数据的不同管理方式,明确了结构化数据、非结构化数据、外部数据、元数据的核心管理要点。

华为为什么要进行数字化转型?

华为是一家业务范围涵盖研发、营销、制造、供应、采购、服务等领域的非数字原生企业,在信息化时代初期建立了很多相对独立的IT系统,典型的特点是形成了“一类业务、一个IT系统、一个数据库”的封闭式IT架构。其带来的直接问题就是“数据孤岛” :IT系统中的数据语言不统一,不同IT系统之间的数据不贯通,同样的数据需要在不同IT系统中重复录入,甚至不同IT系统中的同一个数据不一致等。这些问题限制了运营效率的提升和效益的改进,华为迫切需要数字化转型来改变这种状况。

华为规划的数字世界是什么样子的?

其内容无外乎就是业务对象、业务过程和业务规则的数字化,华为希望构建一个实现感知、联接和智能的数据平台。感知是物理世界与数字世界之间形成完整且有效的映射,联接是把各种离散的数据相互联系成有机整体,智能是在这个基础上加入一些大数据和高级模型算法。

华为如何进行数字化转型?

首先,要抓住数据治理这个“牛鼻子”。华为的IT系统和数据有太多的历史包袱,要进行数据治理并不容易,到今天为止,我们所做的也只能说“刚刚及格”。我们想要在构建新的数据平台时不对原有的信息系统进行颠覆性改造。因此我们一方面通过感知能力实现业务数据的自动采集,另一方面通过一些技术手段,把现有的各个相对独立的数据库中的数据按一定的标准进行汇聚和联接。这就带来了“数据湖”的全新体验,先初步解决“数据孤岛”的问题,然后再来进行深入的数据治理。数字化转型是当前各个行业的各个企业最关心的话题,是一次大的机遇,也是一次大的挑战。现在业界的数字化转型过多地强调了技术的动因,而我认为数字化转型应该首先强调业务价值。根据PaulRomer的《内生经济理论》,我们在做数字化转型时要反复问自己:

第一,数字化转型到底要解决客户的什么问题?用户到底需要什么?用户和客户关心的问题在哪?

第二,业务战略到底要解决业务的什么问题?

第三,变革是否有一个好的规划和持续的架构?

数字化转型是一个持续优化的过程,只有起点,没有终点。

华为的数字化转型步骤?

不同于数字世界的“原住民”,非数字原生企业的数字化转型是企业的一次巨大变革。这场变革涉及商业模式、运营模式的变化,需要完成流程、组织、IT、文化等多方面的转变,对于飞速发展的华为来说,相当于在高速路上换轮胎。华为当时面临的局面是,存量的IT“烟囱”遍布各个业务但又支撑着海量的交易和分析,各种短期见效的数据搬家、自动化小工具逐渐从“帮手”变成了“帮凶”,数据被“私有化”为各个业务部门的“资产”,“表哥表姐”为了实现数字化运营加班加点整理Excel,高薪招来的数据科学家却因为没有数据而闲得离职……

变革指导委员会经过充分的讨论达成共识:数字化转型要坚持业务和技术的双轮驱动,而连接双轮的“轴”就是数据。只有建立统一、清洁、智能的数据底座,才能支撑公司不断发展的新业务,支撑各个区域市场的差异化需求,实现“数据实时可视、海量业务自动、算法支撑决策”,实现“万物互联的智能世界”。

2017年10月,“统一数据底座建设”项目立项。针对数据搬家 多、找不到、读不懂、获取难、不敢信等痛点,将“打破数据孤岛,支撑数字化转型,实现数据随需共享、敏捷自助、安全合规”作为项目标。项目组一手抓数据入湖与联接,一手抓数据消费,经过两年多的努力,终于基本完成了数据底座的建设。今天,数据底座支撑着华为在全球170多个国家的差异化运营,支撑着公司各BG海量的交易与分析,驱动了交付、供应、财经等诸多领域的运营模式(在线、远程、集中)转型,也帮助公司实现了在美国极限施压下的快速分析与应对。数据底座成为华为数字化转型的基石。

读者对象

企业管理者:CEO,CIO,CDO,数字化转型项目的领导者、设计者和实施者。

数据从业人员:数据架构师、数据工程师、数据质量工程师、数据产品经理、数据分析师。

IT从业人员:应用架构师、数据库专家、业务架构师。

第1章 数据驱动的企业数字化转型

非数字原生企业的数字化转型挑战

数字原生企业在设立之初就以数字世界为中心来构建,生成了以软件和数据平台为核心的数字世界入口,便捷地获取和存储了大量的数据,并开始尝试通过机器学习等人工智能技术分析这些数据,以便更好地理解用户需求,增强数字化创新能力。部分数字原生企业引领着云计算、大数据、人工智能技术的发展,推动了数字化时代的发展。在这些数字原生企业中,整个企业的战略愿景、业务需求、组织架构、人员技能、管理文化、思考方式都是围绕着数字世界展开的。

与数字原生企业不同,非数字原生企业在成立之时,基本都是以物理世界为中心来构建的。绝大部分企业在创建的时候,是围绕生产、流通、服务等具体的经济活动展开的,天然缺乏以软件和数据平台为核心的数字世界入口,这也就造成了非数字原生企业与数字原生企业之间的显著差异。所以在数字化转型过程中,非数字原生企业面临着更大的挑战。

业态特征:产业链条长、多业态并存

以传统的钢铁企业为例,完整工艺包括采矿、选矿、烧结、炼铁、炼钢、热轧、冷轧、硅钢等,辅助生产工艺包括焦化、制氧、燃气、自备电、动力等,在各个工艺流程中沉淀着大量的复杂数据。

运营环境:数据交互和共享风险高

华为公司的服务对象从运营商、企业客户到个人消费者,服务范围和雇员遍布全球100多个国家和地区,需要严格遵守各个国家和地区的进出口管制措施、环保条例、安全隐私法规等。这些业务形态上的特点,导致包括华为在内的诸多非数字原生企业对数据共享(特别是生产、销售侧数据的对外共享)有更多顾虑,更容易形成客观上的“数据孤岛”。

IT建设过程:数据复杂、历史包袱重

华为公司的主业务流程中存在几千个系统模块,有多版本

的ERP、多种集成方式,系统间存在大量复杂的集成和嵌套。各业务领域开发了上千个应用系统模块,包含上百万张物理表、几千万个字段,这些数据又分别存储在上千个不同数据库中,共享困难;数据链路呈“长网”状,典型链路达12层以上,部分链路甚至高达22层。

数据质量:数据可信和一致化的要求程度高

基于业务特征和运营环境的特点,非数字原生企业对数据生成质 量有更高的要求。数据产生时的质量高低不仅直接影响产品质量,而且直接影响整个内部业务的运作效率和成本。例如,华为公司会对合同录入质量进行严格度量和控制,以确保下游各环节能够及时、准确、完整地获得所需数据,并在整个端到端链条中对异常数据进行严格监控。数据质量要求严格,需要配置多重精确规则,基于客观事实多重校验,确保数据可信、一致。

华为数字化转型与数据治理

数字化转型归根结底就是要解决企业的两大问 题:成本和效率,并围绕“多打粮食,增加土地肥力”而开展。

华为数字化转型整体目标

对内,各业务领域数字化、服务化,打通跨领域的信息断点,达到领先于行业的运营效率。逐步构建以“面向客户做生意”和“基于市场的创新”两个业务流为核心的“端到端”的数字化管理体系。管理方式从定性走向定量,实现数据驱动的高效运作。

对外,对准5类用户的ROADS体验,实现与客户做生意更简单、更高效、更安全,提升客户满意度。华为首先从用户体验的视角表达了对行业的最新判断,并将其总结为ROADS,即实时(Real-time)、按需(On-demand)、全在线(All-online)、服务自助(DIY)和社交化(Social)

华为数字化转型蓝图及对数据治理的要求

举措1:实现“客户交互方式”的转变,用数字化手段做厚、做深客户界面,实现与客户做生意更简单、更高效、更安全,提升客户体验满意度,帮助客户解决问题。

举措2:实现“作战模式”的转变,围绕两大主业务流,以项目为中心,对准一线精兵团队作战,率先实现基于ROADS的体验,达到领先于行业的运营效率。

举措3:实现“平台能力”提供方式的转变,实现关键业务对象的数字化并不断汇聚数据,实现流程数字化和能力服务化,支撑一线作战人员和客户的全联接。

举措4:实现“运营模式”的转变,基于统一数据底座,实现数字化运营与决策,简化管理,加大对一线人员的授权。

举措5:云化、服务化的IT基础设施和IT应用,统一公司IT平台,同时构建智能服务。

其中,举措4涉及数据治理和数字化运营,是华为数字化转型的关键,承接了打破数据孤岛、确保源头数据准确、促进数据共享、保障数据隐私与安全等目标。华为数字化转型对数据治理的要求如下:

1)基于统一的数据管理规则,确保数据源头质量以及数据入湖,形成清洁、完整、一致的数据湖,这是华为数字化转型的基础。

2)业务与数据双驱动,加强数据联接建设,并能够以数据服务方式,灵活满足业务自助式的数据消费诉求。

3)针对汇聚的海量内外部数据,能够确保数据安全合规。

4)不断完善业务对象、过程与规则数字化,提升数据自动采集能力,减少人工录入。

华为数据治理实践

华为数据治理历程

1. 第一阶段:2007~2016年

在这一阶段,华为设立数据管理专业组织,建立数据管理框架,发布数据管理政策,任命数据Owner,通过统一信息架构与标准、唯一可信的数据源、有效的数据质量度量改进机制,实现了以下目标。

1持续提升数据质量,减少纠错成本:通过数据质量度量与持续改进,确保数据真实反映业务,降低运营风险。

2数据全流程贯通,提升业务运作效率:通过业务数字化、标准化,借助IT技术,实现业务上下游信息快速传递、共享。

2. 第二阶段:2017年至今

在这一阶段,华为建设数据底座,汇聚企业全域数据并对数据进行联接,通过数据服务、数据地图、数据安全防护与隐私保护,实现了数据随需共享、敏捷自助、安全透明的目标,支撑着华为数字化转型,实现了如下的数据价值。

1业务可视,能够快速、准确决策:通过数据汇聚,实现业务状态透明可视,提供基于“事实”的决策支持依据。

2人工智能,实现业务自动化:通过业务规则数字化、算法化,嵌入业务流,逐步替代人工判断。

3数据创新,成为差异化竞争优势:基于数据的用户洞察,发现新的市场机会点。

华为数据工作的愿景与目标

华为数据工作建设的整体思路和框架

作为非数字原生企业,我们认为数字化转型的关键要素之一是在现实世界的基础上构建一个跨越孤立系统、承载业务的“数字孪生”的数字世界。通过在数字世界汇聚、联接与分析数据,进行描述、诊断和预测,最终指导业务改进。在实现策略上,数字世界一方面要充分利用现有IT系统的存量数据资产,另一方面要构建一条从现实世界直接感知、采集、汇聚数据到数字世界的通道,不断驱动业务对象、过程与规则的数字化。

华为经过多年实践,形成了一套数据工作框架。

1数据源:业务数字化是数据工作的前提,通过业务对象、规则与过程数字化,不断提升数据质量,建立清洁、可靠的数据源。

2数据湖:基于“统筹推动、以用促建”的建设策略,严格按六项标准,通过物理与虚拟两种入湖方式,汇聚华为内部和外部的海量数据,形成清洁、完整、一致的数据湖。

3数据主题联接:通过五种数据联接方式,规划和需求双驱动,建立数据主题联接,并通过服务支撑数据消费。

4数据消费:对准数据消费场景,通过提供统一的数据分析平台,满足自助式数据消费需求。

5数据治理:为保障各业务领域数据工作的有序开展,需建立统一的数据治理能力,如数据体系、数据分类、数据感知、数据质量、安全与隐私等。

第2章 建立企业级数据综合治理体系

华为公司经过十多年的实践证明,只有构筑一套企业级的数据综合治理体系,才能确保关键数据资产有清晰的业务管理责任,IT建设有稳定的原则和依据,作业人员有规范的流程和指导;当面临争议时,有裁决机构和升级处理机制;治理过程所需的人才、组织、预算有充足的保障。综合上述因素,最终建立有效的数据治理环境,数据的质量和安全得到保障,数据的价值才能真正发挥出来。

建立公司级的数据治理政策

数据治理政策是华为数据治理的顶层设计,该政策在华为公司 EMT(经营管理团队)汇报通过后,由总裁签发,该政策明确了数据工作在华为公司治理体系中的地位,体现了公司管理层对数据工作重要性的统一认知。

华为数据管理总纲

(1)信息架构管理原则

(2)数据产生管理原则

(3)数据应用管理原则

(4)数据问责与奖惩管理原则

信息架构管理政策

(1)管理信息架构的角色与职责

(2)信息架构建设要求

(3)信息架构遵从管控

数据源管理政策

数据同源是华为数据治理的核心观点之一。

明确华为公司在数据源建设和数据源使用方面的总体原则和要求,确保数据源头的统一,以及跨流程、跨系统数据的唯一性和一致性。

(1)数据源管理原则

(2)数据源认证标准

数据质量管理政策

数据质量的持续提升是华为数据治理的核心目标。通过制定数据质量管理政策,明确数据在创建、维护、应用过程中的规则及质量要求,确保数据真实可靠。

(1)数据质量管理职责及要求

(2)数据质量管理的业务规则和管理要求

融入变革、运营与IT的数据治理

数据从业务中产生,在IT系统中落地,决定了数据治理工作必须充分融入业务运营与IT系统建设中。

建立管理数据流程

华为将“管理数据”流程定位为“管理BT&IT”流程下的一个L2流程,下设“管理信息架构”“管理数据质量”“管理数据分析”3个子流程。

管理数据流程与管理变革项目、管理质量与运营之间的关系

企业在运营过程中,能力的提升和架构的调整依托于变革项目和改进项目的实施。变革项目和改进项目需要交付业务解决方案、数据解决方案、IT解决方案,其中数据解决方案包含信息架构设计、数据质量度量、改进方案和数据分析方案。支撑数据解决方案的角色为数据经理,数据经理统筹管理信息架构工程师、数据治理工程师、数据分析师和数据科学家,共同完成项目数据解决方案的交付和验证。

通过变革体系和运营体系进行决策

在华为的数据治理实践中,数据相关的重大决议由企业变革指导委员会决策,通过变革管理体系和流程运营体系实现落地。

数据治理融入IT实施

在华为的数据治理实践中,在IT产品团队中设置系统架构师和数据架构师角色,负责界面设计、数据库设计、数据集成方案设计,向上承接信息架构的设计要求。

通过内控体系赋能数据治理

华为通过内控体系,每年实施SACA评估和数据专项内部审计,揭示数据治理过程的问题,确定改进目标和责任人,从而保证数据治理机制的有效运作。

建立业务负责制的数据管理责任体系

业务即行为,行为即记录,记录即数据。华为公司的每一个数 据,必须由对应的业务部门承担管理责任,且必须有唯一的数据Owner。业务负责制的数据管理责任体系,是华为数据治理体系多年实践经验的结晶,是确保体系发挥作用的基石。

任命数据Owner和数据管家

公司数据Owner是公司数据战略的制定者、数据文化的营造者、数据资产的所有者和数据争议的裁决者,拥有公司数据日常管理的最高决策权,职责如下所示。

第一条:制定数据管理体系的愿景和路标。

第二条:传播数据管理理念,营造数据文化氛围。

第三条:建设和优化数据管理体系,包括组织与任命、授权与问责等。

第四条:批准公司数据管理的政策和法规。

第五条:裁决跨领域的数据及管理争议,解决跨领域的重大数据及管理问题。

各级流程Owner就是该流程域的数据Owner,在公司数据Owner的统筹下负责所管理流程域的数据管理体系的建设和优化。各业务部门是执行规则,保证数据质量,进而推动规则优化的关键环节。通过主管机构正式任命各数据主题域和业务对象的数据Owner和数据管家,数据Owner的职责可以归纳为以下五条。

第一条:负责数据管理体系建设。数据Owner要负责所辖领域的数据管理体系建设和优化,传播数据管理理念,营造数据文化氛围。

第二条:负责信息架构建设。数据Owner要负责所辖领域的信息架构建设和维护,确保关键数据被识别、分类、定义及标准化,数据的定义在公司范围内唯一,数据标准制定要考虑跨流程要求。

第三条:负责数据质量管理。数据Owner要负责保障所辖领域的数据质量,承接公司设定的数据质量目标,制定数据质量标准及测评指标,持续度量与改进。

第四条:负责数据底座和数据服务建设。数据Owner要负责所辖领域数据入湖,建设数据服务,满足公司各个部门对本领域数据的需求。

第五条:负责数据争议裁决。数据Owner要建立数据问题回溯和奖惩机制,对所辖领域的数据问题及争议进行裁决,对不遵从信息架构或存在严重数据质量问题的责任人进行问责。

数据管家是数据Owner的助手,是数据Owner在数据管理方面的具体执行者。

建立公司层面的数据管理组织

华为在实践中形成了数据全生命周期的治理规范与方案:

第3章 差异化的企业数据分类管理框架

不同的企业或组织基于不同的目的,可以从多个角度对数据进行分类,如结构化数据和非结构化数据、内部数据和外部数据、原始数据和衍生数据、明细数据和汇总数据等。华为在业界的数据分类基础上,结合自身多年的实践,已形成完整的数据分类管理框架。华为对数据进行分类的目的,是为了针对不同特性的数据采取不同的管理策略,以期实现最大的投入产出比。

基于数据特性的分类管理框架

分为内部数据和外部数据、结构化数据和非结构化数据、元数据。其中,结构化数据又进一步划分为基础数据、主数据、事务数据、报告数据、观测数据和规则数据,非结构化数据例如文档、图片、视频等。

基础数据内容的变更 通常会对现有流程、IT系统产生影响,因此基础数据的管理重点在于变更管理和统一标准管控。主数据的错误可能会导致成百上千的事务数据错误,因此主数据的管理重点是确保同源多用、重点进行数据内容的校验等。

以统一语言为核心的结构化数据管理

结构化数据的共同特点是以信息架构为基础,建立统一的数据资产目录、数据标准与模型。

基础数据治理

基础数据用于对其他数据进行分类,在业界也称作参考数据。基础数据通常是静态的(如国家、币种),一般在业务事件发生之前就已经预先定义。它的可选值数量有限,可以用作业务或IT的开关和判断条件。当基础数据的取值发生变化的时候,通常需要对流程和IT系统进行分析和修改,以满足业务需求。因此,基础数据的管理重点在于变更管理和统一标准管控。

主数据治理

主数据是参与业务事件的主体或资源,是具有高业务价值的、跨流程和跨系统重复使用的数据。主数据与基础数据有一定的相似性,都是在业务事件发生之前预先定义;但又与基础数据不同,主数据的取值不受限于预先定义的数据范围,而且主数据的记录的增加和减少一般不会影响流程和IT系统的变化。但是,主数据的错误可能导致成百上千的事务数据错误,因此主数据最重要的管理要求是确保同源多用和重点进行数据内容的校验。

华为的主数据范围包括客户、产品、供应商、组织、人员主题,每个主数据都有相应的架构、流程及管控组织来负责管理。鉴于主数据管理的重要性,对于每个重要的主数据,都会发布相应的管理规范,数据管家依据数据质量标准定期进行数据质量的度量与改进。

接下来介绍客户主数据治理的实践。客户数据是企业最重要的主数据之一,几乎贯穿所有业务经营活动。客户数据在全流程中的及时性、准确性、完整性、一致性、有效性、唯一性是业务高效运作、经营可控的重要保障。随着业务发展,华为客户数量迅速增长,客户数据种类复杂多样,因此要构建客户数据管理和服务化能力,以满足经营分析、交易打通、内外部遵从、客户价值挖掘等核心要求,支撑面向多BG的战略转变。

在客户数据治理和服务化改造前,客户历史数据质量较差,一个客户编码存在多个BG属性,导致无法直接基于客户维度生成BG报告,同时无法支持基于不同业务特点对同一客户授信、控制备发货。

下游系统违规录入客户数据会影响财报的准确性,风险等级高。财报内控管理建议书中指出,“风险等级评定高,部分同源的主数据在不同系统中维护,可能导致各系统间不一致,增加维护的工作量”。

经过对3大BG,财经、供应链、变革项目组等24个部门的情况进行收集和分析,客户数据的问题根源在以下几个方面。

客户信息不完整,且下游系统未严格遵循数据源头所定义的标准。

数据架构不灵活、紧耦合,不能有效支撑多BG的业务管理。

下游系统集成管理不严格,存在多源头录入。客户数据源头的数据质量管理控制点无法延伸到下游的各集成IT系统中。

为彻底解决客户数据问题,华为制订了客户数据管理及服务化架构方案,以客户数据质量为核心,严控数据流入与流出两个端口,搭建客户数据管理及服务平台,统一数据架构和标准,通过服务化架构实现“数出一孔”,提升财报准确性、提升运作效率、降低运营风险。

以客户数据架构的重构和管理为基础,制订了Account & Legal Entity两级架构。Account用于华为公司市场拓展、销售管理及数据归集等内部经营管理,是不具备与华为公司签约资格的对象;Legal Entity(法人客户)是依法具有民事权利能力和民事行为能力,依法独立享有民事权利和承担民事义务,具备与华为公司签约资格的对象,包括企业、国家机关、事业单位和社会团体等。Account数据确保客观、稳定,各BG、各流程、各系统一致;而Legal Entity基于BG分层解耦,按内容性质区分“身份证”信息和其他业务信息,满足多BG业务管理。客户主数据架构如图

以客户数据架构的优化为基础,重点通过数据服务化方式对整个华为公司原有的集成方式进行改造,包括下游的136个IT系统和应用,3大类近2000个改造点,从根本上消除了原有的不合理的数据集成方式,具体包括如下4点。

1)确保下游IT系统或应用不从非数据源系统集成客户数据。例如:A系统从B系统(非数据源)集成主数据,并且在A系统落地了物理表。

2)确保下游IT系统或应用集成合法数据源且不修改属性。例如,修改了展现业务含义的字段,将编码改为编号。

3)确保下游IT系统或应用中不补录数据。例如,客户数据从合法的数据源集成,集成后对客户数据进行行记录的新增或补录。

4)确保下游IT系统或应用不向后传递数据。例如,某系统未以数据服务方式从数据源获取数据,而是直接调用中间系统(非数据源)的客户数据。

通过服务化改造提升了全流程数据的一致性,同时为各个环节带来了明显的业务价值,包含如下几点。

1)实现“数出一孔”,提高数据质量。提高数据准确性与及时性,减少不同部门之间的对账成本,帮助提高财经等报告的准确性。

2)满足内外部应遵从的要求,降低华为公司风险。实现数据“一点录入,多点调用”,满足财报内控及内外部审计要求,提高客户数据真实性,降低合同造假等业务运营风险。

3)支持交易流打通,提升运营效率。满足各流程对客户数据的要求,降低合同非正常变更及退票风险。

4)支持经营分析和价值评价。支持基于客户视角生成BG管理报告与各业务部门经营管理分析。

5)支持价值挖掘,聚焦优质客户。支持客户360度分析,驱动优质资源瞄准优质客户,提高市场响应效率。

事务数据治理

事务数据在业务和流程中产生,是业务事件的记录,其本身就是业务运作的一部分。事务数据是具有较强时效性的一次性业务事件,通常在事件结束后不再更新。

事务数据会调用主数据和基础数据。以客户框架合同为例,核心属性有32个,其中调用基础数据和主数据24个,占75%;客户框架合同本身特有的属性8个,占25%。同时,框架合同也引用了机会点的编码和投标项目的编码等事务数据的信息。

因此,事务数据的治理重点就是管理好事务数据对主数据和基础数据的调用,以及事务数据之间的关联关系,确保上下游信息传递顺畅。在事务数据的信息架构中需明确哪些属性是引用其他业务对象的,哪些是其自身特有的。对于引用的基础数据和主数据,要尽可能调用而不是重新创建。

报告数据治理

报告数据是指对数据进行处理加工后,用作业务决策依据的数据。它用于支持报告和报表的生成。

用于报告和报表的数据可以分为如下几种。

用于报表项数据生成的事实表、指标数据、维度。

用于报表项统计和计算的统计函数、趋势函数及报告规则。

用于报表和报告展示的序列关系数据。

用于报表项描述的主数据、基础数据、事务数据、观测数据。

用于对报告进行补充说明的非结构化数据。

报告数据涵盖的范围较广,如主数据、基础数据等,这些数据类别本身已经有相应的管理机制和规范,这里我们重点对部分新的细分数据类型进行说明。

1)事实表:从业务活动或者事件中提炼出来的性能度量。其特点为:每个事实表由颗粒度属性、维度属性、事务描述属性、度量属性组成;

事实表可以分为基于明细构建的事实表和基于明细做过汇聚的事实表。

2)维度:用于观察和分析业务数据的视角,支持对数据进行汇聚、钻取、切片分析。其特点为:

维度的数据一般来源于基础数据和主数据;

维度的数据一般用于分析视角的分类;

维度的数据一般有层级关系,可以向下钻取和向上聚合形成新的维度。

3)统计型函数:与指标高度相关,是对指标数量特征进一步的数学统计,例如均值、中位数、总和、方差等。其特点为:

通常反映某一维度下指标的聚合情况、离散情况等特征;

其计算数值在报告中通常呈现为图表中的参考线。

4)趋势型函数:反映指标在时间维度上变化情况的统计方式,例如同比、环比、定基比等。其特点为:

通常将当期值与历史某时点值进行比较;

调用时,需要收集指标的历史表现数据;

其计算数值在报告中通常呈现为图表中的趋势线。

5)报告规则数据:一种描述业务决策或过程的陈述,通常是基于某些约束下产生的结论或需要采取的某种措施。其特点为:

将业务逻辑通过函数运算体现,通常一个规则包含多个运算和判断条件;

规则的计算结果一般不直接输出,需要基于计算结果翻译成业务语言后输出;规则通常与参数表密切相关。

6)序列关系数据:反映报告中指标及其他数据序列关系的数据。

观测数据治理

观测数据是通过观测工具获取的数据,观测对象一般为人、事、物、环境。

相比传统数据,观测数据通常数据量较大且是过程性的,由机器自动采集生成。不同感知方式获取的观测数据,其数据资产管理要素不同。

观测数据的感知方式可分为软感知和硬感知。软感知是使用软件或者各种技术进行数据收集,收集的对象存在于数字世界,通常不依赖于物理设备,一般是自动运行的程序或脚本;硬感知是利用设备或装置进行数据收集,收集的对象为物理世界中的物理实体,或者是以物理实体为载体的信息,其数据的感知过程是数据从物理世界向数字世界的转化过程。

原则上,观测对象要定义成业务对象进行管理,这是观测数据管理的前提条件。

规则数据治理

规则数据是结构化描述业务规则变量(一般为决策表、关联关系 表、评分卡等形式)的数据,是实现业务规则的核心数据,如业务中普遍存在的基线数据。

以特征提取为核心的非结构化数据管理

相较于结构化数据,非结构化元数据管理除了需要管理文件对象的标题、格式、Owner等基本特征和定义外,还需对数据内容的客观理解进行管理,如标签、相似性检索、相似性连接等,以便于用户搜索和消费使用。因此,非结构化数据的治理核心是对其基本特征与内容进行提取,并通过元数据落地来开展的。

非结构化数据的元数据可以分为基本特征类(客观)和内容增强类(主观)两类。

1)基本特征类:参考都柏林十五个核心元数据,实现对非结构化数据对象的规范化定义,如标题、格式、来源等。

2)内容增强类:基于非结构化数据内容的上下文语境,解析目标文件对象的数据内容,加深对目标对象的客观理解,如标签、相似性检索、相似性连接等。

非结构化数据的元数据管理采用统分统管的原则,即基本特征类属性由公司进行统一管理,内容增强类属性由相关承担数据分析工作的项目组自行设计,但其分析结果都应由公司元数据管理平台自动采集后进行统一存储。

元数据管理平台通过“基本特征类元数据流”和“内容增强类元数据流”两条线来实现对非结构化数据的元数据管理和消费使用。

1)基本特征类元数据流

元数据管理平台基于收集到的各类非结构化数据源信息,自动完成基础特征类元数据的采集工作,按照管理规范和要求通过标准化、整合后存储在元数据管理平台中,并在完成元数据过滤、排序后将结果在元数据报告中进行可视化展示,以供用户消费使用。

2)内容增强类元数据流

基于元数据管理平台中基本特征类元数据的信息,各数据分析项目组解析目标非结构化对象的数据内容,并将分析结果通过元数据采集、元数据标准化&整合后统一存放在元数据管理平台中,以供用户一并消费使用,增强用户体验。

以确保合规遵从为核心的外部数据管理

外部数据是指华为公司引入的外部组织或者个人拥有处置权利的数据,如供应商资质证明、消费者洞察报告等。外部数据治理的出发点是合规遵从优先,与内部数据治理的目的不同。

外部数据的治理主要遵循以下原则。

1合规优先原则:遵从法律法规、采购合同、客户授权、公司信息安全与公司隐私保护政策等相关规定。

2责任明确原则:所有引入的外部数据都要有明确的管理责任主体,承担数据引入方式、数据安全要求、数据隐私要求、数据共享范围、数据使用授权、数据质量监管、数据退出销毁等责任。

3有效流动原则:使用方优先使用公司已有数据资产,避免重复采购、重复建设。

4可审计、可追溯原则:控制访问权限,留存访问日志,做到外部数据使用有记录、可审计、可追溯。

5受控审批原则:在授权范围内,外部数据管理责任主体应合理审批使用方的数据获取要求。

作用于数据价值流的元数据管理

无论结构化数据,还是非结构化数据,或者外部数据,最终都会通过元数据治理落地。华为将元数据治理贯穿整个数据价值流,覆盖从数据产生、汇聚、加工到消费的全生命周期。

元数据治理面临的挑战

华为建立了公司级的元数据管理机制。制定了统一的元数据管理方法、机制和平台,拉通业务语言和机器语言。确保数据“入湖有依据,出湖可检索”成为华为元数据管理的使命与目标。基于高质量的元数据,通过数据地图就能在企业内部实现方便的数据搜索。

元数据是描述数据的数据,用于打破业务和IT之间的语言障碍,帮助业务更好地理解数据。元数据通常分为业务、技术和操作三类。

在企业的数字化运营中,元数据作用于整个价值流,在从数据源到数据消费的五个环节中都能充分体现元数据管理的价值。

数据消费侧:元数据能支持企业指标、报表的动态构建。

数据服务侧:元数据支持数据服务的统一管理和运营,并实现利用元数据驱动IT敏捷开发。

数据主题侧:元数据统一管理分析模型,敏捷响应井喷式增长的数据分析需求,支持数据增值、数据变现。

数据湖侧:元数据能实现暗数据的透明化,增强数据活性,并能解决数据治理与IT落地脱节的问题。

数据源侧:元数据支撑业务管理规则有效落地,保障数据内容合格、合规。

元数据管理架构及策略

元数据管理架构包括产生元数据、采集元数据、注册元数据和运维元数据。

元数据管理

1. 产生元数据

(1)明确业务元数据、技术元数据和操作元数据之间的关系,定义华为公司元数据模型。

(2)针对找数据及获取数据难的痛点,明确业务元数据、技术元数据、操作元数据的设计原则。

1)业务元数据设计原则

一个主题域分组下有多个主题域,一个主题域下有多个业务对象,一个业务对象下有多个逻辑实体,一个逻辑实体下有多个属性,一个属性有一个数据标准。

每个数据标准可被一个或多个属性引用,每个属性归属于一个逻辑实体,每个逻辑实体归属于一个业务对象,每个业务对象归属于一个主题域,每个主题域归属于一个主题域分组。

2)技术元数据设计原则

物理表设计须满足三范式,如为了降低系统的总体资源消耗,提高查询效率,可反范式设计。

物理表、视图和字段的设计须基于用途进行分类。

承载业务用途的物理表、虚拟表、视图必须与逻辑实体一一对应,承载业务用途的字段必须与属性一一对应。

系统间的数据传递须优先采用数据服务。

3)操作元数据设计原则

日志目的不同的进行分类设计,日志目的相同的进行相同设计(非自研场景按软件包适配)。

(3)规范数据资产管理,设计数据资产编码规范。

1)数据资产编码规范

华为数据资产编码的主要包括业务元数据和技术元数据两大类,其中业务元数据包含主题域分组、主题域、业务对象、逻辑实体、属性、数据标准;技术元数据包含物理数据库、Schema、表、字段。

2)数据资产编码原则

数据资产编码(DAN)是通过一组数字、符号等组成的字符串去唯一标识华为公司内部每一个数据资产,基于此唯一标识,保证各业务领域对同一数据资产的理解和使用一致,它的设计遵循以下原则。

统一性原则:华为公司内部只能使用一套数据资产编码,以方便不同业务部门之间的沟通和IT应用之间的数据交换。

唯一性原则:每一个数据资产只能用唯一的数据资产编码进行标识,不同数据资产的编码不允许重复,同一个编码也只能对应到一个数据资产上。

可读性原则:数据资产编码作为数据资产分类、检索的关键词和索引,需要具备一定的可读性,让用户通过编码就能初步判断其对应的数据资产类型。

扩展性原则:数据资产的编码要从数据管理角度适当考虑未来几年的业务发展趋势,其编码长度要能适当扩展,同时不影响整个编码体系。

3)业务元数据资产编码规则

业务元数据资产编码规则主要包含三个部分:第一部分为主题域分组的编码规则,主题域分组的编码由公司统一分配;第二部分为主题域、业务对象、逻辑实体、属性的编码规则,这部分主要由数据治理平台按照编码规则自动生成;第三部分主要为业务元数据包含的子类对应的数据资产类型代码。

2. 采集元数据

元数据采集是指从生产系统、IT设计平台等数据源获取元数据,对元数据进行转换,然后写入元数据中心的过程。

1)选择适配器

适配器是指针对不同的元数据来源,采用相应的采集方式获取元数据的程序,元数据的来源种类繁多,因而须选择相对应的适配器及元模型。

2)配置数据源

配置数据源是采集元数据的关键,在确定数据源所选择的适配器类型、适配器版本、元模型的基础上,配置数据源的名称、连接参数和描述。

3)配置采集任务

采集任务为自动调度的工作单元,为元数据的采集提供自动化

的、周期性的、定时的触发机制。

3. 注册元数据

大多数企业的数字化建设都存在增量和存量两种场景,如何同时有效地管理这两种场景下的元数据就成了问题的关键。华为通过标准的元数据注册规范和统一的元数据注册方法,实现了两种场景下业务元数据和技术元数据的高效连接,使业务人员能看懂数据、理解数据,并通过数据底座实现数据的共享与消费。

(1)元数据注册原则

元数据注册的原则包括如下三点:

数据Owner负责,是谁的数据就由谁负责业务元数据和技术元数据连接关系的建设和注册发布;

按需注册,各领域数据管理部根据数据搜索、共享的需求,推进元数据注册;

注册的元数据的信息安全密级为内部公开。

(2)元数据注册规范

通过“元数据注册三步法”完成元数据注册:

(3)元数据注册方法

元数据注册分为增量元数据注册和存量元数据注册两种场景。

4. 运维元数据

运维元数据是为了通过对元数据进行分析,发现数据注册、设计、使用的现状及问题,确保元数据的完整、准确。

这篇关于华为数据之道第一部分导读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/973513

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav

poj 2976 分数规划二分贪心(部分对总体的贡献度) poj 3111

poj 2976: 题意: 在n场考试中,每场考试共有b题,答对的题目有a题。 允许去掉k场考试,求能达到的最高正确率是多少。 解析: 假设已知准确率为x,则每场考试对于准确率的贡献值为: a - b * x,将贡献值大的排序排在前面舍弃掉后k个。 然后二分x就行了。 代码: #include <iostream>#include <cstdio>#incl