数据仓库质量保证概述分析

2023-12-06 10:48

本文主要是介绍数据仓库质量保证概述分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1     概述

随着用户对数据分析需求的增长,数据仓库信息质量变得越来越重要,质量差的数据不仅可能对企业经营带来负面影响,而且会使用户觉得所产生的报表不可信赖,更重要的是错误的数据容易误导用户,从而造成管理决策的失误,会造成客户流失。

高质量的决策必然依赖于高质量的数据,为了避免得出错误的结论,数据的正确性是至关重要的,否则就会出现所谓的垃圾进,垃圾出(garbage in ,garbage out)的现象。但是对于一个数据质量要求比较高并且涉及金融行业的公司来说,不仅要求源头数据的清洁,更要求数据再清洗过程保证数据的完整性,正确性和一致性,即关注ETL流程不会导致数据质量的损失,能够把数据质量能够与本公司的基本业务规则生成新的数据质量稽核规则将会是一个有意义的尝试,形成领域相关的数据质量规则将会是受益无穷的。

2     数据质量概念

数据仓库中数据质量度量最主要的几个指标是

l   正确性 数据源中实际数据值与假定正确数据值的一致程度

l   完整性 数据源中需要数值的字段中无值缺失的程度

l   一致性 数据源中数据对一组约束的满足程度

l   唯一性 数据源中记录以及编码是否唯一

l   适时性 在所要求的或指定的时间提供一个或多个数据项的程度

l   有效性 维护的数据足够严格以满足分类准则的接受要求

数据质量反映在多个方面,包括数据采集方面的质量,数据转换方面的质量,数据存储方面的质量以及数据应用方面的质量。各阶段数据特征的不同,其数据质量要求也不尽相同,数据采集方面侧重于对单数据源的完整,适时性方面的数据质量要求,数据转换方面侧重于对数据正确性,合法性,一致性等方面的数据质量要求,数据存储阶段侧重于对多数据源数据集成性的数据质量要求,而数据应用方面更侧重于对数据有效性方面的要求。

在每一个数据质量的方面,需要对不同的对象进行质量约束定义,包括数据库约束规则,业务约束规则,统计分析规则,隐形约束规则。

数据质量的实施离不开四大要素:数据质量的评估对象,数据质量的评估阶段,评估指标,评估规则。如选定评估对象为用户资料,评估的阶段可以分为DWDDWST,选定数据完整性,有效性作为评估指标,针对完整性指标,可以设定一个评估规则:USERID不为空,EMAIL不为空,针对有效性指标,可以设定一个评估指标:账户对应的身份证号为15位或者18位。

3     数据质量工具

3.1    Data Cleaner

其主页地址http://datacleaner.eobjects.org/,是网上唯一一款只专注数据质量的开源工具,其他的数据工具都是数据仓库ETL整个解决方案的一部分,对这个款工具的介绍有助于帮助我们理解业界针对数据质量所采取的常规方法。

3.1.1      组件

Data Cleaner主要有两部分组成:数据探查(Data Profiling)和数据验证(Data Validating),其中数据探查主要是针对源数据的数据概貌进行统计,而数据验证则是根据用户对数据的理解定义出的数据规则进行数据验证,以找出不满足数据规则的异常数据。这两个部分的在数据仓库中的阶段可以用其官方的信息流动图来表示。

从图中可以看出,数据探查主要是针对源头的数据进行数据质量的检查,而数据验证主要是针对ETL过程中产生的数据质量进行校验。

1.1.1      数据探查

此工具的数据探查主要有以下几个方面:标准度量,数值分析,字符串分析,模式匹配字符串,值分布。

标准度量包括表的总记录数,表的相异记录数,某个字段的为NULL的数目,某个字段为空字符的数目;

数据分析主要针对数据型字段,分析字段的最大值,最小值,和值,平均值,标准差和方差,以此可以进行3sigma质量保证。

可以进行强大的模式匹配规则找到符合某个模式的字符串,如Email字段的匹配。

值分布主要是分析某个字段值中前N个最频繁出现的值和后N个最不频繁出现的值。

1.1.2      数据验证

数据验证的目的是发现异常数据的过程,通过设立规则,把不满足规则的数据找出来,提供给用户进行下一步的数据质量分析。此工具的数据验证包含下面几个方面:字段的NOT NULL检验,字段值域检验,基于正则表达式的字段检验,基于脚本的复杂规则(如关联字段)的检验。

NOT  NULL 检验是检查数据中某个字段有NULL值出现就设为脏数据。

通过设定某个字段的取值范围,找出不在此字段规定范围的数据设为脏数据。

通过模式匹配找出不满足模式的记录,常常用于用户手机和电话号码,IP地址,EmailURL的检验。

提供了扩展性强的基于脚本的规则检验,用户可以编写Javascript规则来实现复杂的校验,如一个字段依赖于另一个已知字段,这时可以通过新建规则来进行验证。

1.1.3      总结

此工具已经把当前数据质量涉及的内容基本已经包括,并且可以把验证规则以JOB的方式来执行。此工具解决的数据质量(也是其他数据仓库质量工具的共同特点)主要是针对业务数据本身的错误或者不一致性,更多关注于字段监控,作为整体的解决方案,没有针对某个行业的业务规则定义的数据校验是无可厚非的,但已经包含了数据质量检测工具基本功能。

1.2    Talent Open Studio

Talendhttp://www.talend.com/)是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。其提供的开源软件以套件的形式向外提供,数据质量工具也是其中的一部分。从其套件的规模和覆盖的程度上看,在数据集中领域比较庞大和全面。相对于kettle的最大优势应该就是在于其数据质量上的单独考虑。

Talend的解决方案最大的特色是所有的组件都是可视化拖曳编程来形成数据流操作,这也是数据集中领域解决方案统一的表现形式。较常规的数据质量解决方案来说,其少了数据探查方面的组件。其对应的数据质量的组件不多,并且好多涉及到数据操作。

l tAddCRCRow

基于一个字段或者多个字段来添加代理主键

l tFuzzMatch 模糊匹配

根据字符串的距离来匹配

l tIntervalMatch 区间匹配

把一个值与另一个区间值进行匹配,并返回相关信息

l tReplaceList 替换

寻找给定的字符串并替换成相应的字符串

l tUniqueRow 消除重复

比较实体,并删除第一个重复记录

Talend提供的数据质量工具功能比较有限,而且倾向于数据转换的功能。

1.3    Informatic Data Quality

 Informatica提供产品级的解决方案,数据质量的控制和监控只是其产品解决方案的一部分,其提供的产品包含了数据的清洗,装换和导入以及此过程中的质量控制。其质量控制的部分包含了数据探查工作和数据质量工作。

1.3.1      数据质量生命周期模型

其提出的数据质量生命周期模型是一个迭代的过程,并形成一个闭环系统,主要包含如下部分。

l 识别和度量数据质量

按照数据质量的指标来理解现有的数据。没有数据质量评估这一步将会影响下一步的数据质量的策略,给数据质量改进提供了初步的参考。

l 确定数据质量规则和目标

根据数据质量的评估来确定满足数据质量指标的数据质量规则和目标。

l 设计数据质量改进过程

根据数据规则来处理数据,包括数据标准化,除噪等

l 实现质量改进过程

当数据标准化之后,下一步就是去除重复数据定义的数据规则。

l 根据设定的目标检测数据质量

通过监控当前的数据质量来验证是否已经满足前期定义的质量规则和目标

1.3.2      数据质量控制函数

Informatica数据质量控制函数可以分为两种:数据分析函数和数据增强函数,数据分析和数据增强函数可以细分成四个组成部分。

数据分析函数评估数据的完整性和一致性。

数据匹配函数评估数据的重复性,集成性和正确性。

数据标准化函数用来提高数据的完整性和一致性。

数据统一函数用来去除重复数据,删除错误数据。

1.3.3      数据质量计划

一个数据质量计划包含三个部分:输入,操作和输出。

输入可以是文本文件或者数据库表,操作指的是一些分析或者增强方法,输出可以是文件,数据库表或者报告。操作环节的主要目的如下。

类别

目标

子类别

适用组件

 

完整性

 

量化缺失数据的比例

字段的完整性

Missing values

记录的完整性

Rule Based Analyzer

数据元素的完整性

Token Labeller

匹配性

与期望的字段样式的匹配程度

 

Token Labeller

Character Labeller

 

一致性

分析多个字段间相关程度

比较两个字段的值

Merge & Token Labeller

使用验证规则

Rule Based Analyzer

1.3.4      主要分析组件简介

l Character Labeller字母标记

逐个字母的分析数据字段的值来确定字段对应的类型。

l Token Labeller Token标记

逐个Token分析出每个Token代表是单词,数字还是编码

l Rule Based Analyzer基于规则的分析器

用判断语句建立复杂的规则和条件,并可使用用户自定义函数

l Missing Values 缺失值

寻找字段缺失值的频率

l Merge 合并

按照指定顺序和分隔符来把多个字段合并成一个字段

l Range Counter范围计数器

按照指定的间隔统计落在每个间隔区间内的记录数

l Aggragate 聚合

统计某个字段的出现次数

另外还有一些类似数据转换的函数与数据质量的探查关系不大就没有就没有一一列出。

1.4    其他

数据质量是各大数据集成厂商比较关注的一方面,往往以数据质量探查和数据质量验证工具作为组件集成到其原先的数据集成平台,达到数据集成过程中的数据质量的监控和改进。上述则选择性的列出了数据质量工具,包括两个开源和一个商业。针对商业软件各大涉及到数据集成的公司都会有相应的数据质量支撑工具,比如IBMORACLE,其功能也包含数据探查,数据规则验证等常规。出色的部分主要可能是操作的便利性和准确性方面,还有可能针对某个或者几个行业建立起一整套的总结出来的规则验证机制,如Trillium软件号称有超过几十万上百网的领域规则供使用。

针对目前的数据仓库数据质量刚提上日程这个阶段来说,Data Cleaner有很大的参考价值,如果Data Cleaner结合了流程化的操作界面的话,其基本功能已相当完善。

2     数据质量检测方法

2.1    基于数据库规则的检查

主键唯一性,实体完整性,字段非空检查

2.2    业务规则的约束

单字段业务规则(付款金额为负数),多字段业务规则(支付时间>创建时间,修改时间>创建时间), EmailIP地址和不合法,业务恒等式不成立

2.3    数据描述和统计

值分析用于对数据进行基本的探查,包括空值数目,唯一值数目,空字符串数目,零值,正值,负值的统计。

描述性统计分析主要是研究数据的数字特征,如最大值,最小值,平均值,方差等信息,并按照3sigma质量控制理论进行控制

 

 

这篇关于数据仓库质量保证概述分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/461552

相关文章

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

MOLE 2.5 分析分子通道和孔隙

软件介绍 生物大分子通道和孔隙在生物学中发挥着重要作用,例如在分子识别和酶底物特异性方面。 我们介绍了一种名为 MOLE 2.5 的高级软件工具,该工具旨在分析分子通道和孔隙。 与其他可用软件工具的基准测试表明,MOLE 2.5 相比更快、更强大、功能更丰富。作为一项新功能,MOLE 2.5 可以估算已识别通道的物理化学性质。 软件下载 https://pan.quark.cn/s/57

【编程底层思考】垃圾收集机制,GC算法,垃圾收集器类型概述

Java的垃圾收集(Garbage Collection,GC)机制是Java语言的一大特色,它负责自动管理内存的回收,释放不再使用的对象所占用的内存。以下是对Java垃圾收集机制的详细介绍: 一、垃圾收集机制概述: 对象存活判断:垃圾收集器定期检查堆内存中的对象,判断哪些对象是“垃圾”,即不再被任何引用链直接或间接引用的对象。内存回收:将判断为垃圾的对象占用的内存进行回收,以便重新使用。

衡石分析平台使用手册-单机安装及启动

单机安装及启动​ 本文讲述如何在单机环境下进行 HENGSHI SENSE 安装的操作过程。 在安装前请确认网络环境,如果是隔离环境,无法连接互联网时,请先按照 离线环境安装依赖的指导进行依赖包的安装,然后按照本文的指导继续操作。如果网络环境可以连接互联网,请直接按照本文的指导进行安装。 准备工作​ 请参考安装环境文档准备安装环境。 配置用户与安装目录。 在操作前请检查您是否有 sud

线性因子模型 - 独立分量分析(ICA)篇

序言 线性因子模型是数据分析与机器学习中的一类重要模型,它们通过引入潜变量( latent variables \text{latent variables} latent variables)来更好地表征数据。其中,独立分量分析( ICA \text{ICA} ICA)作为线性因子模型的一种,以其独特的视角和广泛的应用领域而备受关注。 ICA \text{ICA} ICA旨在将观察到的复杂信号

【软考】希尔排序算法分析

目录 1. c代码2. 运行截图3. 运行解析 1. c代码 #include <stdio.h>#include <stdlib.h> void shellSort(int data[], int n){// 划分的数组,例如8个数则为[4, 2, 1]int *delta;int k;// i控制delta的轮次int i;// 临时变量,换值int temp;in

三相直流无刷电机(BLDC)控制算法实现:BLDC有感启动算法思路分析

一枚从事路径规划算法、运动控制算法、BLDC/FOC电机控制算法、工控、物联网工程师,爱吃土豆。如有需要技术交流或者需要方案帮助、需求:以下为联系方式—V 方案1:通过霍尔传感器IO中断触发换相 1.1 整体执行思路 霍尔传感器U、V、W三相通过IO+EXIT中断的方式进行霍尔传感器数据的读取。将IO口配置为上升沿+下降沿中断触发的方式。当霍尔传感器信号发生发生信号的变化就会触发中断在中断