数据仓库结构设计与实施-拆书稿（维度建模理论）

本文主要是介绍数据仓库结构设计与实施-拆书稿（维度建模理论），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

拆书稿-数据仓库结构设计与实施

在这里插入图片描述

本篇文章内容目录

第一部分：数据仓库总体结构（原书第二章）

1 金字塔结构

2 元数据与模型

3 映像

4 数据仓库三要素

5 多维总计方阵

6 方阵和数据集市的区别

第二部分：数据仓库设计与应用开发（原书第五章）

数据仓库层次结构

数据仓库概念设计

数据仓库逻辑设计

数据仓库物理设计

正文开始

第一部分：数据仓库总体结构（原书第二章）

1 金字塔结构

金字塔从底层向上，体现出强大的收敛与聚合功能，层面越高越能高度地概括更丰富、更有意义的信息；层面越低，数据体量越大，细节程度越高，信息越具体。每个层面相互依托又互相关联。
在这里插入图片描述
数据仓库的金字塔结构和层次1

数据仓库的金字塔结构和层次2

数据仓库结构生态图

在这里插入图片描述
其中上图中有一个概念叫：过渡区，它为什么存在？并且有什么存在的价值？
① 为什么存在？

提前可以做数据预处理
来自数据源的数据在到达数据仓库之前，需要经过一些中间处理过程，而ETL常常是批量执行，是一些通用任务，无法完成定制化个性统计需求。而在数据源到数据仓库中间建立过渡区，可以针对特定数据进行预处理。例如：过滤空值、过滤多余字段、进行数据类型转换等等。

② 存在的价值？

第一、数据源和数据仓库进行隔离
第二、过渡区可作为数据接收切面，接纳不同数据源，数据仓库只需要从过度区获取数据。架构清晰
第三、过度区可以在数据允许的条件下提供数据支持，减少数据源数据提取的压力。

2 元数据与模型

分类：元数据主要有两种类型的模型

数据模型
应用模型

元数据定义：说明数据的数据。像数据库中的数据字典，或者数据表与表之间的关系。
作用：用于描述从操作型系统到分析型系统的映射，描述数据源、数据更新、总计数据的算法和数据提取的频率。
模型的建立流程：概念模型、逻辑模型、物理模型

3 映像

映像是一系列结构化处理过程，能够引导数据从一个或者多个源系统到达目标系统。在这一过程当中存在一系列必要的转换处理。
映像包括：

源定义
目标定义
转换定义

在转换过程中就可以添加数据预处理，过滤多余数据项，也可以完成数据转换映射。
个人理解：在此过程中，通过此元数据管理，可以做一部分的规范化处理。例如：源表和目标表的格式规范化（统一格式：数据库模式名_表名），完成转换后输出的数据集命名规范，转换过程中数据集的分隔符规范等等。

数据映像从数据源到目标
在这里插入图片描述

4 数据仓库三要素

在这里插入图片描述

5 多维总计方阵

是从数据仓库的事实表和有关维表中通过汇总、运算处理产生出来的综合数据，从结构和形式上更接近于最终用户对管理决策支持分析的要求，是为用户提供的具有多维数据查询和分析能力的视图。
在这里插入图片描述
创建方阵是将综合信息带给用户的必经之路，通过预先费时的计算和链接操作而生成的完好方阵系列，而不是在联机执行时间临时处理。方阵的存在大大减少了访问时间和复杂性，也降低了成本。

方阵的类型

多维联机分析处理方阵
虚拟方阵
奠基石式方阵–基础方阵
嵌入式方阵
稀疏方阵

6 方阵和数据集市的区别

数据集市

数据集市是按照需求定制化建立的，代表的数据价值只局限于需求的边界范围内。
针对性较强，可能在市场，营销，账务等业务线的数据集市都是不同的。不可重用，没有灵活性。并且容易产生数据孤岛，数据价值表现的很局限。
数据集市的种类统计粒度可能不同，不利于数据分析

从上面定义可知，数据集市的统计边界更小一点，可能只是针对某个业务线，某个部门。而方阵是基于整个数据仓库，通过整个数据仓库的相关表来进行统计汇总。

第二部分：数据仓库设计与应用开发（原书第五章）

数据仓库层次结构

在这里插入图片描述

数据仓库概念设计

概念模型是建立模型的初始阶段，主要描述与业务有关的重要实体以及相互之间的关系。
该阶段主要是确定系统建模的边界和范围。和行业经验和业务流程息息相关，在建模范围内，确定实体有哪些，梳理实体间的关系
具体方法可以参照5W1H： who、what、when、where、why、how
结果：实体关系图（不需要添加实体的属性）