数仓维度设计模型、事实表、维度表、指标、宽表,常见的三种维度建模设计——星型模型、雪花模型、星座模型

本文主要是介绍数仓维度设计模型、事实表、维度表、指标、宽表,常见的三种维度建模设计——星型模型、雪花模型、星座模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数仓维度设计模型

事实表

事实表,通常我们可以认为它就是数据表

它是指,发生在现实世界中的各种事件所形成的数据,如:

  • 商品购买(产生订单数据)
  • 账户创建(创建账户数据)
  • 退货行为(产生退货数据)

等等,一系列现实世界的操作,会反映在事实表中的记录之上。

维度表

维度表是事实表的补充。维度表的主键可以关联到事实表的外键之上。

维度表描述的是,现实事件信息的补充。

比如,在事实表中仅仅记录了你购买商品的时间戳,但是维度表可以对这个时间戳进行信息补充,如:

  • 当前日期
  • 当日是周几
  • 当日是否是节假日
  • 当日是第几季度
  • 当日是什么季节
  • 当日是全年第几天

等等的一系列额外数据的补充。

又好比,你订单中购买了商品,在事实表中可能记录的只是商品ID,但是基于维度表(商品细节),可以补充:

  • 商品厂家
  • 商品尺寸
  • 商品类别
  • 进价
  • 有效期
  • 供应商

等等一系列补充。

一般情况下,维度表也会分为:

  • 大型维度表
  • 小型维度表

小型维度表,就是如前面对日期做补充的维度表,这类维度表,一年的日期只需要365行数据,就可以对海量的数据进行补充。

大型维度表,就是如前面对商品做补充的维度表,商品越多,维度表内容越多。通常,大型维度表更会愿意被称为:

  • 字典表
  • 同时对应着,事实表也可以称之为 流水表
  • 那么,字典表就是对流水表里面某一列数据的说明。

指标

指标就是对数据分析的需求,或者说是目标Schema。

比如,某个指标是:月热销商品TOP10,这个指标就是一个目标。

在数仓开发中,开发某个指标,就是针对某个目标进行数据建模、分层、处理。

宽表

宽表是指一种大表,是将事实表和维度表进行合并形成的表。

比如日期维度,将对应的日期维度的列,直接添加到事实表中,或者商品维度的列也同步加入到事实表中。

那么这样事实表的列就非常的多,它所涉及到的维度基本都涵盖在了一张表中,俗称All in one

对于这样的表,就称为宽表

基于宽表,我们可以针对这一个表完成许多业务指标的开发。

常见的三种维度建模设计

星型模型

星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。

星形模式的维度建模由一个事实表和一组维表成,且具有以下特点:

a. 维表只和事实表关联,维表之间没有关联;

b. 每个维表主键为单列,且该主键放置在事实表中,作为两边连接的外键;

c. 以事实表为核心,维表围绕核心呈星形分布;

在这里插入图片描述

雪花模型

雪花模式(Snowflake Schema)是对星形模式的扩展。雪花模式的维度表可以拥有其他维度表的,虽然这种模型相比星型更规范一些,但是由于这种模型不太容易理解,维护成本比较高,而且性能方面需要关联多层维表,性能也比星型模型要低。所以一般不是很常用。

在这里插入图片描述

星座模型

星座模式是星型模式延伸而来,星型模式是基于一张事实表的,而星座模式是基于多张事实表的,而且共享维度信息。

前面介绍的两种维度建模方法都是多维表对应单事实表,但在很多时候维度空间内的事实表不止一个,而一个维表也可能被多个事实表用到。在业务发展后期,绝大部分维度建模都采用的是星座模式。

在这里插入图片描述

这篇关于数仓维度设计模型、事实表、维度表、指标、宽表,常见的三种维度建模设计——星型模型、雪花模型、星座模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/640467

相关文章

SQL中redo log 刷⼊磁盘的常见方法

《SQL中redolog刷⼊磁盘的常见方法》本文主要介绍了SQL中redolog刷⼊磁盘的常见方法,将redolog刷入磁盘的方法确保了数据的持久性和一致性,下面就来具体介绍一下,感兴趣的可以了解... 目录Redo Log 刷入磁盘的方法Redo Log 刷入磁盘的过程代码示例(伪代码)在数据库系统中,r

SQL BETWEEN 的常见用法小结

《SQLBETWEEN的常见用法小结》BETWEEN操作符是SQL中非常有用的工具,它允许你快速选取某个范围内的值,本文给大家介绍SQLBETWEEN的常见用法,感兴趣的朋友一起看看吧... 在SQL中,BETWEEN是一个操作符,用于选取介于两个值之间的数据。它包含这两个边界值。BETWEEN操作符常用

python中各种常见文件的读写操作与类型转换详细指南

《python中各种常见文件的读写操作与类型转换详细指南》这篇文章主要为大家详细介绍了python中各种常见文件(txt,xls,csv,sql,二进制文件)的读写操作与类型转换,感兴趣的小伙伴可以跟... 目录1.文件txt读写标准用法1.1写入文件1.2读取文件2. 二进制文件读取3. 大文件读取3.1

C++中初始化二维数组的几种常见方法

《C++中初始化二维数组的几种常见方法》本文详细介绍了在C++中初始化二维数组的不同方式,包括静态初始化、循环、全部为零、部分初始化、std::array和std::vector,以及std::vec... 目录1. 静态初始化2. 使用循环初始化3. 全部初始化为零4. 部分初始化5. 使用 std::a

如何将Python彻底卸载的三种方法

《如何将Python彻底卸载的三种方法》通常我们在一些软件的使用上有碰壁,第一反应就是卸载重装,所以有小伙伴就问我Python怎么卸载才能彻底卸载干净,今天这篇文章,小编就来教大家如何彻底卸载Pyth... 目录软件卸载①方法:②方法:③方法:清理相关文件夹软件卸载①方法:首先,在安装python时,下

前端下载文件时如何后端返回的文件流一些常见方法

《前端下载文件时如何后端返回的文件流一些常见方法》:本文主要介绍前端下载文件时如何后端返回的文件流一些常见方法,包括使用Blob和URL.createObjectURL创建下载链接,以及处理带有C... 目录1. 使用 Blob 和 URL.createObjectURL 创建下载链接例子:使用 Blob

C++ vector的常见用法超详细讲解

《C++vector的常见用法超详细讲解》:本文主要介绍C++vector的常见用法,包括C++中vector容器的定义、初始化方法、访问元素、常用函数及其时间复杂度,通过代码介绍的非常详细,... 目录1、vector的定义2、vector常用初始化方法1、使编程用花括号直接赋值2、使用圆括号赋值3、ve

Pytest多环境切换的常见方法介绍

《Pytest多环境切换的常见方法介绍》Pytest作为自动化测试的主力框架,如何实现本地、测试、预发、生产环境的灵活切换,本文总结了通过pytest框架实现自由环境切换的几种方法,大家可以根据需要进... 目录1.pytest-base-url2.hooks函数3.yml和fixture结论你是否也遇到过

Redis实现延迟任务的三种方法详解

《Redis实现延迟任务的三种方法详解》延迟任务(DelayedTask)是指在未来的某个时间点,执行相应的任务,本文为大家整理了三种常见的实现方法,感兴趣的小伙伴可以参考一下... 目录1.前言2.Redis如何实现延迟任务3.代码实现3.1. 过期键通知事件实现3.2. 使用ZSet实现延迟任务3.3

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA