浅谈维度建模、数据分析模型,何为数据仓库,与数据库的区别

本文主要是介绍浅谈维度建模、数据分析模型,何为数据仓库,与数据库的区别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

往期推荐

大数据HBase图文简介-CSDN博客

数仓分层ODS、DWD、DWM、DWS、DIM、DM、ADS-CSDN博客

数仓常见名词解析和名词之间的关系-CSDN博客

数仓架构:离线数仓、实时数仓Lambda和Kappa、湖仓一体数据湖-CSDN博客

0. 前言

  1. 1991年,数据仓库之父 比尔·恩门 著书《Building the DataWarehouse》,要求构建数据仓库时,遵循范式建模,即从关系型数据库中提取的范式数据,仍按范式存储到数据仓库中,这样就导致数仓中有很多小表,查询的时候必然会有很多表的关联,极大地影响查询效率和性能。
  2. 1994年,拉尔夫·金博尔 著书《The DataWarehouse Toolkit》,提出维度建模和数据集市的概念维度建模是反范式建模,自下而上,然而这种方式仍有缺点:那就是每个业务平台的数据有各自的数据集市,集市之间数据隔离,存在数据不一致、重复的情况。
  3. 1998-2001年,比尔·恩门派和金博尔派合并,比尔·恩门提出CIF架构:数仓分层,不同层采用不同的建模方式,同时解决了数据不一致和查询效率低的问题。

基于以上,有了范式建模、维度建模、实体建模三种主要建模方式 

0.1 浅谈维度建模

维度建模主要面向分析场景,分为维度表和事实表,是数据仓库中最常用的数据建模技术之一,建模过程和关系型数据库的建表很像,下图中,商家ID、产品ID、时间ID就是不同的维度列,而订单额就是度量值维度+度量值=事实表每个维度列同时也有自己的维度表

那么基于以上,有如下两种数据分析模型

0.2 数据分析模型

对比

  • 查询效率:雪花模型有很多小表,看起来更为范式化,但这导致查询时需要关联很多表,查询效率比星型模型低
  • 数据冗余:星型模型的表通常是宽表,伪范式,即表有很多字段,这导致星型模型存在较多的数据冗余

1. 数据仓库

1.1 何为数据仓库

  • 数据仓库(Data Warehouse)即是存储历史数据的仓库,简写为DW或DWH
  • 数据仓库的目的是构建面向分析的集成化数据环境(OLAP),为企业提供决策支持
  • 仓库的数据来自各个业务平台,业务平台中的数据形式多种多样,可能是 MySQL等关系数据库里的结构化数据,可能是Word、Excel 文档中的非结构化数据,还可能是 HTML、XML 等自描述的半结构化数据。这些业务数据经过一系列的ETL(抽取、转换、加载),最终以一种统一的格式装载进数据仓库。
  • 数据仓库本身并不“生产”任何数据,也不需要“消费”任何的数据,只是在内部对数据做了一些数据清洗转移操作,好比流水线,数据来源于外部,最终开放给外部应用。

1.2 数据仓库特征

  • 面向主题
    传统数据库中,最大的特点是面向应用进行数据的组织,各个业务系统可能是相互分离的。而数据仓库则是面向主题的。主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象
  • 集成性
    通过对分散、独立、异构的数据库数据进行ETL并汇总得到了数据仓库的数据,这样保证了数据仓库内的数据的一致性。 数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前,必然要经过清洗、一致性等操作,这一步是数据仓库建设中最关键、最复杂的一步。
  • 反应历史变化数仓反应的是某段时间内的历史数据,这也是数仓和数据库的区别之一。
  • 不可修改:数据进入数据仓库以后,一般情况下被较长时间保留。数据仓库中一般有大量的查询操作,但修改删除操作很少,只需定时加载更新即可。
  • 时效性:数仓存储的是历史数据,按照时间顺序追加,有时间属性。数仓用户通过分析企业过去一段时间业务的经营状况,挖掘潜在价值。但是分析的结果只能反映过去某段时间的情况,随着业务变化时间改变,数仓中的数据就会失去价值,需要载入新数据。

1.3 数据仓库和数据库的区别

数据库与数据仓库的区别实际讲的是 OLTP 与 OLAP 的区别:

  • 操作型处理,叫联机事务处理 OLTP,也可以称面向交易的处理系统,针对日常事务处理。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。传统的数据库系统作为数据管理的主要手段,主要用于操作型处理,像MYSQL,Oracle等关系型数据库一般属于OLTP。
  • 分析型处理,叫联机分析处理 OLAP,一般针对某些主题的历史数据进行分析,支持管理决策。

首先要明白,数据仓库的出现,并不是要取代数据库。数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储业务数据,数据仓库存储的一般是历史数据

  • 数据库设计是尽量避免冗余,一般针对某一业务应用进行设计,比如一张简单的User表,记录用户名、 密码等简单数据即可,符合业务应用,但是不符合分析。
  • 数据仓库在设计是有意引入冗余,依照分析需求,分析维度、分析指标进行设计。 数据库是为捕获数据而设计,数据仓库是为分析数据而设计。

1.4 为什么不直接用业务平台的数据而要建设数仓? 

实际在数仓出现之前,确实是这么做的,但是有很多数据分析的先驱者当时已经发现,简单的直接访问方式很难良好工作,原因如下:

  • 由于安全或其他因素不能直接访问某些业务数据。
  • 业务平台存储的是当前数据,存在于RDBMS,并且数据版本变更很频繁,而大数据需要的是历史数据,读多改少。

  • 各个平台数据存储是隔离的,且数据格式不统一,难以建立、维护、汇总数据。

  • 业务系统的表结构(OLTP)为事务处理性能而优化,有时并不适合查询与分析(OLAP)

  • 有时用户要看到的某些数据字段在数据库中并不存在,是后期聚合处理生成的。

  • 业务平台是跑业务的,本身就占用了一定数据库读写资源,大数据分析再从每个表中频繁读取数据,影响业务平台的性能,不够专业。

1.5 以银行业务为例 

  • 数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,可以简单地理解为用数据库记账。
  • 数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又多,消费交易又多,那么该地区就有必要设立 ATM了。 显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。
  • 事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。 而分析系统是事后的,它要提供关注时间段内所有的有效数据。这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。
  • 数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”

参考博客:数据仓库系列 1:什么是数据仓库,它与传统数据库有什么不同?-CSDN博客

这篇关于浅谈维度建模、数据分析模型,何为数据仓库,与数据库的区别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1128462

相关文章

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言