BI商业智能初探(二.设计数据仓库)

2024-02-18 20:38

本文主要是介绍BI商业智能初探(二.设计数据仓库),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一.什么是数据仓库?

 

     数据仓库是什么?这是一个不太容易回答的问题,业界有很多不同的定义,众说纷纭。但是,数据仓库的设计和开发有两种主流的方法,因此我们用此来定“数据仓库是什么? ”。

 

  • Ralph Kimball: if we are building a Kimball data warehouse, we build fact tables and dimension tables structured as data marts. We will end up with a data warehouse composed of the sum of all the data marts.

 

  • Bill Inmon: if our choice is that of an Inmon data warehouse, then we design a (somewhat normalized), physical relational database that will hold the data warehouse. Afterwards, we produce departmental data marts with their star schemas populated from that relational database.

 

      因为Inmon数据仓库有一个实体的关系数据库存在,概念上更加直观,本文采用的是Inmon数据仓库的定义。

 

二. 总体概述

 

      该篇论述数据仓库的设计方法以及如何根据企业分析需求目标建立数据仓库。由于数据仓库是一个很大的概念,本身就包含一个企业或组织的所有业务和活动数据,往往又分为很多的主题,例如销售主题、财务主题、人力主题、原料主题等等很多企业或组织关系的主题化的数据。因此数据仓库的设计和建立不是也个一蹴而就的过程,而是一个不断演进逐步增加的迭代过程。

 

      因此我们在进行数据仓库设计的时候,一般采用的是以应用主题为单位的设计和建立过程,然后再把建立起来的主题化的数据单元(我们称之为Data Mart)进行整合和优化,最终形成一个较为完整的数据仓库。所以本篇所讲的也就是Data Mart的设计。

 

三.Data Mart 的组成    

 

      在设计Data Mart之前,先要清楚Data Mart的组成部分,以及每一部分的具体作用是什么。Data Mart有四个部分组成:指标值(Measures)、维度(Dimension)、层次(Hierachies)、属性(Attributions)

 

     指标值: 该值是一个数值型的数值,用来反应一个组织或企业的经营活动状况。是决策者进行决策的基础,以及判断 决策效果如何的依据。例如销售额、利润等指标值。

 

     维度: 维度提供了不同的视角来观察企业或组织的经营活动状况,如在不同的地区销售收入如何,在不同的时间销售收入如何,以及不同的销售人员完成的销售情况如何等等。

 

     层次: 在查看、统计指标数据时我们有时需要能够在不同的层次上进行。如年---月----日,先看某一年的然后看该年份每一个月的,然后具体到日的。层次为我们们提供了进行这种操作的功能。

 

     属性: 属性值用来描述维度成员,提供一些附加信息是的Data Mart更易于使用。

 

 

四. Data Mart 的设计

 

      在了解了Data Mart的组成之后,我们就可以开始Data Mart的设计了。和所有其他的软件项目一样,我们的Data Mart设计也是来源于需求,来源于决策者的决策需求。

 

      Data Mart具体设计步骤如下:

 

  •  在做决策时决策者需要哪些信息?(确定指标值
  •  在做决策时决策者一般如何查看这些信息?(确定维度层次
  •  有哪些辅助的信息可以帮助决策者更快找到需要的信息?(确定属性

     经过这三个步骤后,我们就得到了设计Data Mart的信息需求。但是,还需要确定在现有的数据中这些信息能不能都找到,如果不能那么我们就需要和决策者进行确认。有没有其他的信息代替,有没有其他的数据源提供这些信息。最终得到的就是Data Mart的真实需求。

 

五. Data Mart结构设计

 

      有了Data Mart的真是需求信息后,我们就能够把这些信息组装成便于进行数据分析的星型结构 或者雪花型结构

具体做法是指标值 形成一张事实表 ,每一个维度形成一张维度表 并通过外键连接到事实表属性 信息添加到维度表,用来提供分析辅助信息。

 

     星型结构雪花型结构 唯一区别就在于对层次 的处理上。星型结构 将层次信息都在同一张维度表存放,有不同键值组合来表示层次结构,这样在进行数据分析时不需要进行联表操作,性能较高,但是存在数据冗余。

 

    雪花行结构 则是把不同的层次存放在不同的表中,通过外键链接起来,这样由于采用了结构化的数据处理消除了数据冗余,对于熟悉数据库设计的人更容易理解,但是查询时需要进行联表操作对性能有一些影响。具体如何选择,要根据情况而定。(本来是要附上图片,但是JavaEye图片插入不了,不知道什么原因,郁闷...

 

 

六.总结

 

      从以上小节可以看出Data Mart的设计并是难,但是为什么数据仓库的设计被人们描述的都很高深呢?这是因为一个企业或组织有很多这样的Data Mart,而且它们之间存在着千丝万缕的关系,由这些关系连接的Data Mart就构成了数据仓库。设计的时候既要考虑分析需求,还要考虑数据的一致性、尽量减少数据冗余、高的查询分析性能,而且要考虑最总系统的可用行。这些都大大的加大数据仓库设计的复杂行,要设计出结构良好的数据仓库不仅需要扎实的理论基础还要有丰富的经验。

 

 

 

 

 

 

 

 

 

这篇关于BI商业智能初探(二.设计数据仓库)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/722392

相关文章

Python中的可视化设计与UI界面实现

《Python中的可视化设计与UI界面实现》本文介绍了如何使用Python创建用户界面(UI),包括使用Tkinter、PyQt、Kivy等库进行基本窗口、动态图表和动画效果的实现,通过示例代码,展示... 目录从像素到界面:python带你玩转UI设计示例:使用Tkinter创建一个简单的窗口绘图魔法:用

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

怎么让1台电脑共享给7人同时流畅设计

在当今的创意设计与数字内容生产领域,图形工作站以其强大的计算能力、专业的图形处理能力和稳定的系统性能,成为了众多设计师、动画师、视频编辑师等创意工作者的必备工具。 设计团队面临资源有限,比如只有一台高性能电脑时,如何高效地让七人同时流畅地进行设计工作,便成为了一个亟待解决的问题。 一、硬件升级与配置 1.高性能处理器(CPU):选择多核、高线程的处理器,例如Intel的至强系列或AMD的Ry

基于51单片机的自动转向修复系统的设计与实现

文章目录 前言资料获取设计介绍功能介绍设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业的大学生,希望您们都共创辉煌!✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 单片机

SprinBoot+Vue网络商城海鲜市场的设计与实现

目录 1 项目介绍2 项目截图3 核心代码3.1 Controller3.2 Service3.3 Dao3.4 application.yml3.5 SpringbootApplication3.5 Vue 4 数据库表设计5 文档参考6 计算机毕设选题推荐7 源码获取 1 项目介绍 博主个人介绍:CSDN认证博客专家,CSDN平台Java领域优质创作者,全网30w+

单片机毕业设计基于单片机的智能门禁系统的设计与实现

文章目录 前言资料获取设计介绍功能介绍程序代码部分参考 设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业的大学生,希望您们都共创辉煌!✌💗 👇🏻 精彩专栏 推荐订

Spring的设计⽬标——《Spring技术内幕》

读《Spring技术内幕》第二版,计文柯著。 如果我们要简要地描述Spring的设计⽬标,可以这么说,Spring为开发者提供的是⼀个⼀站式的轻量级应⽤开发框架(平台)。 作为平台,Spring抽象了我们在 许多应⽤开发中遇到的共性问题;同时,作为⼀个轻量级的应⽤开发框架,Spring和传统的J2EE开发相⽐,有其⾃⾝的特点。 通过这些⾃⾝的特点,Spring充分体现了它的设计理念:在

开题报告中的研究方法设计:AI能帮你做什么?

AIPaperGPT,论文写作神器~ https://www.aipapergpt.com/ 大家都准备开题报告了吗?研究方法部分是不是已经让你头疼到抓狂? 别急,这可是大多数人都会遇到的难题!尤其是研究方法设计这一块,选定性还是定量,怎么搞才能符合老师的要求? 每次到这儿,头脑一片空白。 好消息是,现在AI工具火得一塌糊涂,比如ChatGPT,居然能帮你在研究方法这块儿上出点主意。是不

创业者该如何设计公司的股权架构

本文来自七八点联合IT橘子和车库咖啡的一系列关于设计公司股权结构的讲座。 主讲人何德文: 在公司发展的不同阶段,创业者都会面临公司股权架构设计问题: 1.合伙人合伙创业第一天,就会面临股权架构设计问题(合伙人股权设计); 2.公司早期要引入天使资金,会面临股权架构设计问题(天使融资); 3.公司有三五十号人,要激励中层管理与重要技术人员和公司长期走下去,会面临股权架构设计问题(员工股权激

分布式文件系统设计

分布式文件系统是分布式领域的一个基础应用,其中最著名的毫无疑问是 HDFS/GFS。如今该领域已经趋向于成熟,但了解它的设计要点和思想,对我们将来面临类似场景 / 问题时,具有借鉴意义。并且,分布式文件系统并非只有 HDFS/GFS 这一种形态,在它之外,还有其他形态各异、各有千秋的产品形态,对它们的了解,也对扩展我们的视野有所俾益。本文试图分析和思考,在分布式文件系统领域,我们要解决哪些问题、有