本文主要是介绍构建数据仓库的基本步骤,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
确定主题
确定数据分析的主题.eg:分析某年某月某地区的各种啤酒销售情况.
主题要体现出某一方面的各个分析维度和统计量度之间的关系.确定度量
度量是分析的技术指标,一般为数值型数据.eg:某地区某派出某粒度所发生的警情积分值- 确定分析粒度
采用”最小粒度原则”来满足度量的不同聚合程度.eg:将时间粒度精确到秒可以满足小时,天,周….等不同粒度的度量值 - 确定维度表
分析主题的各个维度.eg:主题:分析某年某月某地区的各种啤酒销售情况.
则维度应该有时间维 , 地域维 , 产品维 .基于不同维度,可以看到各种不同维度的度量值. - 确定事实表
将原始数据表和各个维度表进行关联,生成事实表.
ps:考虑到数据源存在脏数据,在关联时候应该使用外连接.将各个维度的代理键存放到事实表中.另外,度量值将由粒度对源数据进行聚合来得到.
这篇关于构建数据仓库的基本步骤的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!