大数据基础：离线与实时数仓区别和建设思路

本文主要是介绍大数据基础：离线与实时数仓区别和建设思路，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

离线与实时数仓区别和建设思路

一、离线数仓与实时数仓区别

二、实时数仓建设思路

离线与实时数仓区别和建设思路

一、离线数仓与实时数仓区别

离线数据与实时数仓区别如下：

对比方面	离线数仓	实时数仓
架构选择	传统大数据架构	Kappa架构
建设方法	传统数仓主题建模理论	传统数仓主题建模理论
准确性	准确度高	准确度随着技术发展，准确度高
实时性	T+1	分钟级别、秒级别
稳定性	稳定性好，方便重算	对数据敏感稳定性差，需要考虑数据重新计算
数据存储	HDFS/Hive	Kafka/HBase/Redis/Druid
吞吐量	高	较高

二、实时数仓建设思路

在实时数仓中计算框架选型建议优先选择Flink，其具有“流批一体”特性，并且在处理复杂业务场景上性能优异，在实时处理中有逐渐替代spark的趋势。

在实时数仓分层方面，实时数仓可采用离线数仓的数据模型进行分层处理，目前建议选择Kafka，实时数仓的数据来源可以为kafka消息队列，这样可以做到队列中的数据既可以写入HDFS用于批量分析，也可以实时处理，下游可以写入数据集市供业务使用。如果实时数据量不大也可以将实时明细层写入ClickHouse、Druid等查询效率高的存储方便下游使用，轻度汇总层对数据进行汇总分析后供下游使用。

在数据存储选型中首要考虑查询效率，其次是插入、更新等问题，这里说的存储时最终计算数据结果的存储，可选择ClickHouse、Hbase、apache Druid、Redis等，频繁更新的数据建议不要采用ClickHouse与Druid。当然存储这块需要具体问题具体分析，不同场景下hbase、redis等都是可选项。