本文主要是介绍大数据基础:离线与实时数仓区别和建设思路,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
离线与实时数仓区别和建设思路
一、离线数仓与实时数仓区别
二、实时数仓建设思路
离线与实时数仓区别和建设思路
一、离线数仓与实时数仓区别
离线数据与实时数仓区别如下:
对比方面 | 离线数仓 | 实时数仓 |
架构选择 | 传统大数据架构 | Kappa架构 |
建设方法 | 传统数仓主题建模理论 | 传统数仓主题建模理论 |
准确性 | 准确度高 | 准确度随着技术发展,准确度高 |
实时性 | T+1 | 分钟级别、秒级别 |
稳定性 | 稳定性好,方便重算 | 对数据敏感稳定性差,需要考虑数据重新计算 |
数据存储 | HDFS/Hive | Kafka/HBase/Redis/Druid |
吞吐量 | 高 | 较高 |
二、实时数仓建设思路
在实时数仓中计算框架选型建议优先选择Flink,其具有“流批一体”特性,并且在处理复杂业务场景上性能优异,在实时处理中有逐渐替代spark的趋势。
在实时数仓分层方面,实时数仓可采用离线数仓的数据模型进行分层处理,目前建议选择Kafka,实时数仓的数据来源可以为kafka消息队列,这样可以做到队列中的数据既可以写入HDFS用于批量分析,也可以实时处理,下游可以写入数据集市供业务使用。如果实时数据量不大也可以将实时明细层写入ClickHouse、Druid等查询效率高的存储方便下游使用,轻度汇总层对数据进行汇总分析后供下游使用。
在数据存储选型中首要考虑查询效率,其次是插入、更新等问题,这里说的存储时最终计算数据结果的存储,可选择ClickHouse、Hbase、apache Druid、Redis等,频繁更新的数据建议不要采用ClickHouse与Druid。当然存储这块需要具体问题具体分析,不同场景下hbase、redis等都是可选项。
-
📢博客主页:https://lansonli.blog.csdn.net
-
📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
-
📢本文由 Lansonli 原创,首发于 CSDN博客🙉
-
📢停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨
这篇关于大数据基础:离线与实时数仓区别和建设思路的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!