大数据处理系统的架构

2024-01-28 08:28
文章标签 架构 数据处理系统

本文主要是介绍大数据处理系统的架构,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大数据处理系统的架构介绍

Lamdba架构

Lambda 架构是一种用于处理大规模数据的设计模式,旨在结合批处理和实时处理,以应对对大量数据进行高效处理的需求。Lambda 架构的核心思想是将数据处理流程分为批处理层和实时处理层,并将它们整合在一起,以获得高可扩展性和灵活性。

Lambda 架构的主要组成部分包括:

  1. 批处理层(Batch Layer):

    • 存储: 使用分布式存储系统(如 Apache Hadoop HDFS)存储原始数据。
    • 处理: 批处理层采用批处理引擎(如 Apache MapReduce、Apache Spark)对原始数据进行离线处理和分析。
    • 目的: 生成离线批处理视图,以支持全面的数据分析和查询。
  2. 实时处理层(Speed Layer):

    • 存储: 使用分布式实时数据库(如 Apache HBase、Cassandra)存储实时数据流。
    • 处理: 实时处理层采用流处理引擎(如 Apache Storm、Apache Flink)对实时数据进行流式处理。
    • 目的: 提供低延迟的、近实时的数据处理,以支持实时查询和分析。
  3. 服务层(Serving Layer):

    • 存储: 使用分布式数据库或索引(如 Apache HBase、Cassandra、Elasticsearch)存储批处理层和实时处理层的计算结果。
    • 处理: 在服务层上建立查询服务,以支持用户查询和应用程序查询。
    • 目的: 提供查询接口,使用户能够检索批处理和实时处理的结果。

Lambda 架构的优势包括:

  • 综合处理: 结合了批处理和实时处理,可以满足广泛的数据处理需求,从离线分析到实时查询。
  • 容错性: 由于数据处理被分为两个层次,即使在实时层发生故障时,批处理层的结果仍然可用,反之亦然。
  • 灵活性: 可以选择不同的技术栈用于批处理和实时处理,以适应不同的需求。

然而,Lambda 架构也面临一些挑战,如系统复杂性、维护成本以及对两个处理层之间一致性的管理。为了解决一致性问题,有时候会使用一个合并层(Merge Layer)来合并批处理和实时处理的结果。此外,近年来出现了一些替代模式,如 Kappa 架构,它更加强调使用流式处理引擎来处理所有数据。选择 Lambda 架构还是其他模式通常取决于具体的需求和系统设计的目标。

Lambda 架构的三个层次包括批处理层、加速层(实时处理层)和服务层。这三个层次协同工作,以实现全面、实时、低延迟的大数据处理和查询。以下是对每个层次的详细描述:

1. 批处理层(Batch Layer):

  • 存储: 批处理层使用分布式存储系统(如 Apache Hadoop HDFS)来存储原始数据。这些数据以不可变(immutable)的方式存储,新的批处理任务生成的结果会追加到存储系统中。

  • 处理: 批处理层采用批处理引擎(如 Apache MapReduce、Apache Spark)来执行离线的、全面的数据处理和分析。这些任务可以包括数据清洗、转换、计算聚合指标等。由于数据在这一层是不可变的,每次处理都会生成新的数据集,而不会修改原始数据。

  • 目的: 主要目标是生成离线批处理视图,这些视图包含经过处理和计算的数据结果,以支持全面的数据分析和查询。由于处理是离线的,可能需要一定的时间间隔来生成和更新这些批处理视图。

2. 加速层(实时处理层,Speed Layer):

  • 存储: 加速层使用分布式实时数据库(如 Apache HBase、Cassandra)来存储实时数据流。这些存储系统具有低延迟、高吞吐量的特性,支持实时写入和读取。

  • 处理: 加速层采用流处理引擎(如 Apache Storm、Apache Flink)来处理实时数据流。流处理引擎允许在数据到达时立即进行处理和计算,以提供低延迟的实时数据处理。

  • 目的: 提供低延迟的、近实时的数据处理和计算。加速层的结果可以用于实时查询、监控、仪表盘等实时应用场景。由于流处理是实时的,因此可以更快地响应数据变化。

3. 服务层(Serving Layer):

  • 存储: 服务层使用分布式数据库或索引(如 Apache HBase、Cassandra、Elasticsearch)存储批处理层和实时处理层的计算结果。这些存储系统通常用于支持快速查询和检索。

  • 处理: 在服务层上建立查询服务,以支持用户查询和应用程序查询。查询服务可以通过接口提供数据查询功能,并从批处理层和实时处理层的结果中检索数据。

  • 目的: 提供查询接口,使用户能够检索批处理和实时处理的结果。服务层充当用户与 Lambda 架构的交互点,为用户提供全面的数据查询能力。

    </

这篇关于大数据处理系统的架构的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/653051

相关文章

mybatis的整体架构

mybatis的整体架构分为三层: 1.基础支持层 该层包括:数据源模块、事务管理模块、缓存模块、Binding模块、反射模块、类型转换模块、日志模块、资源加载模块、解析器模块 2.核心处理层 该层包括:配置解析、参数映射、SQL解析、SQL执行、结果集映射、插件 3.接口层 该层包括:SqlSession 基础支持层 该层保护mybatis的基础模块,它们为核心处理层提供了良好的支撑。

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

系统架构设计师: 信息安全技术

简简单单 Online zuozuo: 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo :本心、输入输出、结果 简简单单 Online zuozuo : 文章目录 系统架构设计师: 信息安全技术前言信息安全的基本要素:信息安全的范围:安全措施的目标:访问控制技术要素:访问控制包括:等保

利用命令模式构建高效的手游后端架构

在现代手游开发中,后端架构的设计对于支持高并发、快速迭代和复杂游戏逻辑至关重要。命令模式作为一种行为设计模式,可以有效地解耦请求的发起者与接收者,提升系统的可维护性和扩展性。本文将深入探讨如何利用命令模式构建一个强大且灵活的手游后端架构。 1. 命令模式的概念与优势 命令模式通过将请求封装为对象,使得请求的发起者和接收者之间的耦合度降低。这种模式的主要优势包括: 解耦请求发起者与处理者

创业者该如何设计公司的股权架构

本文来自七八点联合IT橘子和车库咖啡的一系列关于设计公司股权结构的讲座。 主讲人何德文: 在公司发展的不同阶段,创业者都会面临公司股权架构设计问题: 1.合伙人合伙创业第一天,就会面临股权架构设计问题(合伙人股权设计); 2.公司早期要引入天使资金,会面临股权架构设计问题(天使融资); 3.公司有三五十号人,要激励中层管理与重要技术人员和公司长期走下去,会面临股权架构设计问题(员工股权激

【系统架构设计师】黑板架构详解

黑板架构(Blackboard Architecture)是一种软件架构模式,它模仿了多个专家系统协作解决问题的场景。在这种架构中,“黑板”作为一个中央知识库,存储了问题的当前状态以及所有的解决方案和部分解决方案。黑板架构特别适合于解决那些没有确定算法、需要多个知识源(或称为“专家”)共同作用才能解决的复杂问题。 一、黑板架构的组成 黑板架构主要由以下几个部分组成: 黑板(Blackboa

Java后端微服务架构下的API限流策略:Guava RateLimiter

Java后端微服务架构下的API限流策略:Guava RateLimiter 大家好,我是微赚淘客返利系统3.0的小编,是个冬天不穿秋裤,天冷也要风度的程序猿! 在微服务架构中,API限流是保护服务不受过度使用和拒绝服务攻击的重要手段。Guava RateLimiter是Google开源的Java库中的一个组件,提供了简单易用的限流功能。 API限流概述 API限流通过控制请求的速率来防止

Arch - 演进中的架构

文章目录 Pre原始分布式时代1. 背景与起源2. 分布式系统的初步探索3. 分布式计算环境(DCE)4. 技术挑战与困境5. 原始分布式时代的失败与教训6. 未来展望 单体时代优势缺陷单体架构与微服务架构的关系总结 SOA时代1. SOA架构及其背景1. 烟囱式架构(Information Silo Architecture)2. [微内核架构](https://www.oreilly.c

新一代车载(E/E)架构下的中央计算载体---HPC软件架构简介

老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己,无利益不试图说服别人,是精神上的节能减排。 无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事.而不是让内心的烦躁、焦虑、毁掉你本就不多的热情和定力。 时间不知不觉中,快要来到夏末秋初。一年又过去了一大半,成

Linux 云计算底层技术之一文读懂 Qemu 架构

Qemu 架构概览 Qemu 是纯软件实现的虚拟化模拟器,几乎可以模拟任何硬件设备,我们最熟悉的就是能够模拟一台能够独立运行操作系统的虚拟机,虚拟机认为自己和硬件打交道,但其实是和 Qemu 模拟出来的硬件打交道,Qemu 将这些指令转译给真正的硬件。 正因为 Qemu 是纯软件实现的,所有的指令都要经 Qemu 过一手,性能非常低,所以,在生产环境中,大多数的做法都是配合 KVM 来完成