再见了Kafka,MQ新王Pulsar大厂实践!

2024-03-02 06:20

本文主要是介绍再见了Kafka,MQ新王Pulsar大厂实践!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击下方“JavaEdge”,选择“设为星标”

第一时间关注技术干货!

关注我,紧跟本系列专栏文章,咱们下篇再续!

作者简介:魔都技术专家兼架构,多家大厂后端一线研发经验,各大技术社区头部专家博主,编程严选网创始人。具有丰富的引领团队经验,深厚业务架构和解决方案的积累。

负责:中央/分销预订系统性能优化;活动&优惠券等营销中台建设;交易平台及数据中台等架构和开发设计。




本文介绍公司选择 Apache Pulsar 的原因,使用 Apache Pulsar 的场景,Apache Pulsar 实践应用中遇到的问题及使用 Apache Pulsar 的未来规划。

1 背景

传统金融公司或券商一般使用统一接入服务或组件来处理对外业务。接收到用户请求后,根据业务规则将请求转对应业务系统 / 模块。有些请求会转发给MQ,请求写入后,下游业务系统从MQ获取请求,并在处理后通过MQ原路返给客户,整个请求过程封闭运行,功能有限。

1.1 消息队列下传统架构带来的挑战

采用上述传统架构,目前只支持MQ,但难以获取MQ细节。由于是定制系统,支持语言有限。现有MQ对业务发展和业务创新不足:

  • 黑盒系统,难观测,MQ是黑盒系统,难观测到架构细节

  • 直接交换(Direct Exchange),无法路由:由于架构目前只支持MQ,无法支持需要路由的场景

  • 弱校验接入,安全风险高:现有系统的密码认证、校验等检验较弱,安全风险高

  • 定制系统,有限语言支持:定制系统接入语言的支持有限,导致我们选择范围少,难以在原有系统基础上改造

随业务扩展和架构改进,公司现有MQ系统 / 组件面临挑战,而系统现存问题如安全性等在金融场景中刻不容缓。

2 金融场景的业务需求

业务需求主要三类:

2.1 身份识别 & 安全控制

身份识别,主要用于确定接入消息队列的客户端和接入者的身份信息,指定相应的安全规则,拒绝不合法接入者,进而实现预期的安全要求。从最基础的层面看,需要识别控制接入的系统、IP,根据业务场景及特定需求,进行权限限制。

2.2 路由分发

指消息根据规则由写入队列路由至对应的队列。现有MQ支持场景有限,若想支持更多,需投入大量时间精力开发(涉及上下游系统改造),同时引入其他问题。较好解决方案是MQ系统原生支持更多模式及特性,如 TOPIC 模式、流式消息处理。若MQ系统支持路由,则系统的接入复杂度大大降低,可通过更优方式操作接入层,每个系统只需要对接一组 topic,路由负责分发;也可更有针对性优化性能(路由、转发、协议转化都是消耗性能的操作)。

原系统架构通讯机制是点对点,封闭运行,请求消息无法共享,只能间接采用适配器或日志采集方式实现分发,此类做法难以有效满足实时性要求。

2.3 审计

消息发布者 / 接收者都属于整个系统的参与者,且是重中之重。系统安全性主要影响系统的所有参与者;因此,从安全角度出发,对消息审计要求较高。另一急迫需求是对消息流向控制。若可进行身份识别和安全控制,则可在审计时完善和优化安全信息,进而保证在业务入口处拒绝无效、非法请求,保证内部系统健壮。记录接入的消息发布者 / 接收者信息还可用于异常情况监控、稽核审计。

3 新增业务的系统需求

新增业务对消息系统提出更高要求,主要包括可用性、消息发送延迟、扩缩容、消息回溯。

3.1 需求一:高可用、低延迟

互联网行业,高可用低延迟是系统基本要求。从单点到灾备,到同城跨机房,再到异城跨多中心或先跨城、灾备,再跨城多中心(两地三中心)模式都已常态,很多公司业务系统正在或将往此发展。这样的系统对高可用、低延迟要求较高。因此需考虑当系统复杂度增加(如灾备、跨城等场景)时,如何将延迟降到最低。

3.2 需求二:快速扩容与恢复

金融业业务主要特性之一是请求可能在某时间段或某个周期激增,过了这个时间窗口,流量逐渐正常。该特性要求系统可快速横向扩缩容,出于成本考虑,按最高流量部署整个系统架构显然不合理。最好解决方案是系统可根据单层流量合理安排系统架构或系统部署方式,在流量突然增加时,系统可快速扩容,支撑业务。最理想的情况是系统的所有组件都有快速扩缩容、恢复能力。

3.3 需求三:消息有序、消息防重

一些场景需保证消息有序或防重。经常对一些接口进行幂等操作,若可保证上游消息不重复,就可减小下游压力。

3.4 需求四:可回溯、序列化

若业务系统出现问题,但测试环境难复现,就要引入消息回溯,即重放一遍出现问题的时间窗口中的所有请求,验证是否能复现并排查,这可大大减轻排查工作量。

还可以此进行灰度验证和并行验证。

4 选择 Apache Pulsar

明确业务需求和系统需求,发现 Apache Pulsar 完美契合。

4.1 集群模式

支持跨集群同步。建设系统双活,跨集群的地域复制在客户端无感的情况下实现消息同步。

4.2 算存分离

根据使用情况横向扩展存储 / 计算,客户端对此操作无感知。基于二级存储,扩展消息的使用场景,为数据分析、消息审计提供可能。

4.3 客户端接入认证模块插件化

支持自定义开发。因业务需求,在客户端接入时,要求鉴权、认证,有效保证消息的来源可靠、可控。

4.4 完善的 Rest API

可查看队列情况。之前使用的消息系统有很好性能,但可观测性欠缺,排障困难,同时消息系统管理方式原始,难适配大规模系统管理要求。而 Apache Pulsar 完善 Rest API 不仅可获取系统运行指标,且有助集群高效管理。

4.5 Functions

基于 Functions 可实现消息的路由开发、过滤和统计等。

4.6 消息重放

可设置消息的持久化模式和过期时间,允许消息重放。

4.7 多语言支持

快速便捷接入。

5 Pulsar业务实践

使用 Apache Pulsar 构建统一消息平台,期望整合客户、交易、行情、资金四大数据流,应用于行情分发、实时风控等。本文主要介绍应用场景下的新架构的优势和不足,以及其对开发、运维影响。

5.1 请求路由——简化系统

消息路由流程如图。从 A 组件发请求写入 Topic A,然后路由模块将 topic 信息路由,分发到多个对应 topic,订阅这些 topic 的下游组件就可处理相关消息。组件 A 只需向固定队列写消息,无需关注 Topic B、C、D 信息,下游系统只需了解接收消息的队列,无需关注 Topic A,从而简化整个网络结构。

d4b4f31de90ae699a7e5a9e888be7454.png

这种消息路由模式简化了系统整体架构,目前路由系统仍待优化:

  • 虽路由分发的工作量减轻,但排查问题步骤增加。如组件 A 发消息后,组件 B 未收到消息时,需先检查组件 A 是否写入 Topic A、路由模块是否成功路由该消息,再看组件 B 是否正确订阅该消息

  • 目前测试效果看,由于消息链路变长,时延增加

  • 由于每个队列的消息都会持久化,导致存储和队列中都出现数据冗余

  • 路由模块是新增模块,运维学习成本高

5.2 数据广播——降低时延

数据广播采用发送 / 订阅模式,用于同步消息。之前不需要同步行情到业务系统或通过其他方式(如同步数据库)实现。但随业务增长,同步时效和用户体验竞争度越来越激烈。如何让用户更快看到信息?以同步行情场景为例,先同步数据库再查阅的方式,时延相对较长;而广播模式的业务系统只需订阅所需 Topic,查阅时即可直接读数据,有效降低时延。

f37e3c6dba0d5117455fb18bb13cc350.png

5.3 消息通知——安全管控

虽消息通知涉及业务较少,但这业务场景很重要。整体业务流程图如下。由于信号源不唯一,因此消息发布到计算引擎后,计算引擎需根据信号源的信息进行逻辑、安全等计算。计算完成后调起Task,再由激活的 Task 向相关业务系统发业务请求,执行后将结果返给发起信号源的服务,该服务根据返回的结果触发下一个信号源。

该场景涉及业务对安全和管控要求严格,不仅要限制信号源发送的消息或信号,截断 / 过滤某些信号,还要对返回结果处理:哪些可返回,哪些要过滤或转换成其他内容。如不使用MQ,消息源会直接发消息给计算引擎,在计算引擎执行安全或管控策略后,将消息发到 Task;Task执行完成后,其结果要再进行一轮安全管控处理。这部分重复操作对性能影响大,同时策略更新、信号状态查看的时效性没那么实时。

引入Pulsar后,将管控审计模块剥离,专门针对信号队列和结果队列进行过滤、审计、统计,并实时输出结果到管理端。运维或审计人员看到这些信息后,可控制、更新相应策略。这模式不仅精简数据流,还可增加数据补充渠道,也更清晰定义各服务模块边界。

7868c05bfa02c0fe8bafdb76a1c8dd23.png

6 问题发现与解决方案

6.1 实现 REQ-REP 模式

通过总线模式进行兼容。

常见调用方式是客户端发起调用请求,服务端处理完成后返回响应。但引入总线(同步转异步),在多节点部署场景,节点 1 发请求,服务端收到请求后返回处理结果,所有节点都要监听这条处理结果,节点 2 收到归属节点 1 的响应消息时咋处理?节点 2 要先订阅并获取回包的消息,判断是否自身节点发起请求的响应,若不是,则丢弃该消息。若按这模式实现,则发消息时,每个节点都要缓存自身发送的消息 ID;服务端处理完后,按协议回包数据要带上请求的消息 ID,每个节点都订阅获取所有回包,并校验缓存中是否有该消息 ID,若不存在,则丢弃消息。

1765b4634e9ffe440211d6482a72e673.png

该实现存在严峻问题:节点发起一个查询大量数据的请求时,假定 Apache Pulsar 设置一个消息大小为8M,TPS 为 1000,那是不是每个节点都要收到这么多请求的回包流量呢?假如有 5 个节点,每个节点本应该只接收 200 个请求的回包流量就够了,但现在的模式需要每个节点承受 1000 个请求的回包流量,而其目的仅仅是为了过滤操作。如果节点负载性能达到上限,需要扩容节点,将导致网络带宽成倍增加。由于 Apache Pulsar 可以支持大量 Topic,虽然通过给每个节点配置一个回包队列等方式可以解决这一问题,但我们想尝试通过 broker 的 FILTER 功能,来解决该问题。

6.2 实现读写分离

广播场景涉及读写分离。若增加大量订阅节点,最好避免将所有节点的链接集中在 Topic 的 owner broker。针对该问题,可行的解决方案是合理分配使用的 Topic 和 Partition。

Apache Pulsar 2.7.2 还不支持读写分离,Apache Pulsar 升级到 2.8就可轻松实现读写分离,满足消息广播。

4bcdc7c5653f115212afc4321b08444d.png

6.3 解决多网卡问题

基于公司网络安全考虑,内部存在多种网络分区及网段,不同的网络分区 / 网段使用不同IP,服务器存在多个网卡,供跨分区系统间通信。目前若使用 IP 注册 broker,只能注册某网段的 IP;如果使用域名注册 broker,则不同网络区域的 DNS 解析又需要进行不同的配置。若broker支持多网卡通信,这些问题就没了。目前解决方案是用 proxy 代理客户端的请求,外部系统也只连到 proxy,我们也会为 proxy 增加一些高可用配置。

dcdb4f166225a46e1a1afc209bc72f63.png

7 容灾

先在单机房、单集群小规模运行。作为业务系统的基础设施,Pulsar自身可用性极为重要,建设同城双中心单集群的双活规划:

8bb7ca013657d99ae0b7a54b528c00c3.jpeg

写在最后

编程严选网(www.javaedge.cn),程序员的终身学习网站已上线!

点击阅读原文,即可访问网站!

欢迎长按图片加好友,我会第一时间和你分享软件行业趋势面试资源学习途径等等。

664c912c86117fa4084fb691a42eb7d0.jpeg添加好友备注【技术群交流】拉你进群,更多教程资源应有尽有

关注公众号后,在后台私信:

  • 回复【架构师】,获取架构师学习资源教程

  • 回复【面试】,获取最新最全的互联网大厂面试资料

  • 回复【简历】,获取各种样式精美、内容丰富的简历模板

  • 回复 路线图,获取直升Java P7技术管理的全网最全学习路线图

  • 回复 大数据,获取Java转型大数据研发的全网最全思维导图

  • 微信【ssshflz】私信 【副业】,进副业交流群

  • 点击阅读原文,即可访问程序员一站式学习网站

 

918e3b103b49cd4c853b7b9a6c7bd54d.png

最近在准备面试,为大家准备一份2024最新最全Java学习路线一条龙

这篇关于再见了Kafka,MQ新王Pulsar大厂实践!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/765200

相关文章

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

搭建Kafka+zookeeper集群调度

前言 硬件环境 172.18.0.5        kafkazk1        Kafka+zookeeper                Kafka Broker集群 172.18.0.6        kafkazk2        Kafka+zookeeper                Kafka Broker集群 172.18.0.7        kafkazk3

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

Prometheus与Grafana在DevOps中的应用与最佳实践

Prometheus 与 Grafana 在 DevOps 中的应用与最佳实践 随着 DevOps 文化和实践的普及,监控和可视化工具已成为 DevOps 工具链中不可或缺的部分。Prometheus 和 Grafana 是其中最受欢迎的开源监控解决方案之一,它们的结合能够为系统和应用程序提供全面的监控、告警和可视化展示。本篇文章将详细探讨 Prometheus 和 Grafana 在 DevO

springboot整合swagger2之最佳实践

来源:https://blog.lqdev.cn/2018/07/21/springboot/chapter-ten/ Swagger是一款RESTful接口的文档在线自动生成、功能测试功能框架。 一个规范和完整的框架,用于生成、描述、调用和可视化RESTful风格的Web服务,加上swagger-ui,可以有很好的呈现。 SpringBoot集成 pom <!--swagge

vue2实践:el-table实现由用户自己控制行数的动态表格

需求 项目中需要提供一个动态表单,如图: 当我点击添加时,便添加一行;点击右边的删除时,便删除这一行。 至少要有一行数据,但是没有上限。 思路 这种每一行的数据固定,但是不定行数的,很容易想到使用el-table来实现,它可以循环读取:data所绑定的数组,来生成行数据,不同的是: 1、table里面的每一个cell,需要放置一个input来支持用户编辑。 2、最后一列放置两个b

【HarmonyOS】-TaskPool和Worker的对比实践

ArkTS提供了TaskPool与Worker两种多线程并发方案,下面我们将从其工作原理、使用效果对比两种方案的差异,进而选择适用于ArkTS图片编辑场景的并发方案。 TaskPool与Worker工作原理 TaskPool与Worker两种多线程并发能力均是基于 Actor并发模型实现的。Worker主、子线程通过收发消息进行通信;TaskPool基于Worker做了更多场景化的功能封装,例

Java消息队列:RabbitMQ与Kafka的集成与应用

Java消息队列:RabbitMQ与Kafka的集成与应用 大家好,我是微赚淘客返利系统3.0的小编,是个冬天不穿秋裤,天冷也要风度的程序猿! 在现代的分布式系统中,消息队列是实现系统间通信、解耦和提高可扩展性的重要组件。RabbitMQ和Kafka是两个广泛使用的消息队列系统,它们各有特点和优势。本文将介绍如何在Java应用中集成RabbitMQ和Kafka,并展示它们的应用场景。 消息队

Kafka (快速)安装部署

文章目录 1、软件下载&配置环境1_JDK安装2_Zookeeper安装3_Kafka安装 2、单机安装1_配置主机名和IP映射2_单机Kafka配置 3、集群安装1_配置主机名和IP的映射关系2_时钟同步3_Zookeeper配置信息4_集群Kafka配置 4、kafka的其他脚本命令 1、软件下载&配置环境 下面的操作无论是单机部署还是分布式集群环境下都是通用的。 准

vue2实践:第一个非正规的自定义组件-动态表单对话框

前言 vue一个很重要的概念就是组件,作为一个没有经历过前几代前端开发的我来说,不太能理解它所带来的“进步”,但是,将它与后端c++、java类比,我感觉,组件就像是这些语言中的类和对象的概念,通过封装好的组件(类),可以通过挂载的方式,非常方便的调用其提供的功能,而不必重新写一遍实现逻辑。 我们常用的element UI就是由饿了么所提供的组件库,但是在项目开发中,我们可能还需要额外地定义一