(一)从零到一:设计通用型埋点方案的实践与思考

2024-08-25 15:28

本文主要是介绍(一)从零到一:设计通用型埋点方案的实践与思考,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引言

埋点,顾名思义即是在业务代码逻辑中上报某一标识和该标识相关的数据,与业务流程解耦,用于监控或者数据分析。在现代软件开发中,埋点已成为优化用户体验、支持业务决策的关键工具。

本文将从「业务需求初期设计埋点」到「后期重构」的角度,阐述如何设计通用型的埋点方案,希望能为读者提供实用的参考和避坑指南。

1. 起步阶段:初始埋点设计

1.1 业务流程

在业务发展初期,我们的流程相对简单,主要包含两个阶段:stage1和stage2。我们需要记录这两个阶段的耗时、结果,以及整个流程的总耗时。

在这里插入图片描述

1.2 数据结构设计

为了存储埋点数据,我们在数据库中设计了如下的数据表结构:

字段类型说明
idbigInt数据库主键
business_idbigInt业务ID
stage1_timeint阶段1处理时长(单位:毫秒)
stage1_successint阶段1是否成功,枚举值:1:成功、0:失败
stage2_timeint阶段2处理时长(单位:毫秒)
stage2_successint阶段2是否成功,枚举值:1:成功、0:失败
answer_successint请求是否成功(超时或者异常视为失败,返回即算成功),枚举值:1:成功、0:失败

这种设计简单直接,适合初期业务规模较小时使用。

2. 业务发展带来的挑战

2.1 架构变化

随着业务发展,我们采用了链路编排的方式执行请求。整个流程由多个node节点组成,每个node节点包含多个handler执行器,按照不同的策略类型处理具体的业务逻辑。

在这里插入图片描述

2.2 埋点方式的调整

考虑到埋点不在核心业务链路上,我们采用了事件驱动的异步上报方式记录埋点信息,但仍然使用MySQL数据库存储。

2.3 数据结构的膨胀

随着链路编排节点的增多,埋点数据也随之增加。新的数据结构变得更加复杂,包含了更多的监控参数:

字段中文解释归类
businessId业务ID业务基础参数
question问题
answer最终答案
qa_intervals调用总时长
answer_success调用是否成功
dialog_time对话时间
traceId追踪ID监控基础参数
userIP用户IP
serverIP服务器IP
fail_reason失败原因
stage1_start_time阶段一开始时间阶段一监控参数
stage1_end_time阶段一结束时间
stage1_answer阶段一答案
stage1_time阶段一时长
stage1_success阶段一是否成功
stage2_start_time阶段二开始时间阶段二监控参数
stage2_end_time阶段二结束时间
stage2_response_time阶段二响应时间
stage2_answer阶段二答案
stage2_time阶段二总时长
stage2_success阶段二是否成功

2.4 现有方案的局限性

此时,大家可以明显发现,随着业务发展,编排节点增多,埋点数量呈现线性增长,如果继续采用这种数据结构存储,每在编排中接入一个节点到埋点中,数据表就新增若干个字段,这是最直接的致命缺点,数据表将野蛮无限增加字段。

现有方案有以下缺点:

  1. 数据表字段呈线性增长,每增加一个编排节点就需要新增多个字段,不可持续。
  2. 监控代码侵入业务逻辑,难以适应流程编排的灵活性。
  3. 数据库字段设计不通用,链路节点记录不详细,难以快速定位问题。
  4. 链路监控无法降级,难以应对高流量场景(如618/双十一大促)。
  5. 事件驱动异步方式可能存在性能瓶颈,未经过压测验证。

代码参考:
请添加图片描述
请添加图片描述
请添加图片描述

3. 重构:设计新的埋点方案

3.1 埋点的定位与要求

在设计新方案前,我们明确了全链路埋点的定位:

(1)链路闭环:监控埋点虽与外部存在调用关系,但调用逻辑和链路编排由自身控制,可自己形成闭环,无需第三方回执确认

(2)用户群体:链路埋点面向产研和运营观看数据,不对外面向商家和用户使用。

(3)大促降级:埋点监控不影响主流程执行,不侵入业务逻辑代码,尽最大努力保证埋点记录。但必要情况下,可通过细粒度开关和全局开关进行埋点降级,影响是数据看板和数据分析会缺失降级后的数据。

(4)快速定位问题:埋点监控需要记录详细的调用留痕,链路编排存在多个node节点,每个node节点会存在一个或多个handler,埋点监控需要记录到handler级别,且每一步发生的错误和异常需要记录,且留存现场,方便排查。

(5)数据分析:可供运营、产品进行多指标数据分析,如耗时、成功率、PV、UV等。

3.2 新方案设计

基于以上定位和之前方案的缺点,我们设计了新的埋点方案:

在这里插入图片描述

  1. 流程编排自动/手动上报
  • 利用node编排时自动在handler执行前后进行埋点上报。
  • 保留手动上报入口,以应对特殊情况。
  1. 异步上报
  • 通过消息队列(MQ)统一发送和消费,利用MQ的积压和并行消费能力实现异步解耦。
  1. 数据存储
  • 使用Elasticsearch按季度创建索引模板。
  • 只保留近6个月数据,每日离线推送至大数据平台备份。(假设每条请求对应20条链路日志,每日用户提问1W条,每日链路日志总数则为20W条,每季度约1800W)

3.3 新的数据结构

新方案采用通用字段设计,实现横向扩展而非列向扩展:

中文说明字段说明
接入方式accessType
接入系统accessSystem
追踪IDtraceId
业务IDbusinessId
埋点标识(如类名)eventTrackSign唯一标识当前埋点
埋点状态eventTrackStatus开始、结束或为空
节点类型handlerType枚举:串行、并行
节点超时设置handlerTimeOut
埋点结果eventTrackResult枚举:成功、失败
失败原因failReasonCode枚举:code码
现场信息context_info
埋点类型eventTrackType枚举:手动、自动
时间time毫秒级时间戳

新方案与旧方案相比有很多优点,对比如下:

方面旧方案新方案
扩展性列向扩展,字段增长快横向扩展,通用字段设计
灵活性固定字段,难以适应业务变化通用字段,易于适应不同业务场景
性能可能存在性能瓶颈使用MQ和Elasticsearch,性能更好
数据分析直接查询即可需要额外的数据处理步骤,但更灵活
降级能力支持细粒度和全局降级
问题定位难以快速定位问题详细记录每个handler,易于问题定位
代码侵入性高,散布在业务逻辑中低,主要通过自动上报实现
存储成本随业务增长线性增加通过定期清理和离线备份控制成本

到这里,重构后的方案就介绍完了,这里有一点值得注意,新的数据结构由于是通用字段设计,对于原始数据需要多一步数据处理的步骤进行数据分析与统计,不过这并不是太大问题,只要有原始数据存在,就可以针对业务所需要的数据指标做灵活的聚合统计。

4. 结论和最佳实践

经过从初始设计到系统重构的全过程,我们总结出了以下几点关键的最佳实践,希望能为同行提供有价值的参考:

  1. 设计通用字段 通用字段设计是提高埋点系统灵活性和可扩展性的关键。它让我们能够适应不断变化的业务需求,而不必频繁修改数据结构。
  2. 异步解耦 利用消息队列进行异步上报是一个明智之选。这不仅能显著减少对主业务流程的影响,还能提高系统的整体性能和稳定性。
  3. 分层存储策略 采用Elasticsearch进行实时存储,辅以大数据平台进行离线备份,是一种平衡查询性能和存储成本的有效方法。这种策略让我们能够快速检索近期数据,同时保证长期数据的完整性。
  4. 推进自动化埋点 尽可能实现自动化埋点,可以大幅减少代码侵入性。这不仅提高了开发效率,还降低了人为错误的可能性。
  5. 预留降级机制 为高流量场景预留降级开关是非常必要的。这确保了在极端情况下,核心业务不会受到埋点系统的影响,从而保证了整体服务的可靠性。
  6. 全面详细的记录 记录足够详细的信息是快速定位和解决问题的基础。在实践中,我们发现全面的日志记录能够大大缩短问题排查的时间。
  7. 定期评估与优化 随着业务的不断发展,定期评估埋点系统的效果和性能变得尤为重要。我们建立了一个季度评估机制,确保埋点系统能够及时进行优化和调整。

通过这次从初始设计到重构的过程,我们不仅解决了当前面临的问题,还为未来的业务扩展奠定了坚实的基础。这个过程让我们深刻认识到,一个优秀的埋点系统应该是灵活的、高效的、可扩展的,同时又不应该对主业务造成明显影响。

感谢阅读~


在这里插入图片描述

感谢大家的观看!!!创作不易,如果觉得我写的好的话麻烦点点赞👍支持一下,谢谢!!!
相关文章已在掘金发布,体验更佳!!

这篇关于(一)从零到一:设计通用型埋点方案的实践与思考的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1105931

相关文章

golang内存对齐的项目实践

《golang内存对齐的项目实践》本文主要介绍了golang内存对齐的项目实践,内存对齐不仅有助于提高内存访问效率,还确保了与硬件接口的兼容性,是Go语言编程中不可忽视的重要优化手段,下面就来介绍一下... 目录一、结构体中的字段顺序与内存对齐二、内存对齐的原理与规则三、调整结构体字段顺序优化内存对齐四、内

C++实现封装的顺序表的操作与实践

《C++实现封装的顺序表的操作与实践》在程序设计中,顺序表是一种常见的线性数据结构,通常用于存储具有固定顺序的元素,与链表不同,顺序表中的元素是连续存储的,因此访问速度较快,但插入和删除操作的效率可能... 目录一、顺序表的基本概念二、顺序表类的设计1. 顺序表类的成员变量2. 构造函数和析构函数三、顺序表

python实现简易SSL的项目实践

《python实现简易SSL的项目实践》本文主要介绍了python实现简易SSL的项目实践,包括CA.py、server.py和client.py三个模块,文中通过示例代码介绍的非常详细,对大家的学习... 目录运行环境运行前准备程序实现与流程说明运行截图代码CA.pyclient.pyserver.py参

使用C++实现单链表的操作与实践

《使用C++实现单链表的操作与实践》在程序设计中,链表是一种常见的数据结构,特别是在动态数据管理、频繁插入和删除元素的场景中,链表相比于数组,具有更高的灵活性和高效性,尤其是在需要频繁修改数据结构的应... 目录一、单链表的基本概念二、单链表类的设计1. 节点的定义2. 链表的类定义三、单链表的操作实现四、

Redis 多规则限流和防重复提交方案实现小结

《Redis多规则限流和防重复提交方案实现小结》本文主要介绍了Redis多规则限流和防重复提交方案实现小结,包括使用String结构和Zset结构来记录用户IP的访问次数,具有一定的参考价值,感兴趣... 目录一:使用 String 结构记录固定时间段内某用户 IP 访问某接口的次数二:使用 Zset 进行

解读Redis秒杀优化方案(阻塞队列+基于Stream流的消息队列)

《解读Redis秒杀优化方案(阻塞队列+基于Stream流的消息队列)》该文章介绍了使用Redis的阻塞队列和Stream流的消息队列来优化秒杀系统的方案,通过将秒杀流程拆分为两条流水线,使用Redi... 目录Redis秒杀优化方案(阻塞队列+Stream流的消息队列)什么是消息队列?消费者组的工作方式每

Spring Boot统一异常拦截实践指南(最新推荐)

《SpringBoot统一异常拦截实践指南(最新推荐)》本文介绍了SpringBoot中统一异常处理的重要性及实现方案,包括使用`@ControllerAdvice`和`@ExceptionHand... 目录Spring Boot统一异常拦截实践指南一、为什么需要统一异常处理二、核心实现方案1. 基础组件

MySQL分表自动化创建的实现方案

《MySQL分表自动化创建的实现方案》在数据库应用场景中,随着数据量的不断增长,单表存储数据可能会面临性能瓶颈,例如查询、插入、更新等操作的效率会逐渐降低,分表是一种有效的优化策略,它将数据分散存储在... 目录一、项目目的二、实现过程(一)mysql 事件调度器结合存储过程方式1. 开启事件调度器2. 创

关于rpc长连接与短连接的思考记录

《关于rpc长连接与短连接的思考记录》文章总结了RPC项目中长连接和短连接的处理方式,包括RPC和HTTP的长连接与短连接的区别、TCP的保活机制、客户端与服务器的连接模式及其利弊分析,文章强调了在实... 目录rpc项目中的长连接与短连接的思考什么是rpc项目中的长连接和短连接与tcp和http的长连接短

SpringBoot项目中Maven剔除无用Jar引用的最佳实践

《SpringBoot项目中Maven剔除无用Jar引用的最佳实践》在SpringBoot项目开发中,Maven是最常用的构建工具之一,通过Maven,我们可以轻松地管理项目所需的依赖,而,... 目录1、引言2、Maven 依赖管理的基础概念2.1 什么是 Maven 依赖2.2 Maven 的依赖传递机