被监控轰炸了,不得不使出绝招

2024-05-24 14:18

本文主要是介绍被监控轰炸了,不得不使出绝招,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原创:猿天地(微信公众号ID:cxytiandi),欢迎分享,转载请保留出处。

监控这个话题永远都不会过时,之前也有跟大家聊过监控的内容,以及如何快速实现监控满足日常需求。比如基于日志告警,基于全局异常处理器告警,基于Cat,Prometheus,Sentry等告警。

无论公司是什么规模,创业小公司,稳定大公司,你都需要做监控的呀。特别是大公司的监控做的更全,也更在意监控这件事情。小公司相对来说会好点,因为业务可能还不是很稳定,用户少,出故障就出呗,能修复就行。

监控的痛点

有监控总比没监控要强吧,但是监控多了也不见得是件好事。此处的监控多了有两层含义。

含义一:监控体系多或者说监控的框架多

很多时候,公司里的监控五花八门,有Sentry做异常告警,又有日志异常告警。有Cat又有SkyWalking,弄的你怀疑人生,到底用哪个,异常信息各种重复。
在这里插入图片描述

唯一的好处就是一有问题,你就慌的不行,怎么这么多异常告警。马上去排查问题了,导致自驱力非常好。

含义二:监控告警量多

监控框架多了,告警的数量自然是翻倍的,这点毋庸置疑。其实更为重要的一点是告警没有做等级划分,一顿乱报,导致告警群里一直有告警信息。有点像狼来了的意思,后面你就懒得去看了,因为太多了。

在这里插入图片描述

如何解决痛点

监控体系统一

首先,监控体系要进行整理,采用统一的监控框架。a但很多时候往往某一个框架无法满足所有需求,这种场景下就出现了混合使用,控制的不好就跟前面提的一样,五花八门了。

在某一个监控层面能够覆盖大部分的场景即可。如果不行,可能需要基于已有的开源监控体系进行自研扩展功能了。

告警定级

监控体系统一后,最大的问题就是异常的告警。是否所有的异常需要告警?告警能不能分类定级?

异常分为两种,运行时异常,比如NPE之类的。另一种非常多的就是业务异常,比如库存不足,商品已下架等。

对于运行时异常,一定是第一优先级,因为这就是Bug,需要马上关注并且处理。这类异常往往不会很多,如果非常多,那就是你的代码真的写的不咋的。

告警分类细化

对于业务异常,告警级别可以下降。这类异常虽然不能反馈系统有问题,但是能反馈业务的状态,还是需要稍微关注下。比如电商中最核心的下单接口,1分钟内下单失败100次,这种情况能不关注吗?必须得关注。

业务异常除了降级之外还得分类,这个就需要在抛出业务异常的时候声明对应的code码才行。这样在告警的时候直接带上对应的code码,一看便知什么问题。比如前面将的下单频繁失败,如果你只是告警说下单失败了多少,那么此时你一定很慌,因为你压根就不知道为什么?

还得屁颠屁颠的去看日志之类的,排查报错的真正原因。如果告警时就已经带上了code码 1001,你一看就知道,库存不足了,肯定是某个商品在抢购。code码1002风控校验超时了,马上联系风控的同学进行排查。这样的告警才符合标准,否则太累了。

最重要的是保留好现场数据,也就是出参响应以及traceId,否则谈何去解决这个告警问题

总结

改造完后,只有运行时异常或者某分钟内大量报错才会短信或者电话紧急告警,减少骚扰。其他业务异常等直接走钉钉啊,飞书啊这种告警群即可。告警群也可以细化,划分为需要关注的code和不需要关注的code, 分开不同的群,提高信息的精准度触达和消费。

本文主要讲的还是项目内的异常告警,其他的像一些中间件啊,数据库之类的告警就不用这么分了,这些一旦告警,无论是cpu飙高还是内存飙高都是很严重的问题,都需要关注以及做预案处理。

关于作者:尹吉欢,简单的技术爱好者,《Spring Cloud微服务-全栈技术与案例解析》, 《Spring Cloud微服务 入门 实战与进阶》作者, 公众号猿天地发起人。

这篇关于被监控轰炸了,不得不使出绝招的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/998642

相关文章

LoRaWAN在嵌入式网络通信中的应用:打造高效远程监控系统(附代码示例)

引言 随着物联网(IoT)技术的发展,远程监控系统在各个领域的应用越来越广泛。LoRaWAN(Long Range Wide Area Network)作为一种低功耗广域网通信协议,因其长距离传输、低功耗和高可靠性等特点,成为实现远程监控的理想选择。本文将详细介绍LoRaWAN的基本原理、应用场景,并通过一个具体的项目展示如何使用LoRaWAN实现远程监控系统。希望通过图文并茂的讲解,帮助读

springboot集成prometheus监控

1 Maven pom.xml引入依赖 <dependency><groupId>io.prometheus</groupId><artifactId>simpleclient_spring_boot</artifactId></dependency> 2 启动类引入注解 import io.prometheus.client.spring.boot.EnablePrometheusEnd

服务器监控:运维行业的核心保障与第三方监控软件的选择

随着信息技术的飞速发展,企业IT架构日益复杂,服务器作为整个IT系统的核心,其稳定性和性能对业务的连续性至关重要。在运维行业中,服务器监控作为保障服务器稳定运行的关键环节,已经受到了越来越多企业的重视。本文将探讨服务器监控的重要性、挑战以及选择第三方监控软件的原因,并推荐一款优秀的服务器监控软件——监控易。 一、服务器监控的重要性     服务器监控是指对服务器硬件、操作系统、应用程序

视频监控平台:支持交通部行业标准JT/T905协议(即:出租汽车服务管理信息系统)的源代码的函数和功能介绍及分享

目录 一、视频监控平台介绍 (一)概述 (二)视频接入能力介绍 (三)功能介绍 二、JT/T905协议介绍 (一)概述 (二)主要内容 1、设备要求 2、业务功能要求 3、技术功能要求 4、性能要求 5、接口要求 6、设备通信协议与数据格式 三、代码和解释 (一)代码和注释 (二)函数功能说明 1. 头文件保护 2. 包含必要的头文件 3. 引入命名空间std

【Flink metric】Flink指标系统的系统性知识:以便我们实现特性化数据的指标监控与分析

文章目录 一. Registering metrics:向flink注册新自己的metrics1. 注册metrics2. Metric types:指标类型2.1. Counter2.2. Gauge2.3. Histogram(ing)4. Meter 二. Scope:指标作用域1. User Scope2. System Scope ing3. User Variables 三.

使用Flink CDC实时监控MySQL数据库变更

在现代数据架构中,实时数据处理变得越来越重要。Flink CDC(Change Data Capture)是一种强大的工具,可以帮助我们实时捕获数据库的变更,并进行处理。本文将介绍如何使用Flink CDC从MySQL数据库中读取变更数据,并将其打印到控制台。 环境准备 <dependency><groupId>org.apache.flink</groupId><artifactId>

多路h265监控录放开发-(12)完成全部开始录制和全部停止录制代码

xviewer.h 新增 public:void StartRecord();//126 开始全部摄像头录制void StopRecord();//126 停止全部摄像头录制 xviewer.cpp 新增//视频录制static vector<XCameraRecord*> records;//126void XViewer::StartRecord() //开始全部摄像头录

IBM IMM1服务器硬件监控指标解读

在复杂多变的IT环境中,服务器的稳定运行对于保障业务的连续性至关重要。IBM IMM1(Integrated Management Module 1)作为IBM服务器的一个重要组件,提供了强大的远程管理和监控功能。     监控易作为一款专业的IT基础设施监控软件,为运维团队提供了全面的IBM服务器硬件监控解决方案。本文将基于监控易中针对IBM IMM1的监控指标进行解读,帮助运维团队更

控制下属很简单,用好这3大管人绝招,再跳的刺头也不敢造次

控制下属很简单,用好这3大管人绝招,再跳的刺头也不敢造次 第一招:给压力   很多团队中的员工都是自己不带脑子工作,遇事就喜欢请示领导,让领导拿方案、拿决策。 还有一些人,推一下,他才动一下,根本不够主动。 长此以往,员工缺乏思考,也懒得思考,就等着领导发号施令,自然也就不愿意承担工作上的责任,能力和执行力也很难得到提升。 所以,要尝试着改变员工安逸的工作环境,给他们压力,他们才能动起来。具体的做

66Uptime – 网站服务器 Cronjob 监控工具 v35.0.0扩展中文版安装

66Uptime是一款自托管、易于使用、轻量级且高性能的网站服务器和Cronjob监控工具。以其丰富的功能和便捷的管理方式,为用户提供了全方位的网站服务器和Cronjob监控解决方案: 主要功能: 监控网站服务器和Cronjob的运行状态,确保它们持续稳定运行。提供从多个位置检查显示器的功能,支持自定义HTTP请求和响应。提供正常运行时间和响应时间的监控,以及有关事件的电子邮件通知。支持Sl