优维产品最佳实践第13期:如何避免拨测机自身网络问题?

2023-11-02 19:45

本文主要是介绍优维产品最佳实践第13期:如何避免拨测机自身网络问题?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

受限于拨测节点自身的环境,单一节点的拨测结果可能并不能反映出监控实例的真实运行状态

本期EasyOps产品使用最佳实践,我们将为您揭晓:

  • 如何基于多点决策配置拨测监控,以避免拨测机自身网络问题而误告警?

  • 如何对指标实现“降维”,从而汇聚指标?

「 背 景 」

拨测监控作为监控体系中重要的一环,为管理员提供最为直接的状态监控。然而,受限于拨测节点自身的环境和网络环境,可能单一拨测节点的结果并不能反映出监控实例的实际运行状态。比如,当拨测节点所在的网络发生故障时,或者和监控实例的网络中断时,此时会认为监控实例的服务不可用。

但是,这种判断可能是错误的。

因此,多点决策的需求就产生了。它基于这样一种监控逻辑:假设有两个拨测节点,分布于两个不同的环境或者网络,同时对目标实例拨测。仅当超过半数的拨测节点(也就是两台拨测机都发生告警时),才认为目标实例异常时,才发出拨测告警。

before:

after:

「 配 置 说 明 」

1.针对主机配置拨测采集策略,并且指定两台拨测机。

2.配置汇聚指标,这里作详细说明:

拨测的指标:detect_code包含着多个维度,而我们希望把detectAgentId和detectAgentName这两个维度降维了,让detect_code可通过jobId来汇聚成一个指标。

因此,需要作如下配置表达式:avg(detect_code ) by (stepName,jobId,customTag)

上述表达式,说明新指标的维度是stepName,jobId,customTag,把agent相关的维度聚合在一起了。

此时,两台拨测机的汇聚结果可参考如下表格:

可知,只有当两台拨测机都返回1的返回码时,也就是两台拨测机都认为实例故障时,多点决策返回码才大于0.5,因此0.5可以作为多点决策的判断阈值。

3.配置告警规则

此时,当两台拨测机都探测目标实例失败时,才会发出拨测失败的告警。如果只有一台拨测机认为拨测失败,并不会发出告警,以实现了半数以上判断为失败才失败的逻辑。

该实践提供了多点决策的能力,弥补了拨测节点的单点缺陷。

这篇关于优维产品最佳实践第13期:如何避免拨测机自身网络问题?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/332887

相关文章

VSCode中C/C++编码乱码问题的两种解决方法

《VSCode中C/C++编码乱码问题的两种解决方法》在中国地区,Windows系统中的cmd和PowerShell默认编码是GBK,但VSCode默认使用UTF-8编码,这种编码不一致会导致在VSC... 目录问题方法一:通过 Code Runner 插件调整编码配置步骤方法二:在 PowerShell

mybatis-plus分页无效问题解决

《mybatis-plus分页无效问题解决》本文主要介绍了mybatis-plus分页无效问题解决,原因是配置分页插件的版本问题,旧版本和新版本的MyBatis-Plus需要不同的分页配置,感兴趣的可... 昨天在做一www.chinasem.cn个新项目使用myBATis-plus分页一直失败,后来经过多方

Ubuntu中Nginx虚拟主机设置的项目实践

《Ubuntu中Nginx虚拟主机设置的项目实践》通过配置虚拟主机,可以在同一台服务器上运行多个独立的网站,本文主要介绍了Ubuntu中Nginx虚拟主机设置的项目实践,具有一定的参考价值,感兴趣的可... 目录简介安装 Nginx创建虚拟主机1. 创建网站目录2. 创建默认索引文件3. 配置 Nginx4

Flask解决指定端口无法生效问题

《Flask解决指定端口无法生效问题》文章讲述了在使用PyCharm开发Flask应用时,启动地址与手动指定的IP端口不一致的问题,通过修改PyCharm的运行配置,将Flask项目的运行模式从Fla... 目录android问题重现解决方案问题重现手动指定的IP端口是app.run(host='0.0.

Seata之分布式事务问题及解决方案

《Seata之分布式事务问题及解决方案》:本文主要介绍Seata之分布式事务问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Seata–分布式事务解决方案简介同类产品对比环境搭建1.微服务2.SQL3.seata-server4.微服务配置事务模式1

mysql关联查询速度慢的问题及解决

《mysql关联查询速度慢的问题及解决》:本文主要介绍mysql关联查询速度慢的问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql关联查询速度慢1. 记录原因1.1 在一次线上的服务中1.2 最终发现2. 解决方案3. 具体操作总结mysql

一文教你解决Python不支持中文路径的问题

《一文教你解决Python不支持中文路径的问题》Python是一种广泛使用的高级编程语言,然而在处理包含中文字符的文件路径时,Python有时会表现出一些不友好的行为,下面小编就来为大家介绍一下具体的... 目录问题背景解决方案1. 设置正确的文件编码2. 使用pathlib模块3. 转换路径为Unicod

Spring MVC跨域问题及解决

《SpringMVC跨域问题及解决》:本文主要介绍SpringMVC跨域问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录跨域问题不同的域同源策略解决方法1.CORS2.jsONP3.局部解决方案4.全局解决方法总结跨域问题不同的域协议、域名、端口

SpringBoot自定义注解如何解决公共字段填充问题

《SpringBoot自定义注解如何解决公共字段填充问题》本文介绍了在系统开发中,如何使用AOP切面编程实现公共字段自动填充的功能,从而简化代码,通过自定义注解和切面类,可以统一处理创建时间和修改时间... 目录1.1 问题分析1.2 实现思路1.3 代码开发1.3.1 步骤一1.3.2 步骤二1.3.3

Nginx实现高并发的项目实践

《Nginx实现高并发的项目实践》本文主要介绍了Nginx实现高并发的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录使用最新稳定版本的Nginx合理配置工作进程(workers)配置工作进程连接数(worker_co