zabbix故障自愈设计

2023-10-22 11:20
文章标签 设计 故障 zabbix 自愈

本文主要是介绍zabbix故障自愈设计,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

zababix故障自愈设计

概述

在监控系统中,故障自愈是一个老生常谈的话题,他可以对于常见的运维故障,及时响应解决,减少人工干预,实现运维故障快速恢复。

这里采用zabbix的脚本功能,配合触发器,可以实现故障发生时,手动点击运行故障恢复脚本,达到故障自愈的效果。

故障恢复原理

在监控系统中,故障事件是由于某些指标数据不符合正常的期望数据,由此便引发了一个故障事件,提醒用户及时关注和处理。

针对于某些故障场景,恢复就比较简单,像服务停止,进程停止等,直接通过简单的命令行就可以恢复,针对一些复杂的故障,可能需要比较复杂的脚本运行逻辑,以及外部数据参与才能完成恢复,简单来说就是在故障发生后,通过运行一系列的预定义的脚本或者代码,来实现故障的及时恢复。

在zabbix系统中,提供了丰富的脚本解决方案,可以基于Webhook、脚本、SSH、Telnet、IPMI方式进行故障自愈,脚本的作用域可以为自动执行、基于主机手动执行以及基于事件手动执行。

请添加图片描述

在本文中,以在事件上进行手动执行,来验证服务停止情况下,故障自愈的场景。

配置

脚本配置

在脚本中,按如下所示,配置一个启动服务的脚本处理,由于当前版本的zabbix不支持传入参数(期待后续版本的zabbix能支持脚本参数传递,这在通过api调用的过程中还是十分有用的),所以只能将服务名通过事件的标签宏传入

请添加图片描述

触发器配置

在一个模板中,配置一个httpd服务的触发器,条件为当该服务处于不活跃状态下,则触发该故障

请添加图片描述

这里需要额外的设置事件的标签值,servicename为httpd.service,因为在脚本中,需要知道触发器中的标签名为servicename,以方便脚本知道需要启动哪个服务。其他的额外两个参数为我们产品内部项目使用的,可以不管

请添加图片描述

验证

设置完成之后,我们将目标服务器的httpd服务进行停止,使之产生一条告警数据

请添加图片描述

点击故障自愈->启动服务

请添加图片描述

执行完成后,脚本将以运行zabbix代理的用户,去执行 sudo systemctl start httpd.service,成功后等会便可以看到该故障就已经处于已解决状态

请添加图片描述

这篇关于zabbix故障自愈设计的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/261115

相关文章

基于C++的UDP网络通信系统设计与实现详解

《基于C++的UDP网络通信系统设计与实现详解》在网络编程领域,UDP作为一种无连接的传输层协议,以其高效、低延迟的特性在实时性要求高的应用场景中占据重要地位,下面我们就来看看如何从零开始构建一个完整... 目录前言一、UDP服务器UdpServer.hpp1.1 基本框架设计1.2 初始化函数Init详解

Springboot3统一返回类设计全过程(从问题到实现)

《Springboot3统一返回类设计全过程(从问题到实现)》文章介绍了如何在SpringBoot3中设计一个统一返回类,以实现前后端接口返回格式的一致性,该类包含状态码、描述信息、业务数据和时间戳,... 目录Spring Boot 3 统一返回类设计:从问题到实现一、核心需求:统一返回类要解决什么问题?

故障定位快人一步! 华为交换机排障命令汇总

《故障定位快人一步!华为交换机排障命令汇总》在使用华为交换机进行故障排查时,首先需要了解交换机的当前状态,通过执行基础命令,可以迅速获取到交换机的系统信息、接口状态以及配置情况等关键数据,为后续的故... 目录基础系统诊断接口与链路诊断L2切换排障L3路由与转发高级调试与日志性能、安全与扩展IT人无数次实战

Mysql中设计数据表的过程解析

《Mysql中设计数据表的过程解析》数据库约束通过NOTNULL、UNIQUE、DEFAULT、主键和外键等规则保障数据完整性,自动校验数据,减少人工错误,提升数据一致性和业务逻辑严谨性,本文介绍My... 目录1.引言2.NOT NULL——制定某列不可以存储NULL值2.UNIQUE——保证某一列的每一

Zabbix在MySQL性能监控方面的运用及最佳实践记录

《Zabbix在MySQL性能监控方面的运用及最佳实践记录》Zabbix通过自定义脚本和内置模板监控MySQL核心指标(连接、查询、资源、复制),支持自动发现多实例及告警通知,结合可视化仪表盘,可有效... 目录一、核心监控指标及配置1. 关键监控指标示例2. 配置方法二、自动发现与多实例管理1. 实践步骤

如何在Ubuntu 24.04上部署Zabbix 7.0对服务器进行监控

《如何在Ubuntu24.04上部署Zabbix7.0对服务器进行监控》在Ubuntu24.04上部署Zabbix7.0监控阿里云ECS服务器,需配置MariaDB数据库、开放10050/1005... 目录软硬件信息部署步骤步骤 1:安装并配置mariadb步骤 2:安装Zabbix 7.0 Server

Java进程异常故障定位及排查过程

《Java进程异常故障定位及排查过程》:本文主要介绍Java进程异常故障定位及排查过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、故障发现与初步判断1. 监控系统告警2. 日志初步分析二、核心排查工具与步骤1. 进程状态检查2. CPU 飙升问题3. 内存

MyBatis设计SQL返回布尔值(Boolean)的常见方法

《MyBatis设计SQL返回布尔值(Boolean)的常见方法》这篇文章主要为大家详细介绍了MyBatis设计SQL返回布尔值(Boolean)的几种常见方法,文中的示例代码讲解详细,感兴趣的小伙伴... 目录方案一:使用COUNT查询存在性(推荐)方案二:条件表达式直接返回布尔方案三:存在性检查(EXI

Window Server创建2台服务器的故障转移群集的图文教程

《WindowServer创建2台服务器的故障转移群集的图文教程》本文主要介绍了在WindowsServer系统上创建一个包含两台成员服务器的故障转移群集,文中通过图文示例介绍的非常详细,对大家的... 目录一、 准备条件二、在ServerB安装故障转移群集三、在ServerC安装故障转移群集,操作与Ser

windos server2022的配置故障转移服务的图文教程

《windosserver2022的配置故障转移服务的图文教程》本文主要介绍了windosserver2022的配置故障转移服务的图文教程,以确保服务和应用程序的连续性和可用性,文中通过图文介绍的非... 目录准备环境:步骤故障转移群集是 Windows Server 2022 中提供的一种功能,用于在多个