本文主要是介绍中间件运维之故障自愈,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1. 背景
1.目前中间件容器节点故障、机器资源不足(磁盘大小、内存大小、cpu)等问题时有发生,接入自动化运维后可快速的处理集群异常问题。
2.以前处理问题需要人工介入,人力成本较大,运维流程缺乏规范。
2. 目标
1. 标准化,规范运维流程,制定标准的运维流程。
2. 可视化,运维流程可视化、平台化,做到可追踪,可回溯。
3. 自动化,容器重建,进程启停,部分指标通过根因分析实现故障自愈。
3. 故障自愈架构图
故障自愈的监控数据采集模块,周期性将采集到的各实例指标数据上报给处理器,处理器通过调用元数据模块获取匹配规则、故障自愈处理流。匹配异常数据成功并生成运维事件,再经过事件收敛过滤以确保没有大批量相同属性(如同业务、机房等),最后执行对应编排的自愈处理流,运维事件恢复,发送通知,业务恢复正常。
产品架构图:
整体流程图:
4. 方案设计
4.1 故障识别
通过拉取实例监控数据、多指标聚合检测识别出异常,并触发故障自动化流程。
方案一:过滤型检测监控数据
过滤型检测匹配,只跟数据本身有关,时间窗口设定没有要
这篇关于中间件运维之故障自愈的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!