本文主要是介绍监控治理/降噪/优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
- 避免瞬报:
- 防抖策略:除了core dump等特殊监控外,建议设置为连续三次满足条件再报警
- 报警延时:采集周期 * 连续满足条件的次数 <= 3min,适用于大部分服务
- 合理阈值:通过定期更新来适配,统计不同阈值,在7d内异常时间段的占比,可以得出一个正常情况下的合理阈值,同时也可以参考其他业务线同类指标阈值的设置情况 ,cpu.busy.avg不适用(超过80%,系统响应时间会增加,导致服务处理耗时增加);
- 报警回调:自动化处理重复性报警
- 如磁盘清理:因为某些确定性的原因,集群的磁盘会不定期被打满,如果处理的方式比较城市化,可以从报警策略中配置回调,自动化调用功能脚本/工具来清理,从而实现报警自愈
- 进程拉起和重启
- 集群的自动扩容
- 同环比监控:针对流量等周期性规律的场景
- 复合判断:多条件层层筛选精准描述异常
- 报警分级:平台统计事件而非报警进行交互
- 故障:P0级系统异常,P1功能故障,通过电话、kim、短信进行报警
- 异常:P2服务异常,P3实例异常,通过kim进行报警
- 事件:P4通知类,通过看板进行预警
- 黄金监控指标建议
- 容量监控用比例:如内存、CPU、磁盘使用率等和容量相关的指标,尽量用比例而非绝对值
- 流量监控用环比
- 延时监控用绝对值:和处理耗时相关的指标,一般业务
这篇关于监控治理/降噪/优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!