监控治理/降噪/优化

本文主要是介绍监控治理/降噪/优化，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

避免瞬报：
1. 防抖策略：除了core dump等特殊监控外，建议设置为连续三次满足条件再报警
2. 报警延时：采集周期 * 连续满足条件的次数 <= 3min，适用于大部分服务
合理阈值：通过定期更新来适配，统计不同阈值，在7d内异常时间段的占比，可以得出一个正常情况下的合理阈值，同时也可以参考其他业务线同类指标阈值的设置情况，cpu.busy.avg不适用（超过80%，系统响应时间会增加，导致服务处理耗时增加）；
报警回调：自动化处理重复性报警
1. 如磁盘清理：因为某些确定性的原因，集群的磁盘会不定期被打满，如果处理的方式比较城市化，可以从报警策略中配置回调，自动化调用功能脚本/工具来清理，从而实现报警自愈
2. 进程拉起和重启
3. 集群的自动扩容
同环比监控：针对流量等周期性规律的场景
复合判断：多条件层层筛选精准描述异常
报警分级：平台统计事件而非报警进行交互
1. 故障：P0级系统异常，P1功能故障，通过电话、kim、短信进行报警
2. 异常：P2服务异常，P3实例异常，通过kim进行报警
3. 事件：P4通知类，通过看板进行预警
黄金监控指标建议
1. 容量监控用比例：如内存、CPU、磁盘使用率等和容量相关的指标，尽量用比例而非绝对值
2. 流量监控用环比
3. 延时监控用绝对值：和处理耗时相关的指标，一般业务