本文主要是介绍分布式监控系统WGCLOUD故障自愈能力说明,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
WGCLOUD是国人开源的优秀运维监控系统,轻巧实用,易上手。
对比普罗米修斯、zabbix等老牌运维工具,虽然不如这些工具全面成熟,但对我们DBA、研发、运维、测试来说,WGCLOUD可以很快安装好,不用模板脚本,基本就是解压后启动,就开始全自动监控主机各种指标了。另外WGCLOUD迭代速度非常快,社区也非常活跃,用户增长很快。
好了,言归正传,说下WGCLOUD的自愈能力是什么意思。
WGCLOUD监控架构是一个server对应N个agent
如果server因为某些原因停止了一段时间(超过12小时)后,agent在尝试联系server超过12小时后,不再上报数据,并在日志里会打印"防篡改校验失败大于10次,不再上报数据"这样的信息。
在12小时后,我们再重新启动server,这个时候显示agent都已经下线了。
但是不用担心,agent会在2小时内陆续恢复上线,觉得慢的话也可以手动重启下agent,会立即上线。
如果因为守护进程端口不通造成的agent防篡改校验失败,当守护进程端口正常开放后,也不用重启agent,也一样会在2小时候内陆续恢复上线。
这篇关于分布式监控系统WGCLOUD故障自愈能力说明的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!