2019独角兽企业重金招聘Python工程师标准>>>
最近发现nagios主动检测有个不好的地方,就是权限的问题,不好控制,每次得有太多设置。而且对于类似想看下备份有没有成功之类的,用主动检测有很多不好的地方。这时候被动检测就派上用场了,
被动检测用来监控磁盘只读、是否备份成功等都是比较方便的。其实应该说被动检测是发挥自己编写插件的最好方式,所有监控的方式都使用被动检测,配置应该最方便了。
1: 先上一个被动检测的脚本,nagios这边叫做被动检测。其实在被监控的机器上应该叫做主动上报信息
#!/bin/sh
Host=192.168.0.2
Check_Desc="Check Disk Read Only"
OK=0
CRITICAL=2
houzhui=`date "+%Y%m%d"`
df -h|awk '{print $NF}'|grep '^/'|sort -u|while read line;doecho "nagios_test" > ${line}/nagios_test_${houzhui}if [ $? -ne 0 ];thenecho "${Host};${Check_Desc};${CRITICAL};CRITICAL. ${line} read only|result=-1"|send_nsca -H 192.168.0.1 -d ";" -c /etc/nagios/send_nsca.cfgexit 1firm ${line}/nagios_test_${houzhui}
done
if [ $? -eq 0 ];thenecho "${Host};${Check_Desc};${OK};OK. all disk is checked ok |result=0"|send_nsca -H 192.168.0.1 -d ";" -c /etc/nagios/send_nsca.cfg
fi
-
这里假设nagios的ip是192.168.0.1。被监控的机器的ip是192.168.0.2。
-
被动检测的话,被监控机器需要向nagios汇报的内容有:主机名称,监控项名称,四个返回值,显示在nagios网页的信息。
-
主机名称:类似192.168.0.2,web_0_2。监控项名称:check_disk_read_only,check backup mysql。四个返回值:OK(0),WARNING(1),CRITICAL(2),UNKNOWN(3)。输出信息:自定义输入。
-
使用send_nsca发送信息,send_nsca可以使用epel源安装nsca-client即可。yum install epel-release -y 。 yum install nsca-client -y。配置只需要改下/etc/nagios/send_nsca.conf的password
2: nagios监控端的nsca配置文件,需要配置服务器的ip和监听的端口(默认5667)。只需要配置一次
server_port=5667
server_address=192.168.0.1
password=xxxx ; 跟上面的password配置要对应上。不然信息无法接收。
/etc/init.d/nsca restart启动nsca服务
3: nagios监控端的命令配置,只需要配置一次
define command {
command_name check_dummy
command_line $USER1$/check_dummy $ARG1$
}
4: nagios检测项目的配置
define service{
use passive-web-service
host_name 192.168.0.2
service_description Check Disk Read Only
check_command check_dummy
}
-
host_name和第一个说的${Host}要一致。service_description和第一个说的${Check_Desc}要一致。
-
check_dummy现在个人理解起来应该就是用来解析的,并且在网页上呈现。
5: nagios模板的配置文件如下
define service{
name passive-web-service
active_checks_enabled 0
passive_checks_enabled 1
parallelize_check 1
obsess_over_service 1
check_freshness 1 ;如果没接收到信息,则服务端主动刷新。
freshness_threshold 120 ; 120s后就主动刷新了。
notifications_enabled 1
event_handler_enabled 1
flap_detection_enabled 1
process_perf_data 1
retain_status_information 1
retain_nonstatus_information 1
is_volatile 0
check_period 24x7
max_check_attempts 3
normal_check_interval 3
retry_check_interval 2
contact_groups web
notification_options w,u,c,r
notification_interval 0
notification_period 24x7
register 0
}
-
这个模板,一来不去主动探测,二来就是如果一定时间内接收不到信息,则主动刷新。
-
120s主动刷新是在模板上配置的,对于监控的频率,我们可以自己设置。如果一天只汇报一次,就设置为86400。
基本上被动检测的配置就如上,被动检测个人感觉好处如下:
1: nagios用户权限太小,不好去做的事,可以用被动检测。
2: 在写备份脚本的时候,有时候突然想检测一下成功不,可以向nagios汇报下。不然实现方便就得成功发个邮件,不成功也发个邮件,太麻烦了。有些人会说成功可以不发邮件啊,但万一你备份的脚本被删除了,那你会一直认为是成功的,其实已经没在跑了。
3: 另外,对于编写程序比较厉害的人,可以写个脚本,去检测一翻,如果成功则向上汇报All ok。如果有个不成功,可以在信息上echo出来,可以减少监控的选项。
最后附上本人的网络课堂地址,如有兴趣请点击: 实践哥