小小的网络故障,带来深深的思考,IT运维的成败果然在于细节

本文主要是介绍小小的网络故障,带来深深的思考,IT运维的成败果然在于细节,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

早晨8点多,收到Zabbix的邮件告警,显示客户的戴尔服务器和爱快路由器掉线了,由于该客户的机房之前有过多次停电,症状当然也是如此这般,加上客户没有电话或者微信报修,就先入为主地判定为机房又停电了,因此未采取任何措施。

 

 直到过了下班时间,客户才反馈:外网无法使用向日葵远程控制服务器。因为不止一次,也就直说了,是不是机房又没电。

客户反馈有电,照片显示服务器处于开机状态,爱快路由器也是一样。

嗯?这怎么可能,难道短暂停电后就恢复了,恢复的时候,Zabbix没有自动发邮件提醒我?

远程登录爱快,失败;登录爱快云后台查看,显示该路由器为离线状态;登录部署在云服务器里面的Zabbix,发现客户的戴尔服务器和爱快还是离线状态,并没恢复。

指导客户重启爱快,无效;难道是停电后掉配置了?客户都已经下班了,也就没有其他远程手段了,为了不影响客户第二天上班使用,于是驱车前往。

到了机房,首先把显示器接到爱快上,果然有宽带没连接上?Lan口也是已断开状态?

把键盘接上,顺手按了几下回车键,所有网卡显示为已连接,貌似没问题啊,奇怪。

既然如此,打开笔记本电脑,登录爱快路由器,准备检查问题所在;

 

原来是固定IP的城域网掉线了,这是爱快的默认链路,专供服务器和监控使用的,所以白天办公的时候,用户是感觉不到的,直到要远程操作服务器的时候,才发现网络有问题。路由器端口好好的,网卡的“眼睛”唰唰地眨着,于是转到机柜后面,一眼就看到某个光猫闪着红灯,好吧,电信光纤断了;

 

可是爱快云显示路由器处于掉线状态也太不应该了,其他几条拨号宽带不都是好好的在线么?

也许是配置不仔细吧,没有配置自动切换线路,另外几条拨号的宽带倒是都配置了,只是固定IP的城域网没配置,主要是太相信电信了,嘿嘿,现在赶紧补上吧,来都来了,是吧。

 

勾上“掉线自动切换”后,爱快云立刻显示路由器在线了,哪怕没有固定IP,在外网也能通过爱快云远程登录这台路由器了;

服务器上的向日葵,本以为会自动上线,结果重试了几次都无法上线,只能手动退出软件,重新开启后,才恢复连接;

先让客户这么用吧,暂时没什么大影响,只能明天早上再向电信报修线路故障了。

准备收拾东西走人,先备份一下爱快的配置吧,下次有问题的时候,能快速恢复;

反思:

1、由此看来,先入为主和经验主义的确是害了自己,接到客户报修就先把自己掘进坑里了,没有冷静、认真地分析,虽然也快速解决了问题,没影响客户使用,但是这一趟其实可以不用跑,单程40分钟,毕竟说远不远,说近也不近;

2、云端的Zabbix,配置为smnp轮询客户的设备,一旦固定IP的链路掉线,所有的监测肯定是全部失效了,如果是在服务器上安装了Zabbix agent,并且配置为主动模式,就能主动向Zabbix Server上报信息,配合爱快的“掉线自动切换”,云端的Zabbix就不会与被监测的服务器失联了,这样就很容易地判断出是固定IP的城域网掉线了。

3、不能太相信运营商,该做的配置,还得做细致做完整,免得有问题的时候,再费时费力地排查。

这篇关于小小的网络故障,带来深深的思考,IT运维的成败果然在于细节的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/223062

相关文章

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念

【编程底层思考】垃圾收集机制,GC算法,垃圾收集器类型概述

Java的垃圾收集(Garbage Collection,GC)机制是Java语言的一大特色,它负责自动管理内存的回收,释放不再使用的对象所占用的内存。以下是对Java垃圾收集机制的详细介绍: 一、垃圾收集机制概述: 对象存活判断:垃圾收集器定期检查堆内存中的对象,判断哪些对象是“垃圾”,即不再被任何引用链直接或间接引用的对象。内存回收:将判断为垃圾的对象占用的内存进行回收,以便重新使用。

vscode中使用go环境配置细节

1、在docker容器中下载了go的sdk 2、在/etc/profile.d/go.sh里填入如下内容: #!/bin/bashexport GOROOT=/home/ud_dev/goexport PATH=$GOROOT/bin:$PATH  3、设置go env go env -w GOPROXY=https://goproxy.cn,directgo env -w GO

网络故障排查和tcpdump抓包

网络故障排查: ping一台服务器不通,你如何排查 检查本机ip地址设置  网关和dns服务器是否设置正确 或者ip地址冲突能否上网 看路由器是否有问题 ping服务器是否运行服务器禁止ping   防火墙设置 iptables -A INPUT -P ICMP -j DROPiptables -D INPUT -P ICMP -j DROP用户不能访问服务器 怎么排查 检查用户网络连接检查服

使用WebP解决网站加载速度问题,这些细节你需要了解

说到网页的图片格式,大家最常想到的可能是JPEG、PNG,毕竟这些老牌格式陪伴我们这么多年。然而,近几年,有一个格式悄悄崭露头角,那就是WebP。很多人可能听说过,但到底它好在哪?你的网站或者项目是不是也应该用WebP呢?别着急,今天咱们就来好好聊聊WebP这个图片格式的前世今生,以及它值不值得你花时间去用。 为什么会有WebP? 你有没有遇到过这样的情况?网页加载特别慢,尤其是那

颠覆你的开发模式:敏捷思维带来的无限可能

敏捷软件开发作为现代软件工程的重要方法论,强调快速响应变化和持续交付价值。通过灵活的开发模式和高效的团队协作,敏捷方法在应对动态变化和不确定性方面表现出色。本文将结合学习和分析,探讨系统变化对敏捷开发的影响、业务与技术的对齐以及敏捷方法如何在产品开发过程中处理持续变化和迭代。 系统变化对敏捷软件开发的影响 在敏捷软件开发中,系统变化的管理至关重要。系统变化可以是需求的改变、技术的升级、

网络安全运维培训一般多少钱

在当今数字化时代,网络安全已成为企业和个人关注的焦点。而网络安全运维作为保障网络安全的重要环节,其专业人才的需求也日益增长。许多人都对网络安全运维培训感兴趣,那么,网络安全运维培训一般多少钱呢?   一、影响网络安全运维培训价格的因素   1. 培训内容的深度和广度   不同的网络安全运维培训课程涵盖的内容有所不同。一些基础的培训课程可能主要涉及网络安全基础知识、常见安全工具的使用等,价

分享MSSQL、MySql、Oracle的大数据批量导入方法及编程手法细节

1:MSSQL SQL语法篇: BULK INSERT      [ database_name . [ schema_name ] . | schema_name . ] [ table_name | view_name ]         FROM 'data_file'        [ WITH       (      [ [ , ] BATCHSIZE = batch_siz

【LVI-SAM】激光雷达点云处理特征提取LIO-SAM 之FeatureExtraction实现细节

激光雷达点云处理特征提取LIO-SAM 之FeatureExtraction实现细节 1. 特征提取实现过程总结1.0 特征提取过程小结1.1 类 `FeatureExtraction` 的整体结构与作用1.2 详细特征提取的过程1. 平滑度计算(`calculateSmoothness()`)2. 标记遮挡点(`markOccludedPoints()`)3. 特征提取(`extractF

【编程底层思考】详解Java的JUC多线程并发编程底层组件AQS的作用及原理

Java中的AbstractQueuedSynchronizer(简称AQS)是位于java.util.concurrent.locks包中的一个核心组件,用于构建锁和其他同步器。AQS为实现依赖于FIFO(先进先出)等待队列的阻塞锁和相关同步器提供了一套高效、可扩展的框架。 一、AQS的作用 统一同步状态管理:AQS提供了一个int类型的成员变量state,用于表示同步状态。子类可以根据自己