医院运维 告警闪现后的故障排查

2023-12-05 14:44

本文主要是介绍医院运维 告警闪现后的故障排查,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

长期以来,医院信息化运维中存在着科室复杂、应用场景多、终端运维工作量大、软件系统兼容需求强等诸多痛点,且对技术设备的稳定性、连续性要求极高,在日常运维中,需要应对和解决这些问题来保障业务稳定、健康运行。

1、数据孤岛 

在信息化建设中,医院基本完成核心业务系统的建设,且配置一定规模的网络、服务器、动环等系统。因此也会出现各厂商独立监控、数据割裂,形成运维孤岛。

2、问题发现被动、滞后 

传统人工巡检的方式,存在问题发现被动、滞后,难以保障业务的稳定运行。且人工摸排时间长、效率低,运维工作效果不显著。

3、告警不准确 

部分医院有动环、基础设施监控等管理系统, 医院业务系统复杂,易产生告警冗余,难以在告警风暴中判断故障根因。

4、对资源和性能数据掌握不足 

对服务器CPU、内存等计算资源,磁盘空间、磁盘I/O等存储资源的缺乏监控管理,对系统应用节点和数据的各项性能参数配置等数据把控不足,不能提前发现隐患问题。

近5年,LinkSLA智能运维管家在医疗领域服务满意度95%以上,通过建立主动监控和御防,MOC在线值守的线上+线下的大运维服务,帮助医院实现高效、稳定的业务环境。下面通过一组小案例看LinkSLA智能运维管家在医院运维实践中的价值。

一、告警问题

11月14日9点,平台接到安徽某三甲医院HuaweiOceanStor9000设备告警,告警提示3点异常:

  • 文件系统服务状态异常;

  • Node-01存储节点异常;

  • 协议共享服务异常;

图片

图片

(告警列表)

奇怪的是,告警仅持续5分钟,随后文件系统、存储节点和协议共享服务状态又全部恢复正常。期间无任何技术性调整,告警自动解除,是产生误报吗?设备问题需要再确认一下吗?答案是肯定的,对平台告警准确率深信不疑的moc工程师不错过任何隐患问题,坚持再次检查设备的健康状况。

二、问题的排查过程

moc工程师沟通现场工程师,建议查看设备运行状态,并查看运行日志,检查是否有硬件故障发生。

次日,厂家检查设备发现Node1没有备用节点,手动添加节点Node2,这一操作导致存储节点Node4健康状态和磁盘状态异常,平台收到告警建议进行整改,存储节点Node4恢复正常,厂家将检测日志带回做进一步分析。

图片

图片

图片

3、厂家持续远程观察该设备运行状况,并将日志回传进一步分析。

4、在持续观察以及日志分析后,判断内存条问题导致14日Node1节点和文件系统告警。更换掉内存条后,问题得以解决。

图片

三、案例小结

这个案例的细节惊喜在于告警闪现5分钟后快速恢复,如果没有MOC值守工程师的关注,很容易忽视这个异常告警,MOC工程师快速响应沟通现场,联系厂家进行设备检查,跟进故障修复进度,隐患问题最终得到解决。

LinkSLA智能运维平台抓住瞬间闪现的故障,将问题扼杀在萌芽中。充分体现平台对故障的敏锐度,没有空穴来风的报警,只有尚未明确的问题。

这也是线上监控+线下服务的典型案例。

这篇关于医院运维 告警闪现后的故障排查的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/457986

相关文章

Window Server创建2台服务器的故障转移群集的图文教程

《WindowServer创建2台服务器的故障转移群集的图文教程》本文主要介绍了在WindowsServer系统上创建一个包含两台成员服务器的故障转移群集,文中通过图文示例介绍的非常详细,对大家的... 目录一、 准备条件二、在ServerB安装故障转移群集三、在ServerC安装故障转移群集,操作与Ser

windos server2022的配置故障转移服务的图文教程

《windosserver2022的配置故障转移服务的图文教程》本文主要介绍了windosserver2022的配置故障转移服务的图文教程,以确保服务和应用程序的连续性和可用性,文中通过图文介绍的非... 目录准备环境:步骤故障转移群集是 Windows Server 2022 中提供的一种功能,用于在多个

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

如何测试计算机的内存是否存在问题? 判断电脑内存故障的多种方法

《如何测试计算机的内存是否存在问题?判断电脑内存故障的多种方法》内存是电脑中非常重要的组件之一,如果内存出现故障,可能会导致电脑出现各种问题,如蓝屏、死机、程序崩溃等,如何判断内存是否出现故障呢?下... 如果你的电脑是崩溃、冻结还是不稳定,那么它的内存可能有问题。要进行检查,你可以使用Windows 11

Nacos客户端本地缓存和故障转移方式

《Nacos客户端本地缓存和故障转移方式》Nacos客户端在从Server获得服务时,若出现故障,会通过ServiceInfoHolder和FailoverReactor进行故障转移,ServiceI... 目录1. ServiceInfoHolder本地缓存目录2. FailoverReactorinit

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念

网络故障排查和tcpdump抓包

网络故障排查: ping一台服务器不通,你如何排查 检查本机ip地址设置  网关和dns服务器是否设置正确 或者ip地址冲突能否上网 看路由器是否有问题 ping服务器是否运行服务器禁止ping   防火墙设置 iptables -A INPUT -P ICMP -j DROPiptables -D INPUT -P ICMP -j DROP用户不能访问服务器 怎么排查 检查用户网络连接检查服

java后端服务监控与告警:Prometheus与Grafana集成

Java后端服务监控与告警:Prometheus与Grafana集成 大家好,我是微赚淘客返利系统3.0的小编,是个冬天不穿秋裤,天冷也要风度的程序猿! 在现代的微服务架构中,监控和告警是确保服务稳定性的关键组成部分。Prometheus和Grafana是两个强大的工具,它们可以集成在一起,为Java后端服务提供实时监控和可视化告警。 服务监控的重要性 服务监控可以帮助我们实时了解服务的健

笔记本电脑开机报错故障的原因及解决办法

笔记本电脑开机报错故障是指笔记本电脑开机自检时或启动操作系统前停止启动,在显示屏 出现一些错误提示的故障。   笔记本电脑开机报错故障的原因及解决办法   造成此类故障的原因一般是笔记本电脑在启动自检时,检测到硬件设备不能正常工作或在自 检通过后从硬盘启动时,出现硬盘的分区表损坏、硬盘主引导记录损坏、硬盘分区结束标志丢失 等故障,笔记本电脑出现相应的故障提示。   维修此类故障时

Windows系统不关机故障的解决方法

当Windows系统出现不关机故障时,首先要查找引起Windows系统不关机的原因,然后根据 具体的故障原因采取相应的解决方法。   Windows系统不关机故障的解决方法如下。   1.检查所有正在运行的程序   检查运行的程序主要包括关闭任何在实模式下加载的TSR程序、关闭开机时从启动组自动启 动的程序、关闭任何非系统引导必需的第三方设备驱动程序。   检查运行的程序并停