通过自动化运维实现无人值守的故障自愈

2024-04-12 17:28

本文主要是介绍通过自动化运维实现无人值守的故障自愈,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        故障自愈指实时发现告警,预诊断分析,自动恢复故障,并打通周边系统实现故障的快速恢复。通过故障自愈提升企业网络系统可用性、降低排障处置人力投入,实现从“人工处置”到“无人值守”的转变。

        针对运维中对故障自愈能力的需求,北京智和信通在实时监控告警的基础上,搭载可视化运维配置模块,通过赋予用户自定义编辑故障自愈策略的能力,实现无需针对告警进行手动处置,只需预编排告警处理流程,平台根据场景自动触发,从而做到故障自愈。

第1章 故障自愈──以(磁盘爆满自动清理为例)

        对各类设备进行批量、定时、条件触发等操作,通过自动化执行实现在网络、设备出现故障时的自动排障和自愈,释放运维人力。下面以磁盘爆满自动清理为例,介绍如何通过智和网管平台实现故障自愈。

        效果要求:当服务器磁盘使用率超过90%时,触发自动清理策略,释放磁盘空间。

        第一步:将需要管理的服务器纳入平台进行监控,并将监视器设置为磁盘使用率超过90%进行严重告警。

        第二步:进入安管模块的运维编排菜单,创建磁盘爆满自动清理策略。根据真实排障过程,通过进行策略节点拖拽编排的方式规划自愈流程。

        第三步:配置触发方式。方式支持通过告警触发和通过时间触发两种方式进行,为实现故障自愈的效果,我们选择通过匹配告警的方式触发策略。

        编排流程配置完成后,设备出现对应的严重级别告警后,立即触发磁盘清理策略,自动执行编排内的操作,对故障进行校验和处置。并在执行过程中,对每一步处置操作进行记录形成日志,确保有迹可循。

第2章 自定义应急处置,实现多场景下故障自愈

        在故障自愈方案中,核心是精确定位告警并匹配到适宜用户应用场景的故障自愈策略。一个符合用户需求的自愈策略,将为用户节约80%的故障处理时间。

        因此,北京智和信通提供从实时监控异常状态到告警收敛降噪、定位故障根因的高精确告警方案,并通过可视化编排工具,支持以拖拽的方式快速简单地完成作业流程的配置,将复杂的运维工作和任务转变为一致的,可复用的、可度量和有效的工作流,实现自动化运维。

        故障自愈方案的整体流程从获取精准告警开始,到预诊断分析,判断告警类型和级别,一般告警触发自愈策略,平台进行自动恢复,严重复杂告警则通过告警通知、运维工单等形式通知运维管理人员,进行人工处理,从而实现故障的快速治愈。

第3章 实时发现异常,智能故障收敛

        智和信通故障自愈方案一体化集中监控各类IT资源,全量汇聚性能、事件、日志、流量等异常告警信息。充分利用积累的有效定障、排障经验,打通综合监控、IP合规性监测、流量透视、自动运维、运维工单等关联数据,实现从告警检测到排障恢复的全生命周期闭环管理。

3.1.实时监控,全面汇聚告警信息

        实时监控、感知全网性能状态,通过主动沦陷与日志解析的方式,动态呈现网络态势,覆盖网络中各类软硬件设备,洞察设备、资源、链路性能。采用多种告警机制,自定义配置告警阈值,从众多的状态信息和日志数据中,将零散的信息总结成当前态势并进行实时分析,对异常情况进行告警。

3.2.事件接收,日志汇总分析

        接收Trap、Syslog、Filter Alarm等事件信息和设备日志数据,集中存储、解析、提取有效信息,将事件与日志存储为可统计分析的结构化数据,呈现日志数据价值。根据对事件、日志数据的挖掘与分析,通过配置告警规则和场景,将异常日志自动转化为告警,定位其影响范围。

3.3.告警降噪,快速定位根因

        采用自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告警降噪机制,通过AI算法,对各类告警进行自动压缩收敛,减少90%的无效告警,抑制告警风暴,直达故障根因。包括事件过滤机制、故障事件上报机制、故障事件呈现过滤、故障事件入库过滤、故障事件确认等处理机制,有效避免误报和漏报。

        一步定位到发生故障的源头设备,基于混合算法,快速检索异常问题关联涉及的各项维度与影响范围,快速定位问题边界。及时进行排障处置,支持以拓扑图的方式回放历史告警下的设备告警变化、拓扑图和链路告警变化,支持快进、后退等播放操作,有效地预防更加严重的故障发生。

第4章 可视化场景编排,提升复杂故障处置能力

        方案具备拖拽式场景编排能力,可以灵活地定制运维场景,自动执行编排流程。整体运维操作过程和执行结果均以可视化的方式进行呈现。不限制作业流程及流程内节点配置数量,全面满足不同运维需求,同时支持高性能的多条编排流程并发执行,加快排障处置效率。

        平台内置多种原子运维命令,满足用户日常基本运维需求,同时支持用户配置专属策略,通过对原子策略的组合复用,实现针对不同运维场景的策略模板,满足不同设备在不同运维场景下的特有需求。

        通过可视化编排以拖拽的方式快速简单地完成作业流程的配置,将复杂的运维工作和任务转变为一致的,可复用的、可度量和有效的工作流,实现自动化运维。

        智和信通故障自愈方案通过“监控+运维+控制”相结合的方式,将日常所需的各类故障排查、处置工作以策略模板的形式提供给用户,确保每个操作安全高效,全面提升告警排障效率。

这篇关于通过自动化运维实现无人值守的故障自愈的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/897776

相关文章

Spring Security+JWT如何实现前后端分离权限控制

《SpringSecurity+JWT如何实现前后端分离权限控制》本篇将手把手教你用SpringSecurity+JWT搭建一套完整的登录认证与权限控制体系,具有很好的参考价值,希望对大家... 目录Spring Security+JWT实现前后端分离权限控制实战一、为什么要用 JWT?二、JWT 基本结构

Java实现优雅日期处理的方案详解

《Java实现优雅日期处理的方案详解》在我们的日常工作中,需要经常处理各种格式,各种类似的的日期或者时间,下面我们就来看看如何使用java处理这样的日期问题吧,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言一、日期的坑1.1 日期格式化陷阱1.2 时区转换二、优雅方案的进阶之路2.1 线程安全重构2

Android实现两台手机屏幕共享和远程控制功能

《Android实现两台手机屏幕共享和远程控制功能》在远程协助、在线教学、技术支持等多种场景下,实时获得另一部移动设备的屏幕画面,并对其进行操作,具有极高的应用价值,本项目旨在实现两台Android手... 目录一、项目概述二、相关知识2.1 MediaProjection API2.2 Socket 网络

使用Python实现图像LBP特征提取的操作方法

《使用Python实现图像LBP特征提取的操作方法》LBP特征叫做局部二值模式,常用于纹理特征提取,并在纹理分类中具有较强的区分能力,本文给大家介绍了如何使用Python实现图像LBP特征提取的操作方... 目录一、LBP特征介绍二、LBP特征描述三、一些改进版本的LBP1.圆形LBP算子2.旋转不变的LB

Redis消息队列实现异步秒杀功能

《Redis消息队列实现异步秒杀功能》在高并发场景下,为了提高秒杀业务的性能,可将部分工作交给Redis处理,并通过异步方式执行,Redis提供了多种数据结构来实现消息队列,总结三种,本文详细介绍Re... 目录1 Redis消息队列1.1 List 结构1.2 Pub/Sub 模式1.3 Stream 结

C# Where 泛型约束的实现

《C#Where泛型约束的实现》本文主要介绍了C#Where泛型约束的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录使用的对象约束分类where T : structwhere T : classwhere T : ne

将Java程序打包成EXE文件的实现方式

《将Java程序打包成EXE文件的实现方式》:本文主要介绍将Java程序打包成EXE文件的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录如何将Java程序编程打包成EXE文件1.准备Java程序2.生成JAR包3.选择并安装打包工具4.配置Launch4

MySQL索引的优化之LIKE模糊查询功能实现

《MySQL索引的优化之LIKE模糊查询功能实现》:本文主要介绍MySQL索引的优化之LIKE模糊查询功能实现,本文通过示例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录一、前缀匹配优化二、后缀匹配优化三、中间匹配优化四、覆盖索引优化五、减少查询范围六、避免通配符开头七、使用外部搜索引擎八、分

Python实现特殊字符判断并去掉非字母和数字的特殊字符

《Python实现特殊字符判断并去掉非字母和数字的特殊字符》在Python中,可以通过多种方法来判断字符串中是否包含非字母、数字的特殊字符,并将这些特殊字符去掉,本文为大家整理了一些常用的,希望对大家... 目录1. 使用正则表达式判断字符串中是否包含特殊字符去掉字符串中的特殊字符2. 使用 str.isa

Spring Boot 集成 Quartz并使用Cron 表达式实现定时任务

《SpringBoot集成Quartz并使用Cron表达式实现定时任务》本篇文章介绍了如何在SpringBoot中集成Quartz进行定时任务调度,并通过Cron表达式控制任务... 目录前言1. 添加 Quartz 依赖2. 创建 Quartz 任务3. 配置 Quartz 任务调度4. 启动 Sprin