通过自动化运维实现无人值守的故障自愈

2024-04-12 17:28

本文主要是介绍通过自动化运维实现无人值守的故障自愈,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        故障自愈指实时发现告警,预诊断分析,自动恢复故障,并打通周边系统实现故障的快速恢复。通过故障自愈提升企业网络系统可用性、降低排障处置人力投入,实现从“人工处置”到“无人值守”的转变。

        针对运维中对故障自愈能力的需求,北京智和信通在实时监控告警的基础上,搭载可视化运维配置模块,通过赋予用户自定义编辑故障自愈策略的能力,实现无需针对告警进行手动处置,只需预编排告警处理流程,平台根据场景自动触发,从而做到故障自愈。

第1章 故障自愈──以(磁盘爆满自动清理为例)

        对各类设备进行批量、定时、条件触发等操作,通过自动化执行实现在网络、设备出现故障时的自动排障和自愈,释放运维人力。下面以磁盘爆满自动清理为例,介绍如何通过智和网管平台实现故障自愈。

        效果要求:当服务器磁盘使用率超过90%时,触发自动清理策略,释放磁盘空间。

        第一步:将需要管理的服务器纳入平台进行监控,并将监视器设置为磁盘使用率超过90%进行严重告警。

        第二步:进入安管模块的运维编排菜单,创建磁盘爆满自动清理策略。根据真实排障过程,通过进行策略节点拖拽编排的方式规划自愈流程。

        第三步:配置触发方式。方式支持通过告警触发和通过时间触发两种方式进行,为实现故障自愈的效果,我们选择通过匹配告警的方式触发策略。

        编排流程配置完成后,设备出现对应的严重级别告警后,立即触发磁盘清理策略,自动执行编排内的操作,对故障进行校验和处置。并在执行过程中,对每一步处置操作进行记录形成日志,确保有迹可循。

第2章 自定义应急处置,实现多场景下故障自愈

        在故障自愈方案中,核心是精确定位告警并匹配到适宜用户应用场景的故障自愈策略。一个符合用户需求的自愈策略,将为用户节约80%的故障处理时间。

        因此,北京智和信通提供从实时监控异常状态到告警收敛降噪、定位故障根因的高精确告警方案,并通过可视化编排工具,支持以拖拽的方式快速简单地完成作业流程的配置,将复杂的运维工作和任务转变为一致的,可复用的、可度量和有效的工作流,实现自动化运维。

        故障自愈方案的整体流程从获取精准告警开始,到预诊断分析,判断告警类型和级别,一般告警触发自愈策略,平台进行自动恢复,严重复杂告警则通过告警通知、运维工单等形式通知运维管理人员,进行人工处理,从而实现故障的快速治愈。

第3章 实时发现异常,智能故障收敛

        智和信通故障自愈方案一体化集中监控各类IT资源,全量汇聚性能、事件、日志、流量等异常告警信息。充分利用积累的有效定障、排障经验,打通综合监控、IP合规性监测、流量透视、自动运维、运维工单等关联数据,实现从告警检测到排障恢复的全生命周期闭环管理。

3.1.实时监控,全面汇聚告警信息

        实时监控、感知全网性能状态,通过主动沦陷与日志解析的方式,动态呈现网络态势,覆盖网络中各类软硬件设备,洞察设备、资源、链路性能。采用多种告警机制,自定义配置告警阈值,从众多的状态信息和日志数据中,将零散的信息总结成当前态势并进行实时分析,对异常情况进行告警。

3.2.事件接收,日志汇总分析

        接收Trap、Syslog、Filter Alarm等事件信息和设备日志数据,集中存储、解析、提取有效信息,将事件与日志存储为可统计分析的结构化数据,呈现日志数据价值。根据对事件、日志数据的挖掘与分析,通过配置告警规则和场景,将异常日志自动转化为告警,定位其影响范围。

3.3.告警降噪,快速定位根因

        采用自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告警降噪机制,通过AI算法,对各类告警进行自动压缩收敛,减少90%的无效告警,抑制告警风暴,直达故障根因。包括事件过滤机制、故障事件上报机制、故障事件呈现过滤、故障事件入库过滤、故障事件确认等处理机制,有效避免误报和漏报。

        一步定位到发生故障的源头设备,基于混合算法,快速检索异常问题关联涉及的各项维度与影响范围,快速定位问题边界。及时进行排障处置,支持以拓扑图的方式回放历史告警下的设备告警变化、拓扑图和链路告警变化,支持快进、后退等播放操作,有效地预防更加严重的故障发生。

第4章 可视化场景编排,提升复杂故障处置能力

        方案具备拖拽式场景编排能力,可以灵活地定制运维场景,自动执行编排流程。整体运维操作过程和执行结果均以可视化的方式进行呈现。不限制作业流程及流程内节点配置数量,全面满足不同运维需求,同时支持高性能的多条编排流程并发执行,加快排障处置效率。

        平台内置多种原子运维命令,满足用户日常基本运维需求,同时支持用户配置专属策略,通过对原子策略的组合复用,实现针对不同运维场景的策略模板,满足不同设备在不同运维场景下的特有需求。

        通过可视化编排以拖拽的方式快速简单地完成作业流程的配置,将复杂的运维工作和任务转变为一致的,可复用的、可度量和有效的工作流,实现自动化运维。

        智和信通故障自愈方案通过“监控+运维+控制”相结合的方式,将日常所需的各类故障排查、处置工作以策略模板的形式提供给用户,确保每个操作安全高效,全面提升告警排障效率。

这篇关于通过自动化运维实现无人值守的故障自愈的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/897776

相关文章

Springboot处理跨域的实现方式(附Demo)

《Springboot处理跨域的实现方式(附Demo)》:本文主要介绍Springboot处理跨域的实现方式(附Demo),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不... 目录Springboot处理跨域的方式1. 基本知识2. @CrossOrigin3. 全局跨域设置4.

Spring Boot 3.4.3 基于 Spring WebFlux 实现 SSE 功能(代码示例)

《SpringBoot3.4.3基于SpringWebFlux实现SSE功能(代码示例)》SpringBoot3.4.3结合SpringWebFlux实现SSE功能,为实时数据推送提供... 目录1. SSE 简介1.1 什么是 SSE?1.2 SSE 的优点1.3 适用场景2. Spring WebFlu

基于SpringBoot实现文件秒传功能

《基于SpringBoot实现文件秒传功能》在开发Web应用时,文件上传是一个常见需求,然而,当用户需要上传大文件或相同文件多次时,会造成带宽浪费和服务器存储冗余,此时可以使用文件秒传技术通过识别重复... 目录前言文件秒传原理代码实现1. 创建项目基础结构2. 创建上传存储代码3. 创建Result类4.

SpringBoot日志配置SLF4J和Logback的方法实现

《SpringBoot日志配置SLF4J和Logback的方法实现》日志记录是不可或缺的一部分,本文主要介绍了SpringBoot日志配置SLF4J和Logback的方法实现,文中通过示例代码介绍的非... 目录一、前言二、案例一:初识日志三、案例二:使用Lombok输出日志四、案例三:配置Logback一

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

idea中创建新类时自动添加注释的实现

《idea中创建新类时自动添加注释的实现》在每次使用idea创建一个新类时,过了一段时间发现看不懂这个类是用来干嘛的,为了解决这个问题,我们可以设置在创建一个新类时自动添加注释,帮助我们理解这个类的用... 目录前言:详细操作:步骤一:点击上方的 文件(File),点击&nbmyHIgsp;设置(Setti

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分