产品新说:应急定界 | 如何在运维/技术支持领域中应对突发故障?

2024-05-14 14:04

本文主要是介绍产品新说:应急定界 | 如何在运维/技术支持领域中应对突发故障?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、简介

应急定界的方案旨在帮助运维人员以业务故障驱动为起点,第一时间的快速恢复业务。该场景的条件基础是通过构建一体化监控告警平台,纳管应用与基础组件,提供业务系统监测、及时告警、排查分析能。通过告警、指标、日志、链路等重要运维数据异常检测的能力,结合运维对象关系、告警发生时序关系快速智能的得出故障定界的结论,并匹配处置预案,用可观测的方式为运维人员提供决策依据。

二、需求背景

以金融行业为例,《金融科技发展规划(2022-2025)》以及银保监办[2022]2号文中均有强调,要求金融企业建立金融数据中心智能化运维机制,明确了要重视数据治理方面的工作并提出要合理运用大数据加强态势感知、故障预警和自愈,不断提高智能运维水平。

三、功能展示(部分)

1.跨业务系统故障分析

同时遍历管理多个业务系统,,从业务链路溯源,通过告警时序、对象拓扑关系快速定位故障源头。

2.单业务系统故障分析

单业务系统下事件问题的源端对象可能来自微服务、数据库、消息队列、云服务或网络组件等,通过分层分类的观测结合智能分析工具来准确定位处置对象。

3.应用交易指标分析

依据交易类型、交易渠道、分支机构等不同统计维度,通过聚焦热点异常维度和历史同环对比等分析工具,快速锁定具体的业务问题,并迅速采取对应交易类型限流或版本回滚等操作

4.微服务链路分析

对于由微服务化后的请求调用链路会十分复杂,造成业务链路故障的根因可能是服务器状态、数据访问、资源瓶颈等,对微服务多层链路和相关指标的可观测,是定位分布式架构下故障原因的必备手段。

四、落地实例

关键词:异常访问、快速定障、事后复盘

某国有大行在4月初的某天,手机银行系统突然爆出大量访问异常,包括用户登录异常、转账失败等。运维人员通过应急定界场景进行告警时序的排查,结合链路、指标、日志等维度数据,快速定位到是核心交易系统出现故障,经过深入挖掘发现是对公业务板块的问题,马上启动备用系统,快速恢复业务。经过数十分钟的抢修和复盘,表明此次事故是由于此时为企业工资发放高峰期,加上个人转账业务数量攀升,导致的系统瘫痪,后已全面恢复,并根据故障点进行了深度的维护升级。

在常规的业务运营中,出现生产事故是随时可能发生的事情,为了最大程度的减少损失,快速恢复业务,企业一定要尽量满足监管给到的1-5-10 等要求,因此需要搭建具备能够以业务故障驱动为起点的一体化告警平台,利用其中的多种场景组合,为业务运营的平稳高效打造出坚固屏障。

五、建设思路

1、 提升整体可观测能力

整合专业领域工具,提高业务故障驱动下的应急分析能力,数据统一汇总,破除信息孤岛,治理以运维对象和告警为主的关键数据。

2、工具化分析能力

将应急能力工具化,提升应急定界和处置的成功率,全面进行数据治理以支持复杂场景的分析效率和能力,形成系统化的定障机制沉淀。

3、自动化根因定位和恢复

实现运维数据关联的自动发现,自动匹配恢复预案,结合大模型实现交互式排障分析,完成一键推理总结。

六、风险预警场景建设收益

1、业务连续性提升

通过快速定界提升业务系统的故障恢复效率,提高业务连续性

2、提高技术赋能

赋能一线运维快速分析和定障的能力

3、获得经验沉淀

复盘事件整体思路和数据,制定对应预案

擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

了解更多运维干货与行业前沿动态

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散~

这篇关于产品新说:应急定界 | 如何在运维/技术支持领域中应对突发故障?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/988937

相关文章

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念

PostgreSQL核心功能特性与使用领域及场景分析

PostgreSQL有什么优点? 开源和免费 PostgreSQL是一个开源的数据库管理系统,可以免费使用和修改。这降低了企业的成本,并为开发者提供了一个活跃的社区和丰富的资源。 高度兼容 PostgreSQL支持多种操作系统(如Linux、Windows、macOS等)和编程语言(如C、C++、Java、Python、Ruby等),并提供了多种接口(如JDBC、ODBC、ADO.NET等

雷动WEBRTC产品

http://www.rtcpower.com/html/leidongwebrtc.html ; 1.前言      WebRTC是一项在浏览器内部进行实时视频和音频通信的技术,是谷歌2010年以6820万美元收购Global IP Solutions公司而获得一项技术。WebRTC实现了基于网页的视频会议,标准是WHATWG 协议,目的是通过浏览器提供简单的javascript就可以

全球AI产品Top100排行榜

Web Top50的榜单里,AIGC类型的应用占比52%,遥遥领先。AIGC类型包括图像、视频、音乐、语音等的内容生成和编辑。音乐生成应用Suno在过去六个月中的排名跃升最为显著,从第36位上升至第5位。排名第二大类是通用对话/AI聊天/角色扮演类型的应用,占比20%,包括常见的ChatGPT、Claude、Character.ai等。其他是AI写作(8%)、AI搜索/问答(6%)、Agent/

CCF推荐C类会议和期刊总结(计算机网络领域)

CCF推荐C类会议和期刊总结(计算机网络领域) 在计算机网络领域,中国计算机学会(CCF)推荐的C类会议和期刊为研究者提供了广泛的学术交流平台。以下是对所有C类会议和期刊的总结,包括全称、出版社、dblp文献网址以及所属领域。 目录 CCF推荐C类会议和期刊总结(计算机网络领域) C类期刊 1. Ad Hoc Networks 2. CC 3. TNSM 4. IET Com

面对Redis数据量庞大时的应对策略

面对Redis数据量庞大时的应对策略,我们可以从多个维度出发,包括数据分片、内存优化、持久化策略、使用集群、硬件升级、数据淘汰策略、以及数据结构选择等。以下是对这些策略的详细探讨: 一、数据分片(Sharding) 当Redis数据量持续增长,单个实例的处理能力可能达到瓶颈。此时,可以通过数据分片将数据分散存储到多个Redis实例中,以实现水平扩展。分片的主要策略包括: 一致性哈希:使用一

笔记本电脑开机报错故障的原因及解决办法

笔记本电脑开机报错故障是指笔记本电脑开机自检时或启动操作系统前停止启动,在显示屏 出现一些错误提示的故障。   笔记本电脑开机报错故障的原因及解决办法   造成此类故障的原因一般是笔记本电脑在启动自检时,检测到硬件设备不能正常工作或在自 检通过后从硬盘启动时,出现硬盘的分区表损坏、硬盘主引导记录损坏、硬盘分区结束标志丢失 等故障,笔记本电脑出现相应的故障提示。   维修此类故障时

Windows系统不关机故障的解决方法

当Windows系统出现不关机故障时,首先要查找引起Windows系统不关机的原因,然后根据 具体的故障原因采取相应的解决方法。   Windows系统不关机故障的解决方法如下。   1.检查所有正在运行的程序   检查运行的程序主要包括关闭任何在实模式下加载的TSR程序、关闭开机时从启动组自动启 动的程序、关闭任何非系统引导必需的第三方设备驱动程序。   检查运行的程序并停

网络安全运维培训一般多少钱

在当今数字化时代,网络安全已成为企业和个人关注的焦点。而网络安全运维作为保障网络安全的重要环节,其专业人才的需求也日益增长。许多人都对网络安全运维培训感兴趣,那么,网络安全运维培训一般多少钱呢?   一、影响网络安全运维培训价格的因素   1. 培训内容的深度和广度   不同的网络安全运维培训课程涵盖的内容有所不同。一些基础的培训课程可能主要涉及网络安全基础知识、常见安全工具的使用等,价

BERN2(生物医学领域)命名实体识别与命名规范化工具

BERN2: an advanced neural biomedical named entity recognition and normalization tool 《Bioinformatics》2022 1 摘要 NER和NEN:在生物医学自然语言处理中,NER和NEN是关键任务,它们使得从生物医学文献中自动提取实体(如疾病和药物)成为可能。 BERN2:BERN2是一个工具,