本文主要是介绍产品新说:应急定界 | 如何在运维/技术支持领域中应对突发故障?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
一、简介
应急定界的方案旨在帮助运维人员以业务故障驱动为起点,第一时间的快速恢复业务。该场景的条件基础是通过构建一体化监控告警平台,纳管应用与基础组件,提供业务系统监测、及时告警、排查分析能。通过告警、指标、日志、链路等重要运维数据异常检测的能力,结合运维对象关系、告警发生时序关系快速智能的得出故障定界的结论,并匹配处置预案,用可观测的方式为运维人员提供决策依据。
二、需求背景
以金融行业为例,《金融科技发展规划(2022-2025)》以及银保监办[2022]2号文中均有强调,要求金融企业建立金融数据中心智能化运维机制,明确了要重视数据治理方面的工作并提出要合理运用大数据加强态势感知、故障预警和自愈,不断提高智能运维水平。
三、功能展示(部分)
1.跨业务系统故障分析
同时遍历管理多个业务系统,,从业务链路溯源,通过告警时序、对象拓扑关系快速定位故障源头。
2.单业务系统故障分析
单业务系统下事件问题的源端对象可能来自微服务、数据库、消息队列、云服务或网络组件等,通过分层分类的观测结合智能分析工具来准确定位处置对象。
3.应用交易指标分析
依据交易类型、交易渠道、分支机构等不同统计维度,通过聚焦热点异常维度和历史同环对比等分析工具,快速锁定具体的业务问题,并迅速采取对应交易类型限流或版本回滚等操作
4.微服务链路分析
对于由微服务化后的请求调用链路会十分复杂,造成业务链路故障的根因可能是服务器状态、数据访问、资源瓶颈等,对微服务多层链路和相关指标的可观测,是定位分布式架构下故障原因的必备手段。
四、落地实例
关键词:异常访问、快速定障、事后复盘
某国有大行在4月初的某天,手机银行系统突然爆出大量访问异常,包括用户登录异常、转账失败等。运维人员通过应急定界场景进行告警时序的排查,结合链路、指标、日志等维度数据,快速定位到是核心交易系统出现故障,经过深入挖掘发现是对公业务板块的问题,马上启动备用系统,快速恢复业务。经过数十分钟的抢修和复盘,表明此次事故是由于此时为企业工资发放高峰期,加上个人转账业务数量攀升,导致的系统瘫痪,后已全面恢复,并根据故障点进行了深度的维护升级。
在常规的业务运营中,出现生产事故是随时可能发生的事情,为了最大程度的减少损失,快速恢复业务,企业一定要尽量满足监管给到的1-5-10 等要求,因此需要搭建具备能够以业务故障驱动为起点的一体化告警平台,利用其中的多种场景组合,为业务运营的平稳高效打造出坚固屏障。
五、建设思路
1、 提升整体可观测能力
整合专业领域工具,提高业务故障驱动下的应急分析能力,数据统一汇总,破除信息孤岛,治理以运维对象和告警为主的关键数据。
2、工具化分析能力
将应急能力工具化,提升应急定界和处置的成功率,全面进行数据治理以支持复杂场景的分析效率和能力,形成系统化的定障机制沉淀。
3、自动化根因定位和恢复
实现运维数据关联的自动发现,自动匹配恢复预案,结合大模型实现交互式排障分析,完成一键推理总结。
六、风险预警场景建设收益
1、业务连续性提升
通过快速定界提升业务系统的故障恢复效率,提高业务连续性
2、提高技术赋能
赋能一线运维快速分析和定障的能力
3、获得经验沉淀
复盘事件整体思路和数据,制定对应预案
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择
了解更多运维干货与行业前沿动态
可以右上角一键关注
我们是深耕智能运维领域近十年的
连续多年获Gartner推荐的AIOps标杆供应商
下期我们不见不散~
这篇关于产品新说:应急定界 | 如何在运维/技术支持领域中应对突发故障?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!