优维全面可观测产品能力分解②:变更可观测

2024-01-30 05:04

本文主要是介绍优维全面可观测产品能力分解②:变更可观测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

上周,我们推出了优维全面可观测能力介绍的系列性文章的第一篇:架构可观测。优维架构可观测是从系统架构的视角来呈现链路与服务的状态数据,点击可回看:架构可观测文章。本周,我们将推出本系列性文章的第二篇:变更可观测

故障60%到80% 是由于变更引起的。

对于生产环境的稳定性,是各个行业相关公司都关注的。尤其是对于金融行业及大型互联网公司来说,稳定性就显得更为重要,另外,从诱发稳定性问题的原因分析来说,变更问题所占据的比例,常年超过一半以上,而故障60%到80% 是由于变更引起的。历史上因此产生的重大故障不胜枚举。

当公司业务规模扩大,系统采用分布式结构后,会增加系统的复杂性。同时,随着业务复杂性的提升,不同部门间的协作关系也变得更加错综复杂。这样一来,在大型企业中,进行任何改动或变更的挑战就更大了。

所以,对于稳定性来说,业界的一个共识是:预测及防控变更风险,稳定性问题就解决了一半以上。

1

变更遇到的问题

虽然说业界有了上述的一个共识,但诱发线上问题的根因是多种多样的。就如优维交付团队在辅助客户进行生产上变更时,就遇到以下问题:

  • 变更过程难以观测:生产环境中超过60%的故障来源于主动变更,业务运维难以从变更的角度观察是否给应用系统引入异常,变更活动只能“听天由命”。
  • 变更存在信息孤岛:支撑系统运行的应用程序、计算资源、存储、甚至网络等等环节由不同部门负责管理,各个环节的运维变更犹如信息孤岛,业务运维难以掌握和管理这些变更给应用系统带来的影响。

基于上述存在的问题,优维「变更可观测」旨在帮助用户观测生产环境的系统变更行为,让业务运维可以更加准确地评估系统健康状态,同时辅助其更高效地处理变更引起的故障,确保系统的稳定性与连续性。

2

优维变更可观测能力

优维「变更可观测」以变更事件为出发点,以应用系统为中心,帮助用户主动发现变更引入的异常,防止轻微异常扩大成故障。同时,消除信息孤岛,拉通东西向变更、南北向变更及变更时间流构成三维立体的变更观测视角,为运维提供全方位的变更洞察。

整体技术思路

基于用户痛点的洞察,优维变更可观测的思路是打通两个维度。

第一个维度要从东西向视角打通应用系统过往的变更历史,知道应用系统做过哪些变更;第二个维度是要从南北向视角打通支撑应用系统的各级资源,弄清楚分别有哪些资源,掌握资源的运行状况。

通过掌握以上两个维度的信息,横向上从系统变更工单的视角出发,通过变更工单可查看系统本身服务是否有告警,服务当前的健康指标状况,以及之前是否有故障工单的存在。同时,纵向上可查看系统各级资源,如各种中间件、数据库、存储等资源是否有告警,是否有做过变更,及资源当前是否存在故障。

核心功能

基于全面技术框架的双重视角,变更可观测性引入了一个横向的时间轴维度,使用户能够追溯过去72小时内的系统变更全景。用户通过这一时间序列分析功能,可深度洞察近三日内系统所实施的所有变更活动及其具体事件详情,并在变更执行后,能够精准关联并揭示由此触发的各类告警与故障现象,从而实现对系统健康状态的持续监控与有效管理。

在纵向维度上,用户能够对比查看服务变更前后的告警状态演变。同时,通过引入系统资源图谱,使用户能够宏观把握各类资源的告警态势,并能进一步详细了解特定资源类型的实例分布及其性能指标情况。

当某类资源出现异常告警时,用户可以沿此路径进行递进式下探分析,精确获取关联资源的详细告警记录、变更历史及故障详情信息,以实现全方位、多层次的运维洞察与问题定位。

3

变更可观测的应用场景

变更可观测主要覆盖以下应用场景:

  1. 追踪变更历史:要掌握生产环境一切变更计划和行动,回溯多渠道、全类型的变更,包括不限于应用变更、配置变更、数据库变更等。
  2. 健康态势评估:帮助业务运维/系统运维了解变更后系统是否存在异常,多次变更之间是否存在相互影响,融合系统资源图谱、资源告警及其他事件来得到一个关于变更后系统健康态势的准确评估。
  3. 辅助故障诊断:基于系统访问架构,融合指标监控、告警和事件信息,辅助业务运维进行故障诊断。

4

变更可观测的四大场景价值

  1. 观测变更的服务是否存在异常:变更完成后通过应用系统的角度查看变更的服务时存在的异常情况,主动观测、主动解决变更后服务可能存在的健康问题,防止问题恶化演变成为故障。
  2. 订阅变更报告:当运维成熟度足够高以后,业务运维可以订阅指定系统的变更报告,以定时推送或故障推送的方式在远端获取变更详情。提高运维灵活性,提高运维成熟度。
  3. 观测应用系统依赖的资源是否存在异常:将观测视角沿南北向下钻到基础设施资源层面,防止资源异常影响上层应用程序,甚至业务的故障。
  4. 查看应用系统依赖的变更记录:消除部门间信息孤岛,为业务运维带来更加丰富、全面的系统变更信息。

变更可观测是提升生产环境稳定性的一个重要洞察能力,相关应用场景的功能实力也在逐步完善建设起来,我们希望能给用户带来更精益、更可靠的可观测能力。

这篇关于优维全面可观测产品能力分解②:变更可观测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/659176

相关文章

EasyPlayer.js网页H5 Web js播放器能力合集

最近遇到一个需求,要求做一款播放器,发现能力上跟EasyPlayer.js基本一致,满足要求: 需求 功性能 分类 需求描述 功能 预览 分屏模式 单分屏(单屏/全屏) 多分屏(2*2) 多分屏(3*3) 多分屏(4*4) 播放控制 播放(单个或全部) 暂停(暂停时展示最后一帧画面) 停止(单个或全部) 声音控制(开关/音量调节) 主辅码流切换 辅助功能 屏

从状态管理到性能优化:全面解析 Android Compose

文章目录 引言一、Android Compose基本概念1.1 什么是Android Compose?1.2 Compose的优势1.3 如何在项目中使用Compose 二、Compose中的状态管理2.1 状态管理的重要性2.2 Compose中的状态和数据流2.3 使用State和MutableState处理状态2.4 通过ViewModel进行状态管理 三、Compose中的列表和滚动

STL经典案例(四)——实验室预约综合管理系统(项目涉及知识点很全面,内容有点多,耐心看完会有收获的!)

项目干货满满,内容有点过多,看起来可能会有点卡。系统提示读完超过俩小时,建议分多篇发布,我觉得分篇就不完整了,失去了这个项目的灵魂 一、需求分析 高校实验室预约管理系统包括三种不同身份:管理员、实验室教师、学生 管理员:给学生和实验室教师创建账号并分发 实验室教师:审核学生的预约申请 学生:申请使用实验室 高校实验室包括:超景深实验室(可容纳10人)、大数据实验室(可容纳20人)、物联网实验

雷动WEBRTC产品

http://www.rtcpower.com/html/leidongwebrtc.html ; 1.前言      WebRTC是一项在浏览器内部进行实时视频和音频通信的技术,是谷歌2010年以6820万美元收购Global IP Solutions公司而获得一项技术。WebRTC实现了基于网页的视频会议,标准是WHATWG 协议,目的是通过浏览器提供简单的javascript就可以

如何掌握面向对象编程的四大特性、Lambda 表达式及 I/O 流:全面指南

这里写目录标题 OOP语言的四大特性lambda输入/输出流(I/O流) OOP语言的四大特性 面向对象编程(OOP)是一种编程范式,它通过使用“对象”来组织代码。OOP 的四大特性是封装、继承、多态和抽象。这些特性帮助程序员更好地管理复杂的代码,使程序更易于理解和维护。 类-》实体的抽象类型 实体(属性,行为) -》 ADT(abstract data type) 属性-》成

图解可观测Metrics, tracing, and logging

最近在看Gophercon大会PPT的时候无意中看到了关于Metrics,Tracing和Logging相关的一篇文章,凑巧这些我基本都接触过,也是去年后半年到现在一直在做和研究的东西。从去年的关于Metrics的goappmonitor,到今年在排查问题时脑洞的基于log全链路(Tracing)追踪系统的设计,正好是对这三个话题的实践。这不禁让我对它们的关系进行思考:Metrics和Loggi

C++第四十七弹---深入理解异常机制:try, catch, throw全面解析

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C++详解】 目录 1.C语言传统的处理错误的方式 2.C++异常概念 3. 异常的使用 3.1 异常的抛出和捕获 3.2 异常的重新抛出 3.3 异常安全 3.4 异常规范 4.自定义异常体系 5.C++标准库的异常体系 1.C语言传统的处理错误的方式 传统的错误处理机制:

全球AI产品Top100排行榜

Web Top50的榜单里,AIGC类型的应用占比52%,遥遥领先。AIGC类型包括图像、视频、音乐、语音等的内容生成和编辑。音乐生成应用Suno在过去六个月中的排名跃升最为显著,从第36位上升至第5位。排名第二大类是通用对话/AI聊天/角色扮演类型的应用,占比20%,包括常见的ChatGPT、Claude、Character.ai等。其他是AI写作(8%)、AI搜索/问答(6%)、Agent/

分布式事务 全面解析

1 面试题 分布式事务了解吗?你们如何解决分布式事务问题的? 2 考点分析 只要聊到做了分布式系统,必问分布式事务,若你对分布式事务一无所知的话,确实很坑,起码得知道有哪些方案,一般怎么来做,每个方案的优缺点是什么。 现在面试,分布式系统成了标配,而分布式系统带来的分布式事务也成了标配. 你做系统肯定要用事务,那你用事务的话,分布式系统之后肯定要用分布式事务. 先不说你搞过没有,起码你

特征值分解(EVD)和奇异值分解(SVD)—应用于图片压缩

特征值分解(EVD)和奇异值分解(SVD)—应用于图片压缩 目录 前言 一、特征值分解 二、应用特征值分解对图片进行压缩 三、矩阵的奇异值分解 四、应用奇异值分解对图片进行压缩 五、MATLAB仿真代码 前言         学习了特征值分解和奇异值分解相关知识,发现其可以用于图片压缩,但网上没有找到相应代码,本文在学习了之后编写出了图片压缩的代码,发现奇异值分