优维「Easy分析」:一款故障根因分析小神器

2024-06-08 02:20

本文主要是介绍优维「Easy分析」:一款故障根因分析小神器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图片

背 景

随着微服务架构的普及,现代企业的IT基础设施已经变得越来越复杂。单一的服务可能有多个下游依赖,而这些依赖又可能有自己的子依赖,和主机资源的依赖。在这样的环境中,当某个服务发生故障,确定具体的原因变得尤为困难。传统的故障排查方法,如手动检查日志或询问开发团队,既耗时又不一定能找到真正的根源。

此外,随着DevOps和持续集成/持续部署(CI/CD)的普及,应用的发布频率大大增加,这使得发布引起的服务中断变得更为常见。同时,资源和基础设施的动态性也为故障诊断带来了挑战。

为了应对这些挑战,优维设计了“Easy分析”服务故障根因分析工具,旨在为技术团队提供一个集成、自动化的解决方案,帮助其迅速、准确地定位服务故障时的原因。

下面,从具体场景出发,详细介绍服务故障根因分析工具。

1

应用发布导致的服务故障

1.1 概述

应用发布可能导致服务运行出现不稳定或其他未预期的影响。当服务发出告警时,本功能将自动分析告警指标,检测服务或其下游服务在最近是否发生过变更。

1.2 核心功能

  • 变更检测:当服务告警时,系统会自动检测与告警相关的服务是否近期有变更事件,如启动、关闭、升级或重启等。

  • 双态部署事件联动:与双态部署系统紧密集成,获取最新的部署和变更事件信息。

  • 告警与变更关联:为告警事件提供直接与变更事件的关联,帮助团队快速确定是否有发布活动导致的故障。

  • 消费CMDB数据:根据cmdb的服务相关的模型,自动关联下游服务的变更事件

1.3 场景说明及配置

假设微服务集群中,提供了一个名为flounder_metric的服务。服务的请求一般是从api_gateway接入到集群中,并且基于url路由至具体的应用组件来处理请求。因此,在这个场景中,存在这样一个调用关系:api_gateway -> flounder_metric

在服务监控中,我们会对flounder_metric的接口进行拨测。配置的步骤如下:

  • 建立内网拨测策略,指定监控的应用是「http-logic.api_gateway」,它是api_gateway应用的服务标识;

  • 配置关于flounder_metric服务的接口,在变量定义中,通过$.subservices.ip会自动获取到服务下子服务的IP地址。

图片

保存后即可。

此时配置基于detect_code的告警规则,即可完成对该接口的监控。

1.4 故障触发和根因分析

我们人为触发一个服务告警,通过双态部署,关闭flounder_metric服务。

图片

稍后,将触发一个拨测告警:

图片

我们通过事件详情,点击故障分析:

图片

此时将看到故障分析页面,让我们来解释一下:

图片

上方是告警事件的告警对象和告警指标持续的时间,可以看到告警持续时间范围是 11:55~12:04。

接下来就是根因分析的结论,一共发现1个结论,和应用发布的变更相关。具体来说,有两个分析:

  • http-logic.api_gateway有告警事件,没有变更事件,说明不是api_gatewaya变更导致;

  • 由于api_gateway的下游是flounder_metric服务,而该服务在12:00分发生了停止操作,进而触发了告警,因此分析为:下游HTTP服务http-logic.flounder_metric的变更导致的故障(这也是此次故障的真正原因)。

1.5 结论

在微服务架构中,服务间的相互依赖和频繁的应用发布行为可能会导致复杂的故障情况。在本场景中,通过"服务故障根因分析"工具,我们成功地自动检测到flounder_metric服务的停止操作是导致api_gateway服务拨测告警的直接原因。该工具能够智能地关联告警事件与近期的应用变更,准确快速地定位到真实的故障原因。

此次案例展示了"服务故障根因分析"工具的核心功能,即自动识别与故障相关的变更,并为技术团队提供明确的、数据驱动的根因分析。此功能大大减少了故障诊断时间,并提高了故障恢复的效率。

2

依赖资源高负载导致的服务故障

2.1 概述

服务的性能和稳定性可能受到其运行环境的影响,特别是当它依赖的资源或子服务处于高负载状态时。本功能提供了与资源负载告警的自动关联能力,帮助识别故障的根本原因。

2.2 核心功能

  • 资源负载告警关联:当服务延迟或其他性能指标出现问题时,系统会自动检测与该服务关联的子服务部署实例主机是否有高负载告警。

  • 直观的负载影响分析:为用户提供一个清晰的视图,展示服务与其依赖资源之间的关系,以及哪些资源的高负载可能影响了服务的性能。

  • 资源性能指标对比:允许用户对比服务性能指标与资源负载指标,例如,当服务延迟增加时,可以立即查看其所在主机的CPU或内存使用情况。

2.3 场景说明及配置

假设微服务集群中,提供了一个名为cmdb_service的服务,并且对它的延迟做监控。我们设定SLO是10ms,并且手动触发系统高负载,来审视根因分析的准确性。

为了实现这个场景,我们人为设定当「磁盘IO的使用率」过高并触发告警后,再触发延迟告警。

当告警发生后,我们点击故障分析,进入分析页:

图片

分析页面如上所示,让我们解释一下。

  • 由于alert_service的下游是tool.sandbox,并且这两个服务都在主机:prod-host-10-36-enterprise-7-logic,并且该主机发生磁盘IO操作的CPU使用率过高的告警。因此根因分析就会把这些关系和告警联系起来,并告知给用户。

除了「磁盘IO操作的CPU使用率」,还有「5分钟单核负载」,「网络流量」等指标均可触发高负载场景的分析。

2.4 结论

在微服务架构中,单一服务的性能往往与其所依赖的其他服务和资源紧密相关。我们在这次的模拟场景中成功地展示了如何通过“服务故障根因分析”工具来识别和关联服务延迟增加与其所在主机的资源高负载之间的因果关系。

这种自动化的、综合的分析方法大大简化了故障诊断过程,确保了更快速、更准确的问题定位和解决,进一步提高了服务的稳定性和可用性。

3

支持按拓扑形式分析故障演变情况

故障根因分析的分析视图改版,支持按拓扑形式分析故障演变情况。在旧版本中,尽管可以关联并分析出所有可能导致故障的原因,但是分析视图所携带的信息过于繁琐和冗余,不利于高效分析的目的。在新版故障分析视图中,支持以故障拓扑的形式去智能分析故障演化路径。如下所示:

图片

如上图所示:红色为底色的方框代表服务产生的告警,比如端口拨测失败。

而后展示了和此服务关联的其他服务的变更情况,由图可知,是17*.3*.**.**上的scheduler_service发生了变更导致服务告警。

图片

如此可以帮助用户快速排除服务故障的原因是否由于变更产生。

这篇关于优维「Easy分析」:一款故障根因分析小神器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1040966

相关文章

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

MOLE 2.5 分析分子通道和孔隙

软件介绍 生物大分子通道和孔隙在生物学中发挥着重要作用,例如在分子识别和酶底物特异性方面。 我们介绍了一种名为 MOLE 2.5 的高级软件工具,该工具旨在分析分子通道和孔隙。 与其他可用软件工具的基准测试表明,MOLE 2.5 相比更快、更强大、功能更丰富。作为一项新功能,MOLE 2.5 可以估算已识别通道的物理化学性质。 软件下载 https://pan.quark.cn/s/57

衡石分析平台使用手册-单机安装及启动

单机安装及启动​ 本文讲述如何在单机环境下进行 HENGSHI SENSE 安装的操作过程。 在安装前请确认网络环境,如果是隔离环境,无法连接互联网时,请先按照 离线环境安装依赖的指导进行依赖包的安装,然后按照本文的指导继续操作。如果网络环境可以连接互联网,请直接按照本文的指导进行安装。 准备工作​ 请参考安装环境文档准备安装环境。 配置用户与安装目录。 在操作前请检查您是否有 sud

线性因子模型 - 独立分量分析(ICA)篇

序言 线性因子模型是数据分析与机器学习中的一类重要模型,它们通过引入潜变量( latent variables \text{latent variables} latent variables)来更好地表征数据。其中,独立分量分析( ICA \text{ICA} ICA)作为线性因子模型的一种,以其独特的视角和广泛的应用领域而备受关注。 ICA \text{ICA} ICA旨在将观察到的复杂信号

【软考】希尔排序算法分析

目录 1. c代码2. 运行截图3. 运行解析 1. c代码 #include <stdio.h>#include <stdlib.h> void shellSort(int data[], int n){// 划分的数组,例如8个数则为[4, 2, 1]int *delta;int k;// i控制delta的轮次int i;// 临时变量,换值int temp;in

三相直流无刷电机(BLDC)控制算法实现:BLDC有感启动算法思路分析

一枚从事路径规划算法、运动控制算法、BLDC/FOC电机控制算法、工控、物联网工程师,爱吃土豆。如有需要技术交流或者需要方案帮助、需求:以下为联系方式—V 方案1:通过霍尔传感器IO中断触发换相 1.1 整体执行思路 霍尔传感器U、V、W三相通过IO+EXIT中断的方式进行霍尔传感器数据的读取。将IO口配置为上升沿+下降沿中断触发的方式。当霍尔传感器信号发生发生信号的变化就会触发中断在中断

kubelet组件的启动流程源码分析

概述 摘要: 本文将总结kubelet的作用以及原理,在有一定基础认识的前提下,通过阅读kubelet源码,对kubelet组件的启动流程进行分析。 正文 kubelet的作用 这里对kubelet的作用做一个简单总结。 节点管理 节点的注册 节点状态更新 容器管理(pod生命周期管理) 监听apiserver的容器事件 容器的创建、删除(CRI) 容器的网络的创建与删除

PostgreSQL核心功能特性与使用领域及场景分析

PostgreSQL有什么优点? 开源和免费 PostgreSQL是一个开源的数据库管理系统,可以免费使用和修改。这降低了企业的成本,并为开发者提供了一个活跃的社区和丰富的资源。 高度兼容 PostgreSQL支持多种操作系统(如Linux、Windows、macOS等)和编程语言(如C、C++、Java、Python、Ruby等),并提供了多种接口(如JDBC、ODBC、ADO.NET等

OpenCV结构分析与形状描述符(11)椭圆拟合函数fitEllipse()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C++11 算法描述 围绕一组2D点拟合一个椭圆。 该函数计算出一个椭圆,该椭圆在最小二乘意义上最好地拟合一组2D点。它返回一个内切椭圆的旋转矩形。使用了由[90]描述的第一个算法。开发者应该注意,由于数据点靠近包含的 Mat 元素的边界,返回的椭圆/旋转矩形数据