全球首创!Kindling-OriginX 故障根因推理引擎正式发布!

本文主要是介绍全球首创!Kindling-OriginX 故障根因推理引擎正式发布!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

经过长时间的精心研发和不断优化,Kindling-OriginX 产品团队成功推出创新性的产品—Kindling-OriginX 故障根因推理引擎。这将从根本上给现有的排障流程、故障响应机制、可观测性方案带来全新的体验。进入Kindling-OriginX官方网站了解更多。


什么是 Kindling-OriginX?

Kindling-OriginX 是杭州云观秋毫科技有限公司利用创新型 TraceProfiling 技术构建的一款故障根因推导产品。Kindling-OriginX 故障根因推理引擎利用 AI 和 eBPF 以及专家经验精准梳理各类分散监控指标与日志智能生成故障根因报告,助力用户轻松实现 1-5-10。

Kindling-OriginX 旨在助力每个人都能够轻松具备专家级排障能力,使每一位技术人员都能够做到5分钟定位故障根因,从而帮助企业真正落地实践 1-5-10 故障响应机制,提高故障处理的效率和准确性。无论是代码层面故障、还是基础设施层面故障、亦或是微服务系统中复杂的级联故障,Kindling-OriginX 都能够准确定位故障根因,给出故障根因报告。


Kindling-OriginX 带来了什么?

排障方式的革新

目前各种可观测性工具 Traces、Metrics、Logging 的使用对于简单故障的定位和排查在一定程度上能够提供比较有效的帮助,特别是在有相关经验处置人员的情况下,对于大部分比较简单的故障场景基本都能够做到有效覆盖,快速处置。

但在实际业务场景中却存在着很大的局限性,一方面专家难寻,同时专家也受限于已有经验,缺乏标准化流程,往往对于有过类似经验的故障,能够比较快速定位处理,无法明确根因的问题,只能通过不断猜测验证,容易丢失1-5-10目标。另一方面现代分布式系统,特别是当前云原生环境下的微服务系统,故障往往都是以级联故障的形式表现出来,单靠个人经验和传统 Traces、Metrics、Logging 类数据难以快速定位问题根因,导致 1-5-10 目标难以真正落地实践。

针对目前这些问题,Kindling-OriginX 通过 Trace 来组织故障线索,利用 eBPF 技术,基于主流可观测性产品技术栈,将每个故障 Trace 来都直接给出故障根因报告,对每个故障节点都直接给出结论,通过结合故障处置优先级原则,不仅能使级联故障根因得到快速定位,也能赋予每一位技术人员专家级的排障经验。

告警理念的转变

传统告警体系主要以经验教训为导向,即告警规则和告警指标这些线索都是通过行业经验或者历史经验得到,随着业务复杂化,不可避免的会导致告警的数量和种类也越来越多。一方面如果减少告警,就可能导致故障隐患或者导致缺失故障线索;另一方面持续增加告警,又会带来噪声和告警风暴,不仅有可能埋没根因,还有可能导致OnCall人员麻痹大意,忽略真正有巨大隐患的告警信息。

Kindling-OriginX 提出仅仅依赖 API SLO 违约告警的故障处置流程。Kindling-OriginX 中只有业务请求受到故障影响才会告警,其他时候指标异常、故障都不会告警。

一方面 Kindling-OriginX 认为不管何种故障,最终都会影响到业务体验上,如果业务体验没有任何影响,即系统中任何请求和访问都既没有变慢也没有出错,那么这个故障为什么能称之为故障呢?SLO 违约告警其本质是依赖于 Google 提出的运维黄金指标来判断业务是否正常,如果业务不正常了,SLO 也就产生违约了。

另一方面 Kindling-OriginX 的核心能力就是故障根因推导,能够分钟级甚至秒级定位故障根因同时给出故障报告。在这种能力的加持下,故障处置人员就不需要根据各类冗杂的指标告警来提示根因,直接从故障根因报告中就能够得到已定位的初因,同时能够对故障根因推导的过程进行审阅,确认在整个推导过程中哪些指标出现异常,为后续采用何种处置预案提供更明确的数据和方向指引。

在实际使用中,用户只需要设定和关注 API 的 SLO,结合 Kindling-OriginX 精准高效的故障根因分析技术,就能够使用户在极短的时间内响应并解决问题,发现各种隐患。这意味着即使是没有深厚技术背景和强大专家团队的用户也能够利用 Kindling-OriginX 来达成 1-5-10 目标。


为什么 Kindling-OriginX 能够做到?

基于eBPF技术

​利用 eBPF 技术能够深入内核,拦截线程执行用户代码的关键点位获取信息,在获得线程执行关键信息之后能够还原线程的执行过程,进而获取到传统监控无法采集到的内核层指标,实现更精准深入的分析。

创新型TraceProfiling

实际业务系统中开发和运维所讨论的故障都是URL维度的用户请求调用,所以光有线程维度程序执行过程是不够的,需要和 Tracing 系统关联。 当线程执行过程与 Tracing 系统关联之后,才能完整还原用户一次请求的执行过程。Kindling-OriginX 通过 eBPF 和 TraceProfiling 技术,精准捕捉每一次调用,自动组织和关联高价值的故障关联数据。

北极星排障指标体系

龙蜥社区与 Kindling 社区联合发布北极星排障指标体系,构建出了一套排障指标体系与标准化的步骤,力求为目前业界在故障处置流程中遇到的各种困境找到一条可操作可落地的标准化排障之道。Kindling-OriginX 基于北极星排障指标体系深入拆解分析各类关键指标,让标准化排障真正做到可操作可实践。

无缝集成主流可观测性技术栈

Kindling-OriginX 基于目前云原生主流技术栈构建,无需对当前系统观测工具体系做大规模改造,只需简单安装部署即可完成安装集成。同时对宿主节点各类资源占用消耗极少,几乎对现有业务系统零侵入。

私有化存储

Kindling-OriginX 采用边缘节点架构设计,一方面保证高效完成数据分析和故障根因推导,另一方面数据完全私有化存储,用户拥有全部数据的绝对控制权。无需担心数据安全与数据隐私问题。


立刻开启专家级排障之路

我们相信 Kindling-OriginX 故障根因推理引擎的出现定将会为当前企业和技术团队在故障处置、系统优化、云原生可观测性等相关领域带来理念的变革和效率的提升。同时 Kindling-OriginX 也致力于推动云原生可观测性生态真正在业务场景中落地实践,帮助企业在消除盲区的同时,真正能够落地 1-5-10。

点击进入 Kindling-OriginX 官方网站,通过在线Demo体验真实系统中 Kindling-OriginX 的故障推理效果演示。

如果您有任何疑问或合作需求,请随时联系我们。添加微信小助手进群交流,我们非常期待和您的沟通交流。

了解更多有关云原生可观测及 Kindling-OriginX 排障实战相关信息,敬请关注我们的公众号,感谢大家的支持和关注!

这篇关于全球首创!Kindling-OriginX 故障根因推理引擎正式发布!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/706647

相关文章

Window Server创建2台服务器的故障转移群集的图文教程

《WindowServer创建2台服务器的故障转移群集的图文教程》本文主要介绍了在WindowsServer系统上创建一个包含两台成员服务器的故障转移群集,文中通过图文示例介绍的非常详细,对大家的... 目录一、 准备条件二、在ServerB安装故障转移群集三、在ServerC安装故障转移群集,操作与Ser

windos server2022的配置故障转移服务的图文教程

《windosserver2022的配置故障转移服务的图文教程》本文主要介绍了windosserver2022的配置故障转移服务的图文教程,以确保服务和应用程序的连续性和可用性,文中通过图文介绍的非... 目录准备环境:步骤故障转移群集是 Windows Server 2022 中提供的一种功能,用于在多个

五大特性引领创新! 深度操作系统 deepin 25 Preview预览版发布

《五大特性引领创新!深度操作系统deepin25Preview预览版发布》今日,深度操作系统正式推出deepin25Preview版本,该版本集成了五大核心特性:磐石系统、全新DDE、Tr... 深度操作系统今日发布了 deepin 25 Preview,新版本囊括五大特性:磐石系统、全新 DDE、Tree

Linux Mint Xia 22.1重磅发布: 重要更新一览

《LinuxMintXia22.1重磅发布:重要更新一览》Beta版LinuxMint“Xia”22.1发布,新版本基于Ubuntu24.04,内核版本为Linux6.8,这... linux Mint 22.1「Xia」正式发布啦!这次更新带来了诸多优化和改进,进一步巩固了 Mint 在 Linux 桌面

多模块的springboot项目发布指定模块的脚本方式

《多模块的springboot项目发布指定模块的脚本方式》该文章主要介绍了如何在多模块的SpringBoot项目中发布指定模块的脚本,作者原先的脚本会清理并编译所有模块,导致发布时间过长,通过简化脚本... 目录多模块的springboot项目发布指定模块的脚本1、不计成本地全部发布2、指定模块发布总结多模

如何测试计算机的内存是否存在问题? 判断电脑内存故障的多种方法

《如何测试计算机的内存是否存在问题?判断电脑内存故障的多种方法》内存是电脑中非常重要的组件之一,如果内存出现故障,可能会导致电脑出现各种问题,如蓝屏、死机、程序崩溃等,如何判断内存是否出现故障呢?下... 如果你的电脑是崩溃、冻结还是不稳定,那么它的内存可能有问题。要进行检查,你可以使用Windows 11

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

Nacos客户端本地缓存和故障转移方式

《Nacos客户端本地缓存和故障转移方式》Nacos客户端在从Server获得服务时,若出现故障,会通过ServiceInfoHolder和FailoverReactor进行故障转移,ServiceI... 目录1. ServiceInfoHolder本地缓存目录2. FailoverReactorinit

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

Vue3项目开发——新闻发布管理系统(六)

文章目录 八、首页设计开发1、页面设计2、登录访问拦截实现3、用户基本信息显示①封装用户基本信息获取接口②用户基本信息存储③用户基本信息调用④用户基本信息动态渲染 4、退出功能实现①注册点击事件②添加退出功能③数据清理 5、代码下载 八、首页设计开发 登录成功后,系统就进入了首页。接下来,也就进行首页的开发了。 1、页面设计 系统页面主要分为三部分,左侧为系统的菜单栏,右侧