打造精细化运维新玩法(一)

2024-06-07 10:12
文章标签 玩法 精细化 维新 打造

本文主要是介绍打造精细化运维新玩法(一),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、SLO介绍——为什么需要SLO

二、SLO健康度——从0到1构建SLO

三、AIOps赋能——SLO和智能化结合

四、案例介绍——实践场景和运营探索

五、总结

精细化运维是运维演进的必由之路,是综合业务需求、研发效能、稳定性保障、成本优化、架构治理等多种因素驱动的必然结果。为了实现精细化运维,首先要完成运维的数字化转型,管理学大师[美] 彼得.德鲁克说过,If you can't measure it, you can't manage it。在实践中,我们存在大量的运维数据,如何让这些数据充分发挥价值、形成对企业有用的资产,是我们探索和实践的主要方向之一。

本文的分享主要围绕SLO体系建设展开,在相对标准、统一的框架下指导和推动服务质量的数字化建设,结合具体的运维场景和背景,沉淀对组织有价值的数据资产和流程规范。同时分享了一些SLO运维实践案例供大家参考,希望有所启发和收获。

一、SLO介绍——为什么需要SLO

在展开SLO(Service Level Objective)介绍之前,我们先从一个熟悉的运维场景出发,希望通过具体的案例可以让大家快速代入。

值班处理故障,是大多数SRE和运维工程师的日常。在蚂蚁,基础设施负责的K8S,提供面向集团所有二方系统的算力交付,SRE的职责之一就是保障交付质量和稳定性。好几年前的某天,我们在Pod交付的用户群接到报障,反馈的现象是二方系统无法创建Pod资源或是交付时好时坏,接收到用户侧报障之后,值班SRE就展开了一些列的问题排查,这是一个典型的故障驱动型的问题发现。

众所周知,K8S是一套非常复杂的系统,由众多的组件协同来异步完成资源交付。简单概述下排查的思路,因为用户报障现象是交付失败时有发生,并非完全不可用,所以最先怀疑的方向是请求容量是否有激增,导致调度任务积压,通过监控查看队列也确实如此,为了避免任务重试导致队列进一步积压,执行了一些列的降级操作,随着时间的推移,故障有所缓解,但并没有得到彻底修复。直到第二天,通过变更排查,定位到调度器的规格大小被做了limit限制,这意味着调度器组件将无法像之前一样“贪婪”地使用到宿主机的空闲资源,进而导致处理能力受限。

简单复盘这次故障的时间线,调度器在5天前被限制了规格大小,导致调度任务队列逐渐积压、耗时增加,之后的Pod交付成功率受到影响并产生告警,通过一些列降级手段进行干预,有所好转但实际并未根治。终于在调度器“带病”工作5天后,接收到了来自用户侧的报障。

针对上述提到的这个“不完美”案例,相信大家可以提出一些列的改进建议和措施。然而,我们重点想要讨论的并不是具体的方案,而是一种架构治理和运营的模式,如前文提到的,这是一个典型的故障驱动型的事件。日常中,变更往往是导致故障最根本、最直接的根因,在经典的故障驱动治理模式下,为了避免故障和错误,在实施变更前后,一般会包括事前的变更管控、风险左移,事中的应急流程,以及事后的监控覆盖等步骤。在面向过程的资源交付场景下,这个套机制没有任何问题。

宝企通IT服务作为智能化工单系统龙头,拥有多年优化SLA经验,能够有效提高员工对IT的服务满意度。是一款支持SAAS、本地化部署、源码交付的运维工单系统(SAAS免费试用,企业微信--工作台--添加应用,搜索“IT服务”,排名第一的就是,或添加顾问:添加我为微信好友)。目前是全网众多企业选择的工单类产品,支持手机验证码或账号验证,员工自助修改域账号密码,具备智能化派单模式工程师响应快减少员工等待时间。自定义知识库可提升工程师专业技能水平,帮助工程师迅速判断员工问题,极大提升员工报单体验。系统还能够大幅提升职能部门可以服务的用户数,有效降低专业人力成本开支,提高业务执行效率,展现工作成果。产品服务好能为用户免费开发个性化需求,连续多年被魔力象0评为leaders位置,市场占有率爆发式增长,特别是最近在搞活动,性价比非常高。

这篇关于打造精细化运维新玩法(一)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1038883

相关文章

打造坚固的SSH防护网:端口敲门入门指南

欢迎来到我的博客,代码的世界里,每一行都是一个故事 🎏:你只管努力,剩下的交给时间 🏠 :小破站 打造坚固的SSH防护网:端口敲门入门指南 前言什么是端口敲门端口敲门的优点1. 增强安全性2. 动态防火墙规则3. 隐匿服务4. 改善日志管理5. 灵活性和兼容性6. 低资源消耗7. 防御暴力破解和扫描8. 便于合法用户访问9. 适用于不同类型的服务 端口敲

CSS背景属性:打造丰富视觉效果的背景设计

在网页设计中,背景是创建视觉吸引力和设置页面基调的重要元素。CSS提供了多种背景属性来控制元素的背景样式,包括颜色、图像、尺寸、位置和重复方式。本文将详细介绍CSS中的背景属性,包括background简写属性以及background-color、background-image、background-repeat、background-position和background-size等属性。

LoRaWAN在嵌入式网络通信中的应用:打造高效远程监控系统(附代码示例)

引言 随着物联网(IoT)技术的发展,远程监控系统在各个领域的应用越来越广泛。LoRaWAN(Long Range Wide Area Network)作为一种低功耗广域网通信协议,因其长距离传输、低功耗和高可靠性等特点,成为实现远程监控的理想选择。本文将详细介绍LoRaWAN的基本原理、应用场景,并通过一个具体的项目展示如何使用LoRaWAN实现远程监控系统。希望通过图文并茂的讲解,帮助读

【vite】入门 publicDir 到高阶玩法

【vite】入门 publicDir 到高阶玩法 📌 使用方式 🧩 默认选项 publicDir默认选项为字符"public",表示静态资源默认指向public。 import { defineConfig } from 'vite'export default defineConfig({publicDir: 'public'}) 说明:在使用时,无需在路径前添加/publ

B站大模型指令微调入门实战(完整代码),一键打造你的数字分身

前两天,想导出微信聊天记录,于是搞了个小工具。 感兴趣的小伙伴,可以回看: 微信聊天记录导出为电脑文件实操教程(附代码) 一键获取所有微信聊天记录(附PyQT6入门实战) 拿到这些数据都有什么用? 突发奇想:如果把微信上,所有和我相关的聊天对话提取出来,再结合大语言模型 LLM,是不是就可以打造我的数字分身了? 选择一个基座大模型,通过指令微调的方式,打造个性化AI Bot,不失为

力扣SQL50 游戏玩法分析 IV 子查询

Problem: 550. 游戏玩法分析 IV 👨‍🏫 参考题解 这个SQL查询的目的是计算每个玩家在登录后的第二天参与活动的比例。查询使用了子查询和左连接来实现这一目的。下面是查询的详细解释,包括每个部分的作用和注释: -- 计算每个玩家登录后第二天参与活动的比例select round(avg(a.event_date is not null), 2) as fractio

地推利器Xinstall:全方位二维码统计,打造高效地推策略,轻松掌握市场脉搏!

在移动互联网时代,地推作为一种传统的推广方式,依然占据着重要的地位。然而,随着市场竞争的加剧,地推也面临着诸多挑战,如如何有效监测下载来源、解决填码和人工登记的繁琐、避免重复打包和iOS限制、以及如何准确考核推广业绩等。针对这些痛点,Xinstall作为一款强大的移动应用统计与推广平台,推出了全面的地推二维码统计功能,助力地推人员轻松应对各种挑战。 一、一键生成统计二维码,告别繁琐填码 地推

python使用pywebview打造一个现代化的可视化GUI界面

🌈所属专栏:【python】✨作者主页:  Mr.Zwq✔️个人简介:一个正在努力学技术的Python领域创作者,擅长爬虫,逆向,全栈方向,专注基础和实战分享,欢迎咨询! 您的点赞、关注、收藏、评论,是对我最大的激励和支持!!!🤩🥰😍 目录 一、核心功能 二、使用场景 三、安装与使用 四、总结 pywebview是一个轻量级的Python库,它让你可以使用HTML、C

使用ViewDragHelper打造属于自己的DragLayout(抽屉开关 )

</com.xujun.drawerLayout.drag.DragLayout> 在代码中若想为其设置监听器, 分别可以监听打开的 时候,关闭的时候,拖动的时候,可以在里面做相应的处理,同时我还加入了 自定义属性可以通过 app:range=”480”或者setRange()方法,即可设置打开抽屉的范围。 mDragLayout.setDragStatusListener(new OnDr

为 Android 应用打造精良的 Chrome OS 使用体验

override fun onKeyUp(code: Int, ev: KeyEvent?): Boolean { return when (code) { KeyEvent.KEYCODE_J -> { // Do something here true } else -> super.onKeyUp(code, ev) // 重要!! } } 注意我们标出 “重要” 的那一行