打造精细化运维新玩法(一)

2024-06-07 10:12
文章标签 打造 玩法 精细化 维新

本文主要是介绍打造精细化运维新玩法(一),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、SLO介绍——为什么需要SLO

二、SLO健康度——从0到1构建SLO

三、AIOps赋能——SLO和智能化结合

四、案例介绍——实践场景和运营探索

五、总结

精细化运维是运维演进的必由之路,是综合业务需求、研发效能、稳定性保障、成本优化、架构治理等多种因素驱动的必然结果。为了实现精细化运维,首先要完成运维的数字化转型,管理学大师[美] 彼得.德鲁克说过,If you can't measure it, you can't manage it。在实践中,我们存在大量的运维数据,如何让这些数据充分发挥价值、形成对企业有用的资产,是我们探索和实践的主要方向之一。

本文的分享主要围绕SLO体系建设展开,在相对标准、统一的框架下指导和推动服务质量的数字化建设,结合具体的运维场景和背景,沉淀对组织有价值的数据资产和流程规范。同时分享了一些SLO运维实践案例供大家参考,希望有所启发和收获。

一、SLO介绍——为什么需要SLO

在展开SLO(Service Level Objective)介绍之前,我们先从一个熟悉的运维场景出发,希望通过具体的案例可以让大家快速代入。

值班处理故障,是大多数SRE和运维工程师的日常。在蚂蚁,基础设施负责的K8S,提供面向集团所有二方系统的算力交付,SRE的职责之一就是保障交付质量和稳定性。好几年前的某天,我们在Pod交付的用户群接到报障,反馈的现象是二方系统无法创建Pod资源或是交付时好时坏,接收到用户侧报障之后,值班SRE就展开了一些列的问题排查,这是一个典型的故障驱动型的问题发现。

众所周知,K8S是一套非常复杂的系统,由众多的组件协同来异步完成资源交付。简单概述下排查的思路,因为用户报障现象是交付失败时有发生,并非完全不可用,所以最先怀疑的方向是请求容量是否有激增,导致调度任务积压,通过监控查看队列也确实如此,为了避免任务重试导致队列进一步积压,执行了一些列的降级操作,随着时间的推移,故障有所缓解,但并没有得到彻底修复。直到第二天,通过变更排查,定位到调度器的规格大小被做了limit限制,这意味着调度器组件将无法像之前一样“贪婪”地使用到宿主机的空闲资源,进而导致处理能力受限。

简单复盘这次故障的时间线,调度器在5天前被限制了规格大小,导致调度任务队列逐渐积压、耗时增加,之后的Pod交付成功率受到影响并产生告警,通过一些列降级手段进行干预,有所好转但实际并未根治。终于在调度器“带病”工作5天后,接收到了来自用户侧的报障。

针对上述提到的这个“不完美”案例,相信大家可以提出一些列的改进建议和措施。然而,我们重点想要讨论的并不是具体的方案,而是一种架构治理和运营的模式,如前文提到的,这是一个典型的故障驱动型的事件。日常中,变更往往是导致故障最根本、最直接的根因,在经典的故障驱动治理模式下,为了避免故障和错误,在实施变更前后,一般会包括事前的变更管控、风险左移,事中的应急流程,以及事后的监控覆盖等步骤。在面向过程的资源交付场景下,这个套机制没有任何问题。

宝企通IT服务作为智能化工单系统龙头,拥有多年优化SLA经验,能够有效提高员工对IT的服务满意度。是一款支持SAAS、本地化部署、源码交付的运维工单系统(SAAS免费试用,企业微信--工作台--添加应用,搜索“IT服务”,排名第一的就是,或添加顾问:添加我为微信好友)。目前是全网众多企业选择的工单类产品,支持手机验证码或账号验证,员工自助修改域账号密码,具备智能化派单模式工程师响应快减少员工等待时间。自定义知识库可提升工程师专业技能水平,帮助工程师迅速判断员工问题,极大提升员工报单体验。系统还能够大幅提升职能部门可以服务的用户数,有效降低专业人力成本开支,提高业务执行效率,展现工作成果。产品服务好能为用户免费开发个性化需求,连续多年被魔力象0评为leaders位置,市场占有率爆发式增长,特别是最近在搞活动,性价比非常高。

这篇关于打造精细化运维新玩法(一)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1038883

相关文章

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

pip-tools:打造可重复、可控的 Python 开发环境,解决依赖关系,让代码更稳定

在 Python 开发中,管理依赖关系是一项繁琐且容易出错的任务。手动更新依赖版本、处理冲突、确保一致性等等,都可能让开发者感到头疼。而 pip-tools 为开发者提供了一套稳定可靠的解决方案。 什么是 pip-tools? pip-tools 是一组命令行工具,旨在简化 Python 依赖关系的管理,确保项目环境的稳定性和可重复性。它主要包含两个核心工具:pip-compile 和 pip

如何打造个性化大学生线上聊天交友系统?Java SpringBoot Vue教程,2025最新设计思路

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 | SpringBoot/SSM Python实战项目 | Django 微信小程序/安卓实战项目 大数据实战项目 ⚡⚡文末获取源码 文章目录

VitePress 自定义主题:打造专属文档网站

VitePress 是一个基于 Vite 和 Vue 3 的静态网站生成器,特别适用于撰写文档。它不仅提供了默认的主题,还允许开发者创建和使用自定义主题,以满足特定的设计和功能需求。本文将详细介绍如何创建、使用及分发 VitePress 自定义主题,并通过实例代码进行演示。 一、创建自定义主题 1. 主题文件结构 要启用自定义主题,你需要在项目根目录下的 .vitepress 文件夹中创建一

从零开始:打造你的第一个餐厅点餐小程序

目录 1 为什么选择点餐小程序2 会有哪些功能2.1 顾客端2.2 服务员端2.3 后厨端2.4 收银端2.5 管理员(老板)端 3 开发工具选择4 你将获得什么让我们开始吧 最近,有不少粉丝咨询,有没有系统的低代码学习教程呀?为啥你的教程有的刚看的提起兴趣,怎么突然就中断了。有没有系统的视频学习教程呀,你是不是还有压箱底的好宝贝,没开放给我们看呀。 还真不是,压箱底的好宝贝已

Node.js应用的高效部署与运维:从流程自动化到精细化监控

Node.js应用的高效部署与运维:从流程自动化到精细化监控 目录 🚀 使用 pm2 管理 Node.js 应用🐳 容器化部署(Docker)☁️ 云服务部署与自动化扩展📈 应用监控与健康状态维护🤖 自动化运维与流程优化🛠️ 版本控制与发布管理 🚀 使用 pm2 管理 Node.js 应用 pm2 是 Node.js 生态中非常重要的进程管理工具,它简化了 Node.j

PDF转PPT神器揭秘!3步操作,轻松打造2024年会议爆款PPT

现在是数字化的时代,PDF 和 PPT 对职场的人来说可重要了。PDF 文件格式稳,也好分享,所以大家都爱用。PPT 演示起来很厉害,在开会、讲座的时候特别管用。不过呢,要是有好多 PDF 文件,咋能快点把它们变成好看的 PPT 呢?这是很多职场人都发愁的事儿。今天呢,我给大家讲讲三款能把 PPDF转PPT的好工具,只要简单三步,就能让你轻松做出 2024 年开会用的爆款 PPT。 一、福昕高级

南卡科技“满分之选”全新开放式耳机发布,打造超越Pro的极致体验!

在音频技术的不断革新中,南卡品牌以其深厚的声学底蕴和对创新的不懈追求,再次为市场带来惊喜。今天,我们自豪地宣布,南卡OE Pro2开放式蓝牙耳机正式亮相,它不仅代表了南卡在开放式耳机领域的技术巅峰,更是对音质和佩戴舒适度的双重革新。 31°悬浮倾斜设计,无感佩戴的新高度 南卡OE Pro2将对耳机舒适性的诠释拉升到一个新境界,采用了开放式佩戴设计,彻底告别了传统耳机的堵塞感。基于上万耳

uni-app--》打造个性化壁纸预览应用平台(三)

🏙️作者简介:大家好,我是亦世凡华、渴望知识储备自己的一名前端工程师 🌄个人主页:亦世凡华、 🌆系列专栏:uni-app 🌇座右铭:人生亦可燃烧,亦可腐败,我愿燃烧,耗尽所有光芒。 👀引言 ⚓经过web前端的学习,相信大家对于前端开发有了一定深入的了解,今天我开设了uni-app专栏,对于想从移动端开发方向进一步发展的朋友,希望看到我文章的朋友能对你有所帮助。

Flink1.12集成Hive打造自己的批流一体数仓

简介 小编在去年之前分享过参与的实时数据平台的建设,关于实时数仓也进行过分享。客观的说,我们当时做不到批流一体,小编当时的方案是将实时消息数据每隔15分钟文件同步到离线数据平台,然后用同一套SQL代码进行离线入库操作。 但是随着 Flink1.12版本的发布,Flink使用HiveCatalog可以通过批或者流的方式来处理Hive中的表。这就意味着Flink既可以作为Hive的一个批处