打造精细化运维新玩法(一)

2024-06-07 10:12
文章标签 打造 玩法 精细化 维新

本文主要是介绍打造精细化运维新玩法(一),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、SLO介绍——为什么需要SLO

二、SLO健康度——从0到1构建SLO

三、AIOps赋能——SLO和智能化结合

四、案例介绍——实践场景和运营探索

五、总结

精细化运维是运维演进的必由之路,是综合业务需求、研发效能、稳定性保障、成本优化、架构治理等多种因素驱动的必然结果。为了实现精细化运维,首先要完成运维的数字化转型,管理学大师[美] 彼得.德鲁克说过,If you can't measure it, you can't manage it。在实践中,我们存在大量的运维数据,如何让这些数据充分发挥价值、形成对企业有用的资产,是我们探索和实践的主要方向之一。

本文的分享主要围绕SLO体系建设展开,在相对标准、统一的框架下指导和推动服务质量的数字化建设,结合具体的运维场景和背景,沉淀对组织有价值的数据资产和流程规范。同时分享了一些SLO运维实践案例供大家参考,希望有所启发和收获。

一、SLO介绍——为什么需要SLO

在展开SLO(Service Level Objective)介绍之前,我们先从一个熟悉的运维场景出发,希望通过具体的案例可以让大家快速代入。

值班处理故障,是大多数SRE和运维工程师的日常。在蚂蚁,基础设施负责的K8S,提供面向集团所有二方系统的算力交付,SRE的职责之一就是保障交付质量和稳定性。好几年前的某天,我们在Pod交付的用户群接到报障,反馈的现象是二方系统无法创建Pod资源或是交付时好时坏,接收到用户侧报障之后,值班SRE就展开了一些列的问题排查,这是一个典型的故障驱动型的问题发现。

众所周知,K8S是一套非常复杂的系统,由众多的组件协同来异步完成资源交付。简单概述下排查的思路,因为用户报障现象是交付失败时有发生,并非完全不可用,所以最先怀疑的方向是请求容量是否有激增,导致调度任务积压,通过监控查看队列也确实如此,为了避免任务重试导致队列进一步积压,执行了一些列的降级操作,随着时间的推移,故障有所缓解,但并没有得到彻底修复。直到第二天,通过变更排查,定位到调度器的规格大小被做了limit限制,这意味着调度器组件将无法像之前一样“贪婪”地使用到宿主机的空闲资源,进而导致处理能力受限。

简单复盘这次故障的时间线,调度器在5天前被限制了规格大小,导致调度任务队列逐渐积压、耗时增加,之后的Pod交付成功率受到影响并产生告警,通过一些列降级手段进行干预,有所好转但实际并未根治。终于在调度器“带病”工作5天后,接收到了来自用户侧的报障。

针对上述提到的这个“不完美”案例,相信大家可以提出一些列的改进建议和措施。然而,我们重点想要讨论的并不是具体的方案,而是一种架构治理和运营的模式,如前文提到的,这是一个典型的故障驱动型的事件。日常中,变更往往是导致故障最根本、最直接的根因,在经典的故障驱动治理模式下,为了避免故障和错误,在实施变更前后,一般会包括事前的变更管控、风险左移,事中的应急流程,以及事后的监控覆盖等步骤。在面向过程的资源交付场景下,这个套机制没有任何问题。

宝企通IT服务作为智能化工单系统龙头,拥有多年优化SLA经验,能够有效提高员工对IT的服务满意度。是一款支持SAAS、本地化部署、源码交付的运维工单系统(SAAS免费试用,企业微信--工作台--添加应用,搜索“IT服务”,排名第一的就是,或添加顾问:添加我为微信好友)。目前是全网众多企业选择的工单类产品,支持手机验证码或账号验证,员工自助修改域账号密码,具备智能化派单模式工程师响应快减少员工等待时间。自定义知识库可提升工程师专业技能水平,帮助工程师迅速判断员工问题,极大提升员工报单体验。系统还能够大幅提升职能部门可以服务的用户数,有效降低专业人力成本开支,提高业务执行效率,展现工作成果。产品服务好能为用户免费开发个性化需求,连续多年被魔力象0评为leaders位置,市场占有率爆发式增长,特别是最近在搞活动,性价比非常高。

这篇关于打造精细化运维新玩法(一)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1038883

相关文章

利用Python打造一个Excel记账模板

《利用Python打造一个Excel记账模板》这篇文章主要为大家详细介绍了如何使用Python打造一个超实用的Excel记账模板,可以帮助大家高效管理财务,迈向财富自由之路,感兴趣的小伙伴快跟随小编一... 目录设置预算百分比超支标红预警记账模板功能介绍基础记账预算管理可视化分析摸鱼时间理财法碎片时间利用财

Python结合PyWebView库打造跨平台桌面应用

《Python结合PyWebView库打造跨平台桌面应用》随着Web技术的发展,将HTML/CSS/JavaScript与Python结合构建桌面应用成为可能,本文将系统讲解如何使用PyWebView... 目录一、技术原理与优势分析1.1 架构原理1.2 核心优势二、开发环境搭建2.1 安装依赖2.2 验

基于Python打造一个全能文本处理工具

《基于Python打造一个全能文本处理工具》:本文主要介绍一个基于Python+Tkinter开发的全功能本地化文本处理工具,它不仅具备基础的格式转换功能,更集成了中文特色处理等实用功能,有需要的... 目录1. 概述:当文本处理遇上python图形界面2. 功能全景图:六大核心模块解析3.运行效果4. 相

Python从零打造高安全密码管理器

《Python从零打造高安全密码管理器》在数字化时代,每人平均需要管理近百个账号密码,本文将带大家深入剖析一个基于Python的高安全性密码管理器实现方案,感兴趣的小伙伴可以参考一下... 目录一、前言:为什么我们需要专属密码管理器二、系统架构设计2.1 安全加密体系2.2 密码强度策略三、核心功能实现详解

基于Python打造一个可视化FTP服务器

《基于Python打造一个可视化FTP服务器》在日常办公和团队协作中,文件共享是一个不可或缺的需求,所以本文将使用Python+Tkinter+pyftpdlib开发一款可视化FTP服务器,有需要的小... 目录1. 概述2. 功能介绍3. 如何使用4. 代码解析5. 运行效果6.相关源码7. 总结与展望1

Spring AI与DeepSeek实战一之快速打造智能对话应用

《SpringAI与DeepSeek实战一之快速打造智能对话应用》本文详细介绍了如何通过SpringAI框架集成DeepSeek大模型,实现普通对话和流式对话功能,步骤包括申请API-KEY、项目搭... 目录一、概述二、申请DeepSeek的API-KEY三、项目搭建3.1. 开发环境要求3.2. mav

用Java打造简易计算器的实现步骤

《用Java打造简易计算器的实现步骤》:本文主要介绍如何设计和实现一个简单的Java命令行计算器程序,该程序能够执行基本的数学运算(加、减、乘、除),文中通过代码介绍的非常详细,需要的朋友可以参考... 目录目标:一、项目概述与功能规划二、代码实现步骤三、测试与优化四、总结与收获总结目标:简单计算器,设计

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

pip-tools:打造可重复、可控的 Python 开发环境,解决依赖关系,让代码更稳定

在 Python 开发中,管理依赖关系是一项繁琐且容易出错的任务。手动更新依赖版本、处理冲突、确保一致性等等,都可能让开发者感到头疼。而 pip-tools 为开发者提供了一套稳定可靠的解决方案。 什么是 pip-tools? pip-tools 是一组命令行工具,旨在简化 Python 依赖关系的管理,确保项目环境的稳定性和可重复性。它主要包含两个核心工具:pip-compile 和 pip

如何打造个性化大学生线上聊天交友系统?Java SpringBoot Vue教程,2025最新设计思路

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 | SpringBoot/SSM Python实战项目 | Django 微信小程序/安卓实战项目 大数据实战项目 ⚡⚡文末获取源码 文章目录