sre专题

中移动集团SRE人员能力提升培训圆满结课

前言：在数字化转型的浪潮中，中移动作为通信行业的领军企业，面临着日益复杂的运维挑战。SRE（Site Reliability Engineering）作为一种新兴的运维理念，为中移动提供了解决这些问题的新思路。2024年7月下旬，雅菲奥朗成功为中移动举办了为期近一周的SRE人员能力提升培训，目的是通过这一系统化的SRE培训，帮助中移动构建一个高效、创新的SRE体系，推动运维工作的自动化和创新

【读书笔记】SRE：Google运维解密第Ⅰ部分概览

第Ⅰ部分概览第1章介绍系统管理员模式研发团队和系统运维团队分属两个部门所带来的间接成本就没那么容易度量了，但是这些间接成本往往大得多。 Google的解决之道：SRE SRE就是让软件工程师来设计一个新型运维团队的结果。目前来看，UNIX 系统内部细节和1～3层网络知识是Google最看重的两类额外的技术能力。 SRE团队成员具有如下特点对重复性、手工性的操作有天

SRE养成计划之01-基本命令

文章目录基本命令查看文件目录-ls命令查看当前所在位置-pwd命令查看文本文件内容-cat命令分页查看文本文件-less命令查看CPU信息-lscpu命令查看系统内核版本-uname命令查看IP地址-ifconfig命令创建目录-mkdir命令创建空文件-touch命令查看我呢见前几行-head命令查看文件后几行-tail命令快速编辑技巧关机及重启别名管理-alias/unalias删除

SRE视角下的DevOps构建之道

引言：随着数字化时代的飞速发展，软件成为了企业竞争力的核心。为了更高效地交付高质量的软件，DevOps（Development和Operations的组合）作为一种文化、实践和工具集的集合，逐渐成为了行业内的热门话题。然而，要真正理解并实践DevOps，我们需要从不同的视角出发。本文将从SRE（Site Reliability Engineering，站点可靠性工程）的视角，探讨DevOps的构

职业探索--运维体系-SRE岗位/CRE岗位/运维岗位-服务心态-运维职业发展方向-运维对象和运维场景

参考来源：极客时间专栏：赵成的运维体系管理课极客时间专栏：全栈工程师修炼指南赵成大佬在鹏讯云社区的文章（77篇）有了CMDB，为什么还要应用配置管理故障没有根因，别再找了如何理解CMDB的套路故障复盘的简洁框架-黄金三问数据中心运维管理方案（超详细）–数据中心场景的运维工作场景 https://www.uwintech.cn/2 --EasyOps一站式运维平台，关于运维专业化公司

DevOps的概念和实践并兼谈SRE

最近几年，由于负责的范围的变化。工作逐渐从某个IT领域或者部门，开始关注到整个IT体系的运转和管理。中间也遇到不少困难，同时也有机会去从更高的层面去学习和实践IT治理。文章主要是总结一下我对DevOps相关的理解和认识。为什么会有DevOps，解决了什么问题：现代企业其实都是通过IT系统进行管理和运营的，在变化迅速和竞争激烈的领域，IT系统的新需求数量越来越多，软件发布的频率越来越高，不少

使用 AI Assistant for Observability 和组织的运行手册增强 SRE 故障排除

作者：Almudena Sanz Olivé, Katrin Freihofner, Tom Grabowski 通过本指南，你的 SRE 团队可以实现增强的警报修复和事件管理。可观测性 AI 助手可帮助用户使用自然语言界面探索和分析可观测性数据，利用自动函数调用来请求、分析和可视化数据，将其转换为可操作的可观测性。该助手还可以建立一个由 Elastic Learned Sparse

11条SRE血泪教训，建议您了解一下

1 缓解事故的程度应与事故的严重程度成正比在事故发生期间，应该监控和评估情况的严重性，并选择与严重性相适应的故障缓解途径。在最好的情况下，有风险的缓解措施可以解决故障。而在最坏的情况下，故障缓解措施会失灵，导致中断时间延长。此外，如果一切正常，您可以做出绕过标准程序的明智决定。 2 应在紧急情况发生前对恢复机制进行全面测试中断是第一次尝试危险的负载下降过程的绝佳机会。为了

SRE（Site Reliability Engineering，站点可靠性/稳定性工程师），与普通的开发工程师（Dev）不同，也与传统的运维工程师（Ops）不同，SRE更接近是两者的结合，也就是2008年末提出的一个概念：DevOps，这个概念最近也越来越流行起来。SRE模型是Google对Dev+Ops模型的一种实践和拓展（可以参考《Google运维解密》一书），SRE这个概念我比较喜欢，因为

SRE工程师的职业记录

工作内容 SRE工程师，其实就是运维工程师，一般包括日常运维工作和工具开发两类工作。日常运维工作根据方向不同，内容可能不尽相同，值班期间主要是处理日常服务报警、不值班期间可能就是做一些跟运维方向相关的工作。值班期间的工作，也就是24小时oncall，处理报警，还有处理业务的需求。报警处理根据不同业务的情况各有不同，有的业务报警比较多，有的业务报警比较少，另外根据报警的严重程度不同，处

SRE职能描述以及个人见解

1.SRE 职能描述 SRE 到底是什么？这是一个最早由 Google 提出的概念，我的理解是，用软件解决运维问题。标准化，自动化，可扩展，高可用是主要的工作内容。这个岗位被提出的时候，想解决的问题是打破开发人员想要快速迭代，与运维人员想要保持稳定，拒绝频繁更新之间的矛盾。 SRE 目前对于招聘来说还是比较困难。一方面，这个岗位需要一定的经验，而应届生一般来说不会有运维复杂软件的经历；另一方面

漫谈SRE之对事不对人的文化

序言风不在，雨不停，最近很忙，忙如狗。。。但是感觉上是瞎忙，但是却又不得不做。。。。告警治理是个博弈的活儿，一直想做，但是没有太大的动力去推动。。。只有故障之后，才会再次去做这些事，要不然没人关注。。。故障是最博眼球的东西了，会大大提升很多事的优先级。告警治理每个人每天的时间是一样的，但是只要同时处理超过三件事，基本上事事都会以悲剧结尾，每天就那么点时间，短

14款DevOps/SRE工具，助力提升运维效率

简介随着平台工程的兴起，DevOps 和 SRE 不断发展，带来了新一代工具，旨在提高软件开发和运维的效率、可扩展性和可靠性。在本篇文章中，我们将深入探讨一些最具发展前景的工具，它们正在塑造持续集成与部署、监控与可观测性、基础架构/应用平台、事件管理与警报、安全性和可视化的未来。 CI/CD Tekton Tekton 是一个用于创建 CI/CD 系统的开源框架，具有处理

关于SRE

SRE（Site Reliability Engineering）是一种由Google提出的运维工程师团队的方法论。SRE的目标是通过将软件工程的原则和实践应用于运维工作，来提高系统的可靠性和可扩展性。SRE强调自动化、监控、故障处理和容量规划等方面的工作，以确保系统的稳定性和可用性。 SRE方法论关注以下几个方面： 1、可靠性工程：SRE团队致力于提高系统的可靠性，通过自动化和监控来减少人为错

什么？你竟然不知道SRE工程师！

今天，我们来简单聊聊关于SRE工程师的那些事在正式开始之前，我先跟大家讲一下我的个人经历：今年春招找实习的时候，依稀记得那是一个日暖风和的中午，我坐在电脑前，而网线的另一端是和蔼可亲的面试官——是的，我正在进行一场某企业的技术面试，岗位则是SRE工程师面试的前半段，我跟面试官相谈甚欢，不亦乐乎。直到面试官突然问了我这么一个问题：“你觉得运维工程师和SRE工程师有什么区别？或者说他们的工作

【SRE系列之Jenkins的使用】--实现ssh和http克隆

1、Jenkins的概念 1.1Jenkins的介绍 Jenkins是一个独立的开源软件项目，是基于Java开发的一种CI（Continuous integration，持续集成） &CD (Continuous Delivery，持续交付)工具，用于监控持续重复的工作，旨在提供一个开放易用的软件平台，使软件的持续集成变成可能。其前身是商业软件Hudson。可用于自动化各种任务，如构建，

使用 ES|QL 优化可观察性：简化 Kubernetes 和 OTel 的 SRE 操作和问题解决

作者：Bahubali Shetti 作为一名运营工程师（SRE、IT 运营、DevOps），管理技术和数据蔓延是一项持续的挑战。简单地管理大量高维和高基数数据是令人难以承受的。作为单一平台，Elastic® 帮助 SRE 将无限的遥测数据（包括指标、日志、跟踪和分析）统一并关联到单一数据存储 — Elasticsearch® 中。然后，通过应用 Elastic 的高级机器学习 (M

运维SRE-18 自动化批量管理-ansible4

12.2handles handles触发器(条件)，满足条件后再做什么事情应用场景：想表示：配置文件变化，再重启服务配置handlers之前，每次运行剧本都会重启nfs，无论配置文件是否变化。 [root@m01 /server/ans/playbook]# cat 17-handler-nfs-server.yml ---- hosts: dbtasks:- name : 01.分发

运维SRE-14 自动化批量管理

1.批量管理基础内容-SSH服务-远程连接服务 1.1SSH服务 SSH服务-OpenSSH，远程连接服务端：openssh-server客户端：openssh-clients openssh-7.4p1-21.el7.x86_64 openssh-server-7.4p1-21.el7.x86_64 #服务端openssh-clients-7.4p1-21.el7.x86_64 #客户

SRE之熔断、限流、降级系列优质文章

熔断，限流，降级一些理解资源隔离、限流、熔断、降级、运维监控。资源隔离：让你的系统里，某一块东西，在故障的情况下，不会耗尽系统所有的资源，比如线程资源。限流：高并发的流量涌入进来，比如说突然间一秒钟100万QPS，废掉了，10万QPS进入系统，其他90万QPS被拒绝了；熔断：系统后端的一些依赖，出了一些故障，比如说mysql挂掉了，每次请求都是报错的，熔断了，后续的请求过来直接不

SRE的优秀文档库

0、标杆文档业务运维与SRE，十年运维总监的自我修养：https://mp.weixin.qq.com/s/pyIycLebwnekcwDyUeOHcQ 1、站点类书栈网：https://www.bookstack.cn程序员一站导航：http://tooool.org白月黑羽：http://www.byhy.net/tut/py/extra/multi_thread/Ledge 知识

运维SRE-02 正则表达式、grep

1.特殊符号补充 1.1位置相关的特殊符号 . 当前目录.. 当前目录的上级目录~ 当前用户家目录/ 根目录cd - 返回上次所在目录 1.2熟练掌握 # 注释符号,root命令提示符| 管道符号. 1.3了解其他特殊符号 $ 取值(取出变量的值),普通用户的提示符!%^&*()+={}[];?\ 2.通配符 * :*.txt *.log

小米服务治理——客户端熔断器（Google SRE客户端熔断器）

目录前言一、什么是Google SRE熔断器二、Google SRE 熔断器的工作流程：三、客户端熔断器 (google SRE 熔断器) golang GRPC 实现四、客户端熔断器 (google SRE 熔断器) golang GRPC单元测试大家可以关注个人博客：xingxing – Web Developer from Somewhere 有关后端问

小米商城服务治理之客户端熔断器（Google SRE客户端熔断器）

目录前言一、什么是Google SRE熔断器二、Google SRE 熔断器的工作流程：三、客户端熔断器 (google SRE 熔断器) golang GRPC 实现四、客户端熔断器 (google SRE 熔断器) golang GRPC单元测试大家可以关注个人博客：xingxing – Web Developer from Somewhere 有关后端问

运维SRE-03 三剑客-sed、awk

今日内容 sed 替换，取行（增删查改）grepsedawk sed命令选项选项含义-n取消默认输出，sed操作文件的时候会默认把每一行输出到屏幕-rsed可以支持选择正则，sed支持扩展正则-ised修改文件内容（危险），不进行输出-i.bak先对文件进行备份以.bak为结尾，然后源修改文件的内容 sed的指令pprint输出/显示ssub替换ddel删除caia appen

客户端熔断器基于golang Grpc具体实现（Google SRE客户端熔断器）

目录前言一、什么是Google SRE 二、Google SRE 熔断器的工作流程：三、Google SRE GRPC 代码实现四、测试用例大家可以关注个人博客：xingxing – Web Developer from Somewhere 有关后端问题探讨前言当某个用户超过资源配额时，后端任务应该迅速拒绝该请求，返回一个“用户配额不足”类型的错误，该回复应该