SRE工程师的职业记录

2024-04-28 09:44
文章标签 记录 工程师 职业 sre

本文主要是介绍SRE工程师的职业记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

工作内容

SRE工程师,其实就是运维工程师,一般包括日常运维工作和工具开发两类工作。

日常运维工作根据方向不同,内容可能不尽相同,值班期间主要是处理日常服务报警、不值班期间可能就是做一些跟运维方向相关的工作。

值班期间的工作,也就是24小时oncall,处理报警,还有处理业务的需求。

报警处理根据不同业务的情况各有不同,有的业务报警比较多,有的业务报警比较少,另外根据报警的严重程度不同,处理难度也可能略有不同;其中最难处理的是无法止损的报警,无法止损的报警最为费心,需要想办法降低损失,需要通过一些可以操作的手段做出一些动作,但是在故障期间,对于问题准确评估比较困难,而且存在报警风暴,压力会比较大。

其次比较麻烦的是,不太容易找出根因的报警,虽然可以止损,但是根因追溯可能由于层次较深,而且没有工具辅助,往往需要手动一层一层的进行分析,耗时较长。

除了这两类报警,比较容易发现根因的报警处理起来是比较方便的,但是比较方便处理的报警可能由于值班人所处场景的限制,也会出现比较麻烦的情况,比如在地铁上、信号不好的区域、上厕所了等等,处理速度会比较慢。

最后一类最容易处理的报警就是可以被自动处置的报警,一看问题自动处置了,就等着报警恢复就完事了。

这是报警处理,除了报警处理,值班期间还需要对业务的需求进行处理,业务的需求包括业务权限不在的各方各面,包括app创建、监控修改、流量接入干预、上线卡单处理、容量变更,每一块可能还会细分,比如流量接入方面,包括内网流量干预、外网流量干预等等,不过这类工作基本上就是熟能生巧,一般业务不需要什么计算机知识,或者不需要很深入的计算机知识,在数月之内可以掌握。

还有一类工作就是在值班期间要对业务的疑难杂症进行处理,这类问题往往是运维工程师工作内容中比较有含金量的工作之一,因为这类工作往往并不是简单的处理就可以解决问题,有些问题可能已经是陈谷子烂芝麻,有些可能需要对服务进行细致分析,往往才能找到问题所在,但是问题的解决之道大多都在别处,运维的工作就是找到确凿的根因;不过这类工作有个问题是比较消耗时间,而且产出不会在okr中,所以完全根据时间是否富裕决定。

除了,值班期间的三类工作,不值班期间工作内容一般就包括两个方面,跟业务有关的稳定性工作,还有跟开发有关的平台工作。

在运维工作中,跟业务有关的稳定性工作基本上就是围绕不同业务做相同的模版型工作,所谓模版就是流程以及内容基本固定,比如如何发现问题、如何容灾、如何提高其稳定性,其实具体而言就是监控报警、容量规划、止损预案、限流降级等等。

稳定性工作,一般而言就是以上所述的这些,说起来也是孰能生巧,并没有什么特别高深的内容,不同业务情况不同,不同板块能做的可能会略有不同。

开发工作,就是针对运维工作中的各方面的工具或者平台开发,这些平台比较多,有些可能是运维同学开发,有些可能是基础架构部门开发,开发中也是比较考验设计能力,好的设计往往会决定产品是否好用,不过运维产品本来用户就不多,往往质量也一般,并且不会有专门的pm,有些甚至需要进行全栈开发。

工作职责

运维工程师的职责,根据我的理解,其最根本的目的是对故障进行止损,问题的定位和处理一般都应该是业务来进行,并且配合业务处理问题;但是在实际操作中,有部分问题可能不需要业务干预、以及部分业务本身定位能力一般,就导致运维工程师自身需要有一定的定位能力以及利用稳定性意识来把控故障处理的节奏,以免发生次生灾害。

工作展望

运维工程师服务的是实际的业务,所以一般而言团队的扩张与收缩都会随着业务的扩张和收缩而变化,通过描述我们可以发现,运维工程师的大部分工作中,开发工作以及可以开发的时间一般不会超过一半,所以开发时间也比较有限,开发团队跟实际的业务开发团队存在很大的不同,一般的小平台不会有产品和QA,基本上就是全栈。

工作内容上,其中以稳定性中的架构稳定性和容量规划具备深度,从产出上,容量方向更容易产出数据,并且自主性较强,稳定性方面,由于架构稳定性运维可以干预的极少,并且受限于框架能力,具备局限性。

另外,运维工程师需要跟各方面的人打交道,因为服务是业务开发、服务依赖的环境是基础架构负责,而运维就是需要协调基础平台同学和业务同学,一起解决问题,但是运维本身并解决不了最根本问题,因为运维并不掌控这些实际的代码和应用,运维的工作更多是在应用层,就是应用各种平台来达到服务稳定和正常运转。

一般来说,对于运维来说,成长路径就是运维工程师、高级运维工程师、运维负责人、高级运维负责人,在能不能成为运维负责人方面是一个节点,然后能不能同时管理多个产品的运维又是一个节点。

从岗位上来讲,运维的岗位是比较少的,一般而言,运维的岗位跟业务开发的人数比例是100:1左右。

从赚钱方面来讲,运维本身并不赚钱,但是话说回去,容量成本是一个例外,通过省钱,同样也是赚钱。

从技术方面来讲,运维工程师是一个跟计算机技术相对来说不需要特别深入的岗位,但是可能运维的系统不同,可能略有不同,比如业务运维和机器运维,可能日常要做的工作和用到的知识不太一样。

这篇关于SRE工程师的职业记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/942920

相关文章

Servlet中配置和使用过滤器的步骤记录

《Servlet中配置和使用过滤器的步骤记录》:本文主要介绍在Servlet中配置和使用过滤器的方法,包括创建过滤器类、配置过滤器以及在Web应用中使用过滤器等步骤,文中通过代码介绍的非常详细,需... 目录创建过滤器类配置过滤器使用过滤器总结在Servlet中配置和使用过滤器主要包括创建过滤器类、配置过滤

正则表达式高级应用与性能优化记录

《正则表达式高级应用与性能优化记录》本文介绍了正则表达式的高级应用和性能优化技巧,包括文本拆分、合并、XML/HTML解析、数据分析、以及性能优化方法,通过这些技巧,可以更高效地利用正则表达式进行复杂... 目录第6章:正则表达式的高级应用6.1 模式匹配与文本处理6.1.1 文本拆分6.1.2 文本合并6

python与QT联合的详细步骤记录

《python与QT联合的详细步骤记录》:本文主要介绍python与QT联合的详细步骤,文章还展示了如何在Python中调用QT的.ui文件来实现GUI界面,并介绍了多窗口的应用,文中通过代码介绍... 目录一、文章简介二、安装pyqt5三、GUI页面设计四、python的使用python文件创建pytho

Node.js学习记录(二)

目录 一、express 1、初识express 2、安装express 3、创建并启动web服务器 4、监听 GET&POST 请求、响应内容给客户端 5、获取URL中携带的查询参数 6、获取URL中动态参数 7、静态资源托管 二、工具nodemon 三、express路由 1、express中路由 2、路由的匹配 3、路由模块化 4、路由模块添加前缀 四、中间件

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓

学习记录:js算法(二十八):删除排序链表中的重复元素、删除排序链表中的重复元素II

文章目录 删除排序链表中的重复元素我的思路解法一:循环解法二:递归 网上思路 删除排序链表中的重复元素 II我的思路网上思路 总结 删除排序链表中的重复元素 给定一个已排序的链表的头 head , 删除所有重复的元素,使每个元素只出现一次 。返回 已排序的链表 。 图一 图二 示例 1:(图一)输入:head = [1,1,2]输出:[1,2]示例 2:(图

计算机视觉工程师所需的基本技能

一、编程技能 熟练掌握编程语言 Python:在计算机视觉领域广泛应用,有丰富的库如 OpenCV、TensorFlow、PyTorch 等,方便进行算法实现和模型开发。 C++:运行效率高,适用于对性能要求严格的计算机视觉应用。 数据结构与算法 掌握常见的数据结构(如数组、链表、栈、队列、树、图等)和算法(如排序、搜索、动态规划等),能够优化代码性能,提高算法效率。 二、数学基础

perl的学习记录——仿真regression

1 记录的背景 之前只知道有这个强大语言的存在,但一直侥幸自己应该不会用到它,所以一直没有开始学习。然而人生这么长,怎就确定自己不会用到呢? 这次要搭建一个可以自动跑完所有case并且打印每个case的pass信息到指定的文件中。从而减轻手动跑仿真,手动查看log信息的重复无效低质量的操作。下面简单记录下自己的思路并贴出自己的代码,方便自己以后使用和修正。 2 思路整理 作为一个IC d

SSM项目使用AOP技术进行日志记录

本步骤只记录完成切面所需的必要代码 本人开发中遇到的问题: 切面一直切不进去,最后发现需要在springMVC的核心配置文件中中开启注解驱动才可以,只在spring的核心配置文件中开启是不会在web项目中生效的。 之后按照下面的代码进行配置,然后前端在访问controller层中的路径时即可观察到日志已经被正常记录到数据库,代码中有部分注释,看不懂的可以参照注释。接下来进入正题 1、导入m

flume系列之:记录一次flume agent进程被异常oom kill -9的原因定位

flume系列之:记录一次flume agent进程被异常oom kill -9的原因定位 一、背景二、定位问题三、解决方法 一、背景 flume系列之:定位flume没有关闭某个时间点生成的tmp文件的原因,并制定解决方案在博主上面这篇文章的基础上,在机器内存、cpu资源、flume agent资源都足够的情况下,flume agent又出现了tmp文件无法关闭的情况 二、