漫谈SRE之对事不对人的文化

2024-04-13 15:58
文章标签 文化 漫谈 sre

本文主要是介绍漫谈SRE之对事不对人的文化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

序言

     风不在,雨不停,最近很忙,忙如狗。。。但是感觉上是瞎忙,但是却又不得不做。。。。


    告警治理是个博弈的活儿,一直想做,但是没有太大的动力去推动。。。只有故障之后,才会再次去做这些事,要不然没人关注。。。故障是最博眼球的东西了,会大大提升很多事的优先级。


告警治理

     每个人每天的时间是一样的,但是只要同时处理超过三件事,基本上事事都会以悲剧结尾,每天就那么点时间,短信告警如水一般发送到手机上,你还会看么?


    短信告警,很直观的告警,出现了告警,看一样告警。。。出现大量告警,忽略。。。不做任何处理,慢慢的,就会忽视真正的大故障


    心生倦怠,这就是为什么再美的东西看久了也会产生厌烦的心理。


    那么问题来了,告警如何定义?每天发生几次告警才能及时的处理


    随便上网一搜,各种各样的监控工具,各种各样的监控项,各种通用的监控。。。一般人进行配置告警的时候,就会将一些基本的告警项进行配置,后续是否有进行过优化?需要的就加上。。。不需要的就去掉,通用的版本并不一定适合每个人,每个人都有特殊性。


    告警,主要是为了反映底层系统或者业务系统的问题,或者是发生了一些错误,定义告警,也就是定义关键的指标项,必须立即处理的,那么就应该发送通知,比如我的SLB的开放的端口服务,这个一挂,全部服务中断。定义了告警,那么也可以定义故障的等级。。。不根据告警来定义故障等级都是耍流氓。。。需要进行关注的,那就应该发送通知,而不应该发送告警。。。例如有些服务能自动恢复,例如虚拟机中的服务能自动迁移,不会导致服务中断。


    在定义监控的时候,可以根据两个维度来进行定义,一个是资源层,也就是IAAS层面或者是PAAS层面,在这个层面定义的告警,一般是各种关键的服务指标的定义,如果不可用,可能会影响业务层,但是有些服务是负载均衡机制的,如果没有定义这种告警,那么慢慢的又会将问题掩盖,直到服务不可用;一个是业务层,业务层发生告警,其中就代表了业务影响范围。


    最终,故障等级也就根据业务层的影响来确定故障等级。


    发生几次告警才是正常的?重大故障的除外,而普通的日常运维中,没有告警是最好的,不要超过三次告警,在神经紧张的情况下,你能处理几次故障???


    告警治理其实是一项长期的工作,而不是短期的突破就可以。。。每一次故障,每一次告警,你都应该有后续动作,是优化告警项?故障了告警没有发出来,你是否添加了监控的指标?告警发出来了,然后发现是误报,是不是可以修改监控项?持续优化才是王道。。。


紧急事故处理流程

     每天来一个故障,刺不刺激,紧不紧张。。。。


    来了一个故障,各大领导都来慰问你,刺不刺激,紧不紧张。。。。


    来了一个故障,有领导问你业务影响,有领导问处理进展,有领导质问你为什么还没定位到问题。。。而你,还在看各种错误日志。。。三头六臂,一目三行。。。这个时候,你是否想到了,关键时刻,一个个就会逼逼,还能干啥???


    有人说,你按照流程走的,不怂,这个锅你不用背。。。。但是,有没有想过,不背锅不代表不用反思。。。每一个指令下去都有可能造成更大的故障。。故障蔓延!!!你发生车祸了,但是你没死。。。是不是应该感到很开心???这种劝慰人的方法是不对的!!!


    这不是演练!!!但是。。。没有既定的流程!!!


    参考流程如下:

    1、 收到告警,查看关键的运维平台查看对应的错误,如果定位到错误,进行相应的处理;

    2、 没有定位到错误,通知相关责任人,发布故障,进行故障时间和故障进度的记录及通报;

    3、 继续定位错误,发现毫无进展,通知相关的产品,研发,加入进行处理故障,给每个人各自的任务,进行自查,并随时反馈最新的进展;

    4、故障处理,业务恢复;

    5、 提交故障报告。


    在这套流程中,关键点在于两个:

    1、 多人多角色,有很多人加入故障处理,但是每个人都是不同的角色,而不在是一个人既要汇报又要处理等各种事情集于一身。

    2、在故障处理过程中,无法定位问题,会加入越来越多的相关人员,不再是运维一个人来定位问题,包括产品,研发等相关角色。


        其实,对于运维来说,紧绷的神经。。。其实也没什么大不了的,最多不就是业务中断几个小时,都能恢复。。。又不是真实的物理伤害。。。所以,无须紧张,深呼吸一口气,沉着(撑着)处理。。。

对事不对人

     对事不对人,那是不可能的。。。这辈子都不可能了。。。


    出了事,人的本能就是,这个事情与我无关。。。这个事情不是我造成的。。。这个不是我的错。。。这个不是我的锅。。。


    企业文化??那是不可能的。。追责是必须的。。。


    高层没有这种意识,他们不是没有改进机制,而他们是把追责放在了首位,他们以为这样就能让下面的人谨慎更加谨慎的操作。。。然而,并不可能,只会造成大家都在摔锅。。。只能造成大家都在畏首畏尾。。。出了问题,如果没有定位到问题,没人敢尝试去解决问题!!!!


    出发点是好的,但是多半无法执行下去。。。执行力???那是不可能的,人之本性!!!


    对事不对人。。。每次故障必然有本质问题,是因为代码有BUG?那就进行更多的测试。。。是因为监控没有提前发送告警?那就优化监控项,添加关键的监控指标、、、是因为手误操作,那就全部做成按钮,点一个按钮总不会出错了吧。。。


    不能预防人的错误,那就从系统着手,系统比人更加可靠,系统应该比人更了解系统。。。这就是为什么大力发展AI的原因????


    对事不对人。。。一个好的故障报告能让其他部门受益,一个好的故障报告能让其他产品受益,一个好的故障报告能让同行受益。。。


    开源?那是不可能的。。毕竟家丑不能外扬、、、为啥github能通知故障了?因为不怂,就是这么叼。。。


    高层没有意识。。。对事不对人,能更好的建设产品,能更好的让各个部门之间进行协调。  


    给与你犯错的机会,但是不要在同一个地方摔倒两次。。。。那么故障演练或许也是一个不错的改进方法。

    带着镣铐跳舞,或许也能很美。。。。

这篇关于漫谈SRE之对事不对人的文化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/900571

相关文章

国产游戏崛起:技术革新与文化自信的双重推动

近年来,国产游戏行业发展迅猛,技术水平和作品质量均得到了显著提升。特别是以《黑神话:悟空》为代表的一系列优秀作品,成功打破了过去中国游戏市场以手游和网游为主的局限,向全球玩家展示了中国在单机游戏领域的实力与潜力。随着中国开发者在画面渲染、物理引擎、AI 技术和服务器架构等方面取得了显著进展,国产游戏正逐步赢得国际市场的认可。然而,面对全球游戏行业的激烈竞争,国产游戏技术依然面临诸多挑战,未来的

基于javaweb的茶园茶农文化交流平台的设计与实现(源码+L文+ppt)

springboot基于javaweb的茶园茶农文化交流平台的设计与实现(源码+L文+ppt)4-20 系统功能结构 系统结构图可以把杂乱无章的模块按照设计者的思维方式进行调整排序,可以让设计者在之后的添加,修改程序内容的过程中有一个很明显的思维方向。同时结构图还可以让设计者以外的其他人更直观的看出整个系统的设计理论和设计过程。让系统的设计变的更直观。该系统的功能架构图如图3-1所示:

漫谈设计模式 [12]:模板方法模式

引导性开场 菜鸟:老大,我最近在做一个项目,遇到了点麻烦。我们有很多相似的操作流程,但每个流程的细节又有些不同。我写了很多重复的代码,感觉很乱。你有啥好办法吗? 老鸟:嗯,听起来你遇到了典型的代码复用和维护问题。你有没有听说过“模板方法模式”? 菜鸟:模板方法模式?没听过。这是什么? 老鸟:简单来说,模板方法模式让你在一个方法中定义一个算法的骨架,而将一些步骤的实现延迟到子类中。这样,你可

漫谈设计模式 [9]:外观模式

引导性开场 菜鸟:老鸟,我最近在做一个项目,感觉代码越来越复杂,我都快看不懂了。尤其是有好几个子系统,它们之间的调用关系让我头疼。 老鸟:复杂的代码确实让人头疼。你有没有考虑过使用设计模式来简化你的代码结构? 菜鸟:设计模式?我听说过一些,但不太了解。你觉得我应该用哪个模式呢? 老鸟:听起来你的问题可能适合用**外观模式(Facade Pattern)**来解决。我们可以一起探讨一下。

漫谈设计模式 [6]:适配器模式

引导性开场 菜鸟:老鸟,我最近在项目中遇到一个问题,我们的系统需要集成一个新的第三方库,但这个库的接口和我们现有的代码完全不兼容。我该怎么办? 老鸟:这是个常见的问题,很多开发者都会遇到这种情况。你有没有听说过适配器模式? 菜鸟:适配器模式?没有,能详细说说吗? 老鸟:当然可以!这就是我们今天要讨论的主题。适配器模式是一个设计模式,可以帮助我们解决你现在遇到的问题。 渐进式介绍概念 老

Java SpringBoot集成Vue.js,构建茶园茶农文化交流平台,四步实现高效互动,MySQL存储数据更稳定

🍊作者:计算机毕设匠心工作室 🍊简介:毕业后就一直专业从事计算机软件程序开发,至今也有8年工作经验。擅长Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等。 擅长:按照需求定制化开发项目、 源码、对代码进行完整讲解、文档撰写、ppt制作。 🍊心愿:点赞 👍 收藏 ⭐评论 📝 👇🏻 精彩专栏推荐订阅 👇🏻 不然下次找不到哟~ Java实战项目

漫谈数仓五重奏

第一篇:漫谈数仓 什么是数据仓库?以下是百度百科的定义: 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的特征在于面向主题、集成性、稳定性和时变性。 从传统

ExoPlayer 漫谈之Sonic调整音量

提一个问题:如何在播放视频的时候调整声音的大小? 我们使用Android手机播放视频的时候,发现声音大了,我们手动调低音量;发现声音小了,我们手动调高音量。 这个过程中,都要依赖手动,如果你在不断地刷短视频的时候,如果需要用户不断地手动调整音量键,那这个体验是不能忍受的。 这对我们提了一个要求:我们能在解码音频流的时候通过矩阵运算调整音频原始数据的大小,达到调整音量的目的? 这个思路是可行

html+css网页设计 合十文化2个页面

html+css网页设计 合十文化2个页面 ui还原度90% 网页作品代码简单,可使用任意HTML编辑软件(如:Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad++ 等任意html编辑软件进行运行及修改编辑等操作)。 获取源码 1,访问该网站 https://download.csdn.net/download/qq_4

计算机毕业设计选题推荐-茶园茶农文化交流平台-Java/Python项目实战

✨作者主页:IT毕设梦工厂✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python项目 安卓项目 微信小程序项目 文章目录 一、前言二、开发环境三、系统界面展示四、部分代码设计五、论文参考六、系统视