天天报警值班,老子不干了

2024-03-23 18:44

本文主要是介绍天天报警值班,老子不干了,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近跟一个朋友(化名张三)吃饭,三哥最近想离职,来找我喝酒,说天天 OnCall,出门都带着电脑,连续一年了,要崩溃了。我问:你们组就你一个人么?为啥就你自己 OnCall?三哥一脸苦涩:我们组算上老板 4 个人,老板说另外俩人不靠谱,不让他俩 OnCall,还给我画饼,说 OnCall 能提升我的技术,年底绩效普通,那俩哥们安心干开发,绩效都比我好,TMD 心塞,老子不伺候了。。。下面,据说是三哥接电话告警时的萧瑟背影。。。

Snipaste_2024-03-19_10-22-38

显然,三哥这是遇人不淑了。其实还有一个情况也挺恶心,老板说咱们推行 DevOps 文化,「You build it, you run it, you monitor it」,然后全员 OnCall,老实巴交的人就时时刻刻扛着电脑,不老实的人出了问题从来不管,要是老板问起,就说自己睡着了,或者刚好没信号,或者在洗澡,总之就是各种理由,最终的结局是,全组人不少,只有那个老实巴交的人累的一批,最后离职,然后老板又找个新人,继续这个循环。

其实,这是典型的双输局面:

  • 于这个老实人而言,心情郁闷,最终离职;
  • 于团队而言,明眼人能看到管理水平低下,人员流动大,稳定性差;

真是印证了那句话:

一切问题都是管理的问题。

当然,把问题推到管理上,推到文化上,或者推到创始人个人身上,对于解决当下问题,通常起不到太多直接作用。咱们姑且来看一下作为一二线 leader 应该怎么做,如果你是底层的大头兵,至少可以和直线 leader 做交流,或者最不济的,把文章分享到朋友圈,期待自己的傻 x 老板能看到吧。下面,,上正菜(请各位股民不要介意)。。。

20240319110613

怎么做 OnCall 才不至于把人逼走?

第一、排班轮流干。

这个事,确实谁都不愿意持续干,那就得排班,轮流干,团队共担,中国人的思路就是不患寡而患不均,弄个排班表格,把大家都安排上,当然,还要考虑临时调班、节假日调班,Excel 管理起来稍微费点劲,可以使用一些排班工具,比如 PagerDuty、OpsGenie、FlashDuty 等等,这些工具都是专业的告警 OnCall 产品,自然都有排班功能,可以自动化排班,支持换班通知、临时调班和节假日调班等功能,可以大大减轻排班管理的负担。

第二、OnCall 的人要有奖励

比如本周我轮班,日薪翻倍,大家的热情一下子就起来了。其实海外很多公司都是这样的,OnCall 的人有专门的奖金,或者是额外的假期,这样大家都愿意轮流干,而不是像三哥那样,一年都没休过假。公司虽然因此付出了一些成本,但是员工效率提升,稳定性提升,而且员工幸福感提升,各位老板都是精明人,理应知道这是双赢的事情。

第三、OnCall 的人不尽责要有惩罚机制

这是建立在奖励机制之上的,奖惩分明,公平公正才是长久之计,只有处罚没有奖励是不行的。比如,OnCall 的人故意不接电话,不处理告警,导致事故,那就要有相应的惩罚措施,比如扣钱,扣绩效,甚至开除。这样一来,大家都会严肃对待 OnCall 这件事,不敢有丝毫的马虎。(制度要公平,广受认可,否则大家心底不服,强压难以落地)

当然,如果真的出现这种情况,告警长时间未得到处理,应该升级到 backup 的同事或直接升级到 leader,保证每个告警都最终被处理。这就需要告警事件的分发平台要支持升级机制,上面提到的 PagerDuty、OpsGenie、FlashDuty,都支持告警升级机制,可以保证告警不会被漏掉。

第四、OnCall 人员发现的稳定性隐患要高优处理

OnCall 的同事如果发现系统稳定性隐患,要及时上会讨论,确定高优先级处理,这样一来,系统越来越稳定,告警越来越少,OnCall 的人也就越来越轻松。

第五、告警要有统一收敛、降噪的平台支持

比如某个网络故障,咔咔咔上千条告警电话打过来,OnCall 手机都被打爆了,没法正常使用,OnCall 的人会很烦躁,这时候就需要告警平台支持告警的统一收敛、降噪,把相同的告警合并成一条,或者把不重要的告警降噪掉。当然,一般监控系统专注在监控数据采集、存储、可视化分析、告警事件生成,对告警事件的后续收敛、降噪、分发、升级等功能支持的不好,可以考虑自研一个专门的 OnCall 平台,或者使用一些成熟的产品,把人力省出来做更有价值的事情。

第六、OnCall 人员要有完备的 SOP 手册

一般在处理告警的时候,精神都是高度紧张的,容易出错,这时候就需要有完备的 SOP 手册,告诉 OnCall 的人,遇到什么情况,应该怎么处理,这样一来,不仅可以提高处理效率,还可以降低处理错误的概率。当然,如果可以把 SOP 逻辑固化为脚本,那就更好了,告警的时候自动执行脚本即可,不需要人工干预。这就是为啥夜莺有个告警自愈的功能。

每个新模块上线,都要提供一些基本的前置条件:

  • 梳理 SLI 指标,并配置告警规则
  • 梳理 SOP 手册,并做好培训
  • 紧急联系人,一般是模块负责人,如果这个人不想经常被打扰,SLI、SOP 都要做好,否则就是自己找罪受

希望各位老板认真对待 OnCall 这件事,别把老实人逼走了追悔莫及,各位老铁还有其他好的建议不,欢迎留言交流哈。

附录:

公众号没法放置链接,文中的链接统一放到这里:

  • PagerDuty:https://www.pagerduty.com/
  • OpsGenie:https://www.opsgenie.com/
  • FlashDuty:https://flashcat.cloud/product/flashduty/

这篇关于天天报警值班,老子不干了的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/839195

相关文章

【语音告警】博灵智能语音报警灯JavaScript循环播报场景实例-语音报警灯|声光报警器|网络信号灯

功能说明 本文将以JavaScript代码为实例,讲解如何通过JavaScript代码调用博灵语音通知终端 A4实现声光语音告警。主要博灵语音通知终端如何实现无线循环播报或者周期播报的功能。 本代码实现HTTP接口的声光语音播报,并指定循环次数、播报内容。由于通知终端采用TTS语音合成技术,所以本次案例中无需预先录制音频。 代码实战 为了通过JavaScript调用博灵语音通知终端,实现HT

天天爱你的心永不变

爱一个人,能够爱多久,很多人都有这个疑问,很多人对于天长地久的爱情都存在怀疑。其实,就是你的怀疑让你的爱情在慢慢失去原来的味道,是你的怀疑将你的爱情逐渐推离你的生活。

信息学奥赛初赛天天练-83-NOIP2014普及组-基础题2-输入设备、输出设备、操作系统、二进制、整数除法、while、do while循环

1 NOIP 2014 普及组 基础题2 4 以下哪一种设备属于输出设备( ) A 扫描仪 B 键盘 C 鼠标 D 打印机 5 下列对操作系统功能的描述最为完整的是( ) A 负责外设与主机之间的信息交换 B 负责诊断机器的故障 C 控制和管理计算机系统的各种硬件和软件资源的使用 D 将没有程序编译成目标程序 11 下列各无符号十进制整数中,能用八位二进制表示的数中最大的是( ) A 296

员工微信聊天敏感词报警系统是什么?好用的企业敏感词告警系统推荐(宝藏收藏篇)

"风起于青萍之末,浪成于微澜之间。"  在信息如潮的今日,一句不经意的言辞,或许就隐藏着企业安全的隐患。 员工微信聊天敏感词报警系统,正是这风起云涌中的一道坚实防线,它如同敏锐的哨兵,时刻监控着信息的流向,确保企业的每一份机密都能得到妥善保护。 本文将深入解析这一系统,并为您推荐一款宝藏级的企业敏感词告警系统——安企神。 员工微信聊天敏感词报警系统是什么? 员工微信聊天敏感词报警系统,

基于ZigBee的老人家庭监护报警设计

1 整体方案设计 本设计老人家庭监护报警系统的整体架构如图2.1所示,包括终端节点、协调器、上位机三个部分,其各个部分功能如下: 终端节点:以CC2530单片机为控制核心,结合心率传感器、DS18B20温度传感器、压力传感器、红外传感器对老人当前的心率、体温、是否在床上、是否在厕所的状态进行监测,并通过RFID识别IC卡的方式获取老人的基本信息,并将检测数据通过Zigbee通信发送到协调器。

Linux之grafana+onealert报警

grafana介绍         Grafana是一个开源的度量分析和可视化工具,可以通过将采集的数据分析,查询,然后进行可视化的展示,并能实现报警。 grafana安装与登录  在grafana服务器上安装grafana 下载地址:https://grafana.com/grafana/download (请使用共享的软件版本,以免出现不兼容问题) 拷贝软件包到grafana服务

信息学奥赛初赛天天练-80-NOIP2015普及组-基础题5-错位排列、二叉树、完全二叉树、叶子节点、完全二叉树叶子节点

NOIP 2015 普及组 基础题5 21 重新排列 1234使得每一个数字都不在原来的位置上,一共有( )种排法 22 一棵结点数为 2015的二叉树最多有( )个叶子结点 2 相关知识点 1) 错位排列 考虑一个有n个元素的排列,若一个排列中所有的元素都不在自己原来的位置上,那么这样的排列就称为原排列的一个错排。 n个元素的错排数记为D(n) 错排问题最早被尼古拉·伯努利和欧拉研究

信息学奥赛初赛天天练-79-NOIP2015普及组-基础题4-即时通讯软件、二叉树遍历、前序遍历、中序遍历、后序遍历、算法时间复杂度

NOIP 2015 普及组 基础题4 11 下面哪种软件不属于即时通信软件( ) A QQ B MSN C 微信 D P2P 16 前序遍历序列与中序遍历序列相同的二叉树为( ) A 根结点无左子树 B 根结点无右子树 C 只有根结点的二叉树或非叶子结点只有左子树的二叉树 D 只有根结点的二叉树或非叶子结点只有右子树的二叉树 18 下列选项中不属于视频文件格式的是( ) A TXT B AV

Prometheus+alter+dingtalk实现钉钉报警(ansible搭建-宝宝教程)

目录 1.配置钉钉机器人 1.1创建钉钉机器人 1.2配置url和secret  2.下载压缩包 3.编写ansible文件 3.1编写主机清单 3.2编写dingtalk配置文件 3.3编写监控项 3.4编写Prometheus的配置文件 3.5编写ansible的主文件 4.执行ansible文件 5.测试 搭建promethus、grafana和export

如何用天天模拟器做调试

声明: 本人菜鸟一枚, 本博客是本人自学的内容, 适用于初学者, 不喜勿喷, 谢谢大家 在cmd中打命令:adb connect 127.0.0.1:6555 其中6555是天天模拟器的端口