语雀停服8小时,P0级事故,故障原因和补偿来了。

2023-10-25 18:45

本文主要是介绍语雀停服8小时,P0级事故,故障原因和补偿来了。,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

昨天互联网圈子里发生了一件大事,那就是语雀的 P0 级事故,前后足足停服了 7 个多小时,放眼整个互联网的发展史,都是相当炸裂的表现。

语雀是技术大牛玉伯在蚂蚁金服内部孵化出来的一个云端知识库,整体的界面非常清爽,书写方式也非常丝滑,所以得到了不少小伙伴的青睐,我自己也是语雀的重度用户。

我平常的知识库,也都托管在语雀平台上,因为我觉得比较适合沉浸式地阅读。

昨天 16.46 我还技术交流群里发了一个通知,说《Java 面试指南》中又收录了不少新的面经和学习心得,小伙伴们可以刷一波了,然后就有不少小伙伴反馈说语雀已经崩了,内容无法查看。

不少小伙伴应该都是语雀的重度用户,相信大家对这波事故背后的原因非常好奇,说好的高可用、异地多活、容灾备份、两地三中心呢?面试的时候不是经常问吗?真遇到事了,又解决不了?

况且背靠蚂蚁金服这么牛逼的大厂,7 个多小时才搞定?那些所谓的技术大牛都去干嘛了?

语雀官方给出的解释是,由于数据量过于庞大,所以从备份系统中恢复存储数据花费了比较久的时间,从 15.10 分一直持续到 19 点才完成数据恢复,后来又用了 3 个多小时进行数据完整性的校验和联调,所以直到 22 点才终于结束这场闹剧。

并且官方给出了一个相对友好的解决方案,所有语雀的个人用户,赠送 6 个月的会员服务。

大家一定要记得领一下,我自己又续费了 2 年,一共 198 元,支持语雀一把。毕竟我已经是语雀的重度用户,数据统计里显示我已经创作了 30 万+字,厚厚好几本书了。

针对语雀这次故障,有小伙伴调侃说是因为维修文档在语雀里面,这个我觉得不太可能哈,语雀不至于蠢到连本地服务都没做。

我猜想的原因是,之前负责这块运维的老员工因为一些原因离职了(你懂的),导致目前维护语雀的员工在第一次遇到这个问题时傻眼了,就算是对照着文档也不知道怎么去操作。

想想也是,如果换成是我遇到这种故障,估计人当场就傻眼了,精神高度紧张,会的东西也不会了,毕竟这可是 P0 级事故,年终奖没了不说,后续可能还要背锅。

能处理好吗?

处理不好,所以,运维这个岗位平常可能看上去没啥用,运维搞的事情一个资深后端也能搞定,可真遇到事了,还得是有经验的上啊。

当然,时间耗这么久,肯定还有开会和汇报的时间占了大头,这种事故肯定大老板是要介入的。

话说,这次解决问题的员工下次面试时就可以自信满满地说:“劳资当年可是处理过语雀 P0 级事故的程序员。”说完这句话,后面估计就不用再继续面了,直接录用发 offer 就对了,这可是宝藏级的程序员啊。

所以,大家平常遇到比较重大的 bug 时一定要记得更新一波自己的简历,这绝对是加分项(😂)。

这篇关于语雀停服8小时,P0级事故,故障原因和补偿来了。的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/284508

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

【测试】输入正确用户名和密码,点击登录没有响应的可能性原因

目录 一、前端问题 1. 界面交互问题 2. 输入数据校验问题 二、网络问题 1. 网络连接中断 2. 代理设置问题 三、后端问题 1. 服务器故障 2. 数据库问题 3. 权限问题: 四、其他问题 1. 缓存问题 2. 第三方服务问题 3. 配置问题 一、前端问题 1. 界面交互问题 登录按钮的点击事件未正确绑定,导致点击后无法触发登录操作。 页面可能存在

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

DAY16:什么是慢查询,导致的原因,优化方法 | undo log、redo log、binlog的用处 | MySQL有哪些锁

目录 什么是慢查询,导致的原因,优化方法 undo log、redo log、binlog的用处  MySQL有哪些锁   什么是慢查询,导致的原因,优化方法 数据库查询的执行时间超过指定的超时时间时,就被称为慢查询。 导致的原因: 查询语句比较复杂:查询涉及多个表,包含复杂的连接和子查询,可能导致执行时间较长。查询数据量大:当查询的数据量庞大时,即使查询本身并不复杂,也可能导致

flume系列之:记录一次flume agent进程被异常oom kill -9的原因定位

flume系列之:记录一次flume agent进程被异常oom kill -9的原因定位 一、背景二、定位问题三、解决方法 一、背景 flume系列之:定位flume没有关闭某个时间点生成的tmp文件的原因,并制定解决方案在博主上面这篇文章的基础上,在机器内存、cpu资源、flume agent资源都足够的情况下,flume agent又出现了tmp文件无法关闭的情况 二、

71-java 导致线程上下文切换的原因

Java中导致线程上下文切换的原因通常包括: 线程时间片用完:当前线程的时间片用完,操作系统将其暂停,并切换到另一个线程。 线程被优先级更高的线程抢占:操作系统根据线程优先级决定运行哪个线程。 线程进入等待状态:如线程执行了sleep(),wait(),join()等操作,使线程进入等待状态或阻塞状态,释放CPU。 线程占用CPU时间过长:如果线程执行了大量的I/O操作,而不是CPU计算

笔记本电脑开机报错故障的原因及解决办法

笔记本电脑开机报错故障是指笔记本电脑开机自检时或启动操作系统前停止启动,在显示屏 出现一些错误提示的故障。   笔记本电脑开机报错故障的原因及解决办法   造成此类故障的原因一般是笔记本电脑在启动自检时,检测到硬件设备不能正常工作或在自 检通过后从硬盘启动时,出现硬盘的分区表损坏、硬盘主引导记录损坏、硬盘分区结束标志丢失 等故障,笔记本电脑出现相应的故障提示。   维修此类故障时

Windows系统不关机故障的解决方法

当Windows系统出现不关机故障时,首先要查找引起Windows系统不关机的原因,然后根据 具体的故障原因采取相应的解决方法。   Windows系统不关机故障的解决方法如下。   1.检查所有正在运行的程序   检查运行的程序主要包括关闭任何在实模式下加载的TSR程序、关闭开机时从启动组自动启 动的程序、关闭任何非系统引导必需的第三方设备驱动程序。   检查运行的程序并停

图片地址携带blob:的原因

图片地址携带blob:的原因与Blob对象(Binary Large Object)的使用有关。Blob对象代表了一个不可变的、原始数据的类文件对象,通常用于处理二进制数据,如图片、视频或音频文件等。在计算机中,Blob常用于数据库中存储二进制文件,但在Web开发中,Blob对象也被广泛用于前端处理二进制数据。 具体来说,当图片地址携带blob:时,这通常意味着图片数据是以Blob对象的形式存储

IBM Storwize V7000存储控制器故障节点报错574

背景:由于客户机房搬迁,需要下电迁移设备。该存储自2016年投入生产使用后,从未关过机,已正常运行七八年时间,期间只更换过硬盘,无其他硬件故障。 在GUI界面点击关闭系统后,大概等了40分钟,存储仍未关机,所有硬盘状态灯绿色常亮,面板无报错。到设备后面看控制器的状态,发现node2已经正常关机了,node1仍然在运行,又等了大概20分钟还没有关机,直接将电源线给拔掉了。 再次上电以后,发现