滴滴、阿里云、语雀相继宕机,损失巨大,软件的高可用失效了么?

2024-01-29 16:20

本文主要是介绍滴滴、阿里云、语雀相继宕机,损失巨大,软件的高可用失效了么?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在北京寒冬的夜里,小程加班完成了当天最后一个任务,他拖着疲惫的身体离开了位于西二旗的工位,走到办公楼下,下意识地拿出手机打开滴滴,准备打车回家,但是他却发现滴滴的打车页面显示网络异常。起初小程以为是手机流量没开或者手机欠费,经过反复确认后发现不是话费欠费问题,于是他重启了滴滴 app,甚至重启了手机,但都是一样的结果:

在寒风中折腾了半个小时,将本来就没穿秋裤的小程冻得瑟瑟发抖,直到在 DevOps 技术交流群中看到很多小伙伴都遇到了这种情况,小程意识到,可能是滴滴出问题了。群里的小伙伴也在讨论:是不是高可用没做好

事后,滴滴出行发布了致歉信并发布了事故的初步调查原因:并不是网络攻击而是底层系统软件发生故障。

同样的 P0 事故在半个月之前发生在了阿里云身上。

11 月 12 日,双十一刚过,阿里云发生了宕机,旗下的钉钉、淘宝、闲鱼等产品皆受到了不同程度的影响,此次事故还影响到了使用阿里云的一些企业级客户。经过数小时的修复后,服务恢复正常。                     

如果再往前一个月,同样的 P0 事故又发生在了语雀身上。

10 月 23 日,程序员节的前一天,语雀出现重大服务故障,持续了 7 个多小时才完全恢复。事故的整个过程及原因分析法不在了关于语雀 23 日故障的公告中。

一个多月的时间内,大厂的产品相继发生了三起 P0 事故。其实任何一家企业都不想自身的产品或服务出现 P0 事故,任何一个程序员都不想有处理 P0 事故的机会。事故既然已经发生,那么就要去复盘,然后制定对应的计划避免后续再发生类似的故障。而这类计划中可能会有一个永远绕不过去的话题:高可用

高可用是一种软件架构模式,主要是为了让应用程序能够满足业务规模的快速发展,尤其对于大规模或者超大规模的企业来讲,高可用是提升企业服务可靠性、可用性的重要手段。

设想一个场景:企业内部正在抓紧研发一款基于 AIGC 的产品,产品所处的赛道还处于空白状态,突然得知,另外一家竞品公司决定提前发布产品。于是公司全员开始加班,希望能比竞品更早发布产品,以达到快速占领市场的目的。但是在关键时刻,源代码托管平台崩了,数千人无法提交代码了。运维人员查看之后发现单点设置的源代码托管平台,在数千人的协作下崩盘了。由于没有采用企业级的服务,运维人员只能自行查找资料去修复。ETA:unknown。所有人只能眼睁睁地在办公室看竞品的发布会了。

如何避免这种“悲剧”?

答案是:搭建源代码托管平台的高可用架构

极狐GitLab 高可用方案


极狐GitLab 高可用扩展性架构

极狐GitLab 提供高可用扩展性架构,其源自全球最大代码托管平台之一的 GitLab.com 十多年的技术实践沉淀,该架构通过了全球 3000 万注册用户的检验。

极狐GitLab 高可用扩展性架构通过把极狐GitLab 中所有组件单独抽出来,以分布式集群的方式部署,每一个服务和组件都是多副本的,在整体架构设计上不存在单点故障,并结合负载均衡、水平伸缩、分布式架构、主从多副本机制和云原生等多种机制,实现理论上无限扩展的能力

极狐GitLab 提供支撑从 1000 人到 50000 人规模架构最佳实践参考和专业服务支持,为企业构建高度可靠 DevOps 研运平台保驾护航。

极狐GitLab 在数据存储方面使用了多个组件,如 PGSQL 和 Redis,不少客户已经将极狐GitLab 实例中的这些组件替换为第三方的高可用组件。但极狐GitLab 中最核心的存储组件却不是 PGSQL 也不是 Redis,而是 Gitaly,这是 GitLab 自研的组件,用于对代码仓库进行管理和指令互动,因此它的地位最重要,负载也最高。

因为有些企业的数据量多达 30 T 级别,使用单个磁盘或单个节点的成本很高,且性能无法保证。Gitaly Cluster 高可用 Git 仓库服务持多副本和分片,把不同的代码库分到不同的存储片上,这也是提高可用性和性能的方式。

极狐GitLab GEO 多地域部署架构

相较于支持 1000 人起步的高可用可扩展架构,极狐GitLab GEO 多地域部署架构则更为轻量和简单,更加适合中小型企业。

GEO 多地域部署架构实现一主多从,主从之间的数据实时同步。极狐GitLab GEO 多地域部署方案是热备份,即便主节点宕机,也可以把从节点处将其恢复,或提升从节点为主节点,那么丢失的数据最多是 1~2 分钟的数据。所以 GEO 多地域部署的时效性和可靠性大大高于传统冷备份方式,属于准高可用,同时是灾备架构,并支持异地容灾

极狐GitLab 的高可用架构和 GEO 功能配合使用,能够为大规模甚至超大规模企业的高效协作提供有力保障,避免因为代码托管平台自身的故障而导致代码无法提交,影响产品的正常发布及系统的稳健运行。

为了方便大家体验极狐GitLab 一体化 DevOps 平台的专业版功能,大家可以申请 60 天专业版免费试用。

这篇关于滴滴、阿里云、语雀相继宕机,损失巨大,软件的高可用失效了么?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/657474

相关文章

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

软件设计师备考——计算机系统

学习内容源自「软件设计师」 上午题 #1 计算机系统_哔哩哔哩_bilibili 目录 1.1.1 计算机系统硬件基本组成 1.1.2 中央处理单元 1.CPU 的功能 1)运算器 2)控制器 RISC && CISC 流水线控制 存储器  Cache 中断 输入输出IO控制方式 程序查询方式 中断驱动方式 直接存储器方式(DMA)  ​编辑 总线 ​编辑

【STM32】SPI通信-软件与硬件读写SPI

SPI通信-软件与硬件读写SPI 软件SPI一、SPI通信协议1、SPI通信2、硬件电路3、移位示意图4、SPI时序基本单元(1)开始通信和结束通信(2)模式0---用的最多(3)模式1(4)模式2(5)模式3 5、SPI时序(1)写使能(2)指定地址写(3)指定地址读 二、W25Q64模块介绍1、W25Q64简介2、硬件电路3、W25Q64框图4、Flash操作注意事项软件SPI读写W2

免费也能高质量!2024年免费录屏软件深度对比评测

我公司因为客户覆盖面广的原因经常会开远程会议,有时候说的内容比较广需要引用多份的数据,我记录起来有一定难度,所以一般都用录屏工具来记录会议内容。这次我们来一起探索有什么免费录屏工具可以提高我们的工作效率吧。 1.福晰录屏大师 链接直达:https://www.foxitsoftware.cn/REC/  录屏软件录屏功能就是本职,这款录屏工具在录屏模式上提供了多种选项,可以选择屏幕录制、窗口

HomeBank:开源免费的个人财务管理软件

在个人财务管理领域,找到一个既免费又开源的解决方案并非易事。HomeBank 正是这样一个项目,它不仅提供了强大的功能,还拥有一个活跃的社区,不断推动其发展和完善。 开源免费:HomeBank 是一个完全开源的项目,用户可以自由地使用、修改和分发。用户友好的界面:提供直观的图形用户界面,使得非技术用户也能轻松上手。数据导入支持:支持从 Quicken、Microsoft Money

Sentinel 高可用流量管理框架

Sentinel 是面向分布式服务架构的高可用流量防护组件,主要以流量为切入点,从限流、流量整形、熔断降级、系统负载保护、热点防护等多个维度来帮助开发者保障微服务的稳定性。 Sentinel 具有以下特性: 丰富的应用场景:Sentinel 承接了阿里巴巴近 10 年的双十一大促流量的核心场景,例如秒杀(即突发流量控制在系统容量可以承受的范围)、消息削峰填谷、集群流量控制、实时熔断下游不可用应

JAVA用最简单的方法来构建一个高可用的服务端,提升系统可用性

一、什么是提升系统的高可用性 JAVA服务端,顾名思义就是23体验网为用户提供服务的。停工时间,就是不能向用户提供服务的时间。高可用,就是系统具有高度可用性,尽量减少停工时间。如何用最简单的方法来搭建一个高效率可用的服务端JAVA呢? 停工的原因一般有: 服务器故障。例如服务器宕机,服务器网络出现问题,机房或者机架出现问题等;访问量急剧上升,导致服务器压力过大导致访问量急剧上升的原因;时间和

PDF 软件如何帮助您编辑、转换和保护文件。

如何找到最好的 PDF 编辑器。 无论您是在为您的企业寻找更高效的 PDF 解决方案,还是尝试组织和编辑主文档,PDF 编辑器都可以在一个地方提供您需要的所有工具。市面上有很多 PDF 编辑器 — 在决定哪个最适合您时,请考虑这些因素。 1. 确定您的 PDF 文档软件需求。 不同的 PDF 文档软件程序可以具有不同的功能,因此在决定哪个是最适合您的 PDF 软件之前,请花点时间评估您的