SRE 超载系统导致,谷歌发布宕机事故分析报告

2024-01-11 08:30

本文主要是介绍SRE 超载系统导致,谷歌发布宕机事故分析报告,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

开发四年只会写业务代码,分布式高并发都不会还做程序员?  hot3.png

谷歌发布了 12 日大面积服务中断事故的分析报告,指出系 SRE 超载系统使得 Google 云存储错误率提高导致。

5f62d873d824a216442adc4af18f779c689.jpg

12 日全球各地的许多用户反映使用 Gmail、YouTube、Google Drive、谷歌音乐与谷歌的其它服务时都遇到了问题,包括北美洲、南美洲、欧洲和亚洲的部分地区都受到影响,谷歌随后承认出现故障,谷歌云平台状态页面(Google Cloud Status Dashboard)显示,此次故障影响了谷歌云存储的所有区域。

当地时间 14 日,谷歌发布了针对该事件的分析报告。

谷歌表示内部 blob(大型数据对象)存储服务经历了 4 小时 10 分钟的服务中断。分析了根本原因,其指出在 3 月 11 日,Google SRE 被告警内部 blob 服务使用的元数据的存储资源显著增加;3 月 12 日,为了减少资源使用,SRE 进行了配置更改,其副作用是使系统的关键部分超载以查找 blob 数据的位置,而增加的负载最终导致级联故障

更具体的,12 日 18:40 到 22:50,谷歌内部 blob 存储服务错误率提高,平均错误率为 20%,事件发生时错误率为 31%,用户可见的 Google 服务,包括使用 blob 存储服务的 Gmail、照片和 Google 云硬盘错误率也提高了,如果没有这些服务中内置的缓存和冗余机制极大地降低了用户影响,那么后果会更加严重。

此次事故中,重大的影响包括:Google 云存储的长尾延迟较高,平均错误率为 4.8%,所有存储桶位置和存储类都受到影响,依赖于云存储的 Google 云平台服务也受到影响;Stackdriver Monitoring 在检索历史时间序列数据时出现了高达 5% 的错误率,最近的时间序列数据可用,警报没有受到影响。App Engine 的 Blobstore API 出现了较高的延迟和错误率,在获取 blob 数据时达到峰值 21%,App Engine 部署出现了高达 90% 的错误,从 App Engine 提供静态文件也会出现错误率提升。

谷歌表示非 Google 云平台服务受到的影响将会有单独的事件报告。

对于因此事件受到影响的服务与应用客户,谷歌深表歉意,并表示正在采取措施以提高可用性并防止此类中断再次发生。

详情查看:https://status.cloud.google.com/incident/storage/19002

这篇关于SRE 超载系统导致,谷歌发布宕机事故分析报告的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/593745

相关文章

C#实现系统信息监控与获取功能

《C#实现系统信息监控与获取功能》在C#开发的众多应用场景中,获取系统信息以及监控用户操作有着广泛的用途,比如在系统性能优化工具中,需要实时读取CPU、GPU资源信息,本文将详细介绍如何使用C#来实现... 目录前言一、C# 监控键盘1. 原理与实现思路2. 代码实现二、读取 CPU、GPU 资源信息1.

在C#中获取端口号与系统信息的高效实践

《在C#中获取端口号与系统信息的高效实践》在现代软件开发中,尤其是系统管理、运维、监控和性能优化等场景中,了解计算机硬件和网络的状态至关重要,C#作为一种广泛应用的编程语言,提供了丰富的API来帮助开... 目录引言1. 获取端口号信息1.1 获取活动的 TCP 和 UDP 连接说明:应用场景:2. 获取硬

JAVA系统中Spring Boot应用程序的配置文件application.yml使用详解

《JAVA系统中SpringBoot应用程序的配置文件application.yml使用详解》:本文主要介绍JAVA系统中SpringBoot应用程序的配置文件application.yml的... 目录文件路径文件内容解释1. Server 配置2. Spring 配置3. Logging 配置4. Ma

2.1/5.1和7.1声道系统有什么区别? 音频声道的专业知识科普

《2.1/5.1和7.1声道系统有什么区别?音频声道的专业知识科普》当设置环绕声系统时,会遇到2.1、5.1、7.1、7.1.2、9.1等数字,当一遍又一遍地看到它们时,可能想知道它们是什... 想要把智能电视自带的音响升级成专业级的家庭影院系统吗?那么你将面临一个重要的选择——使用 2.1、5.1 还是

高效管理你的Linux系统: Debian操作系统常用命令指南

《高效管理你的Linux系统:Debian操作系统常用命令指南》在Debian操作系统中,了解和掌握常用命令对于提高工作效率和系统管理至关重要,本文将详细介绍Debian的常用命令,帮助读者更好地使... Debian是一个流行的linux发行版,它以其稳定性、强大的软件包管理和丰富的社区资源而闻名。在使用

Redis主从/哨兵机制原理分析

《Redis主从/哨兵机制原理分析》本文介绍了Redis的主从复制和哨兵机制,主从复制实现了数据的热备份和负载均衡,而哨兵机制可以监控Redis集群,实现自动故障转移,哨兵机制通过监控、下线、选举和故... 目录一、主从复制1.1 什么是主从复制1.2 主从复制的作用1.3 主从复制原理1.3.1 全量复制

Ubuntu系统怎么安装Warp? 新一代AI 终端神器安装使用方法

《Ubuntu系统怎么安装Warp?新一代AI终端神器安装使用方法》Warp是一款使用Rust开发的现代化AI终端工具,该怎么再Ubuntu系统中安装使用呢?下面我们就来看看详细教程... Warp Terminal 是一款使用 Rust 开发的现代化「AI 终端」工具。最初它只支持 MACOS,但在 20

windows系统下shutdown重启关机命令超详细教程

《windows系统下shutdown重启关机命令超详细教程》shutdown命令是一个强大的工具,允许你通过命令行快速完成关机、重启或注销操作,本文将为你详细解析shutdown命令的使用方法,并提... 目录一、shutdown 命令简介二、shutdown 命令的基本用法三、远程关机与重启四、实际应用

五大特性引领创新! 深度操作系统 deepin 25 Preview预览版发布

《五大特性引领创新!深度操作系统deepin25Preview预览版发布》今日,深度操作系统正式推出deepin25Preview版本,该版本集成了五大核心特性:磐石系统、全新DDE、Tr... 深度操作系统今日发布了 deepin 25 Preview,新版本囊括五大特性:磐石系统、全新 DDE、Tree

Debian如何查看系统版本? 7种轻松查看Debian版本信息的实用方法

《Debian如何查看系统版本?7种轻松查看Debian版本信息的实用方法》Debian是一个广泛使用的Linux发行版,用户有时需要查看其版本信息以进行系统管理、故障排除或兼容性检查,在Debia... 作为最受欢迎的 linux 发行版之一,Debian 的版本信息在日常使用和系统维护中起着至关重要的作