逢宕机必谈起,多云是真火还是假热?

2023-12-17 22:20

本文主要是介绍逢宕机必谈起,多云是真火还是假热?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

\n

每逢云平台发生宕机,多云这个话题都会被溜一遍,舆论之下的实际应用状况到底如何?多云到底是规避安全风险还是增加新的潜在危机?业内专家如何看待这一话题?

\n
\n

话题背景

\n

近两年,因为云计算的快速发展以及各大云厂商的几起宕机事故,将多云这一概念推向高潮,几乎每次宕机过后的接连几场云计算相关活动都会出现“多云”相关探讨。当然,这不代表本地自建机房时期的安全性有多高,只是云一旦出现问题,很容易产生共振效应,进而造成大范围影响。

\n

根据国外云计算的应用步伐来看,多云似乎已经被提上议程。前不久,分析公司 Kentik曾发布一份云相关的调查报告,该报告调查了 310 位技术和业务主管。令人寻味的是,AWS 和 Azure 似乎是两个最激烈的云竞争对手,但企业更倾向于同时部署两大云服务,也就是所谓的多云配对。

\n

调查显示多云部署正在快速发展,可能会逐渐超过混合云,并且最常见的云组合是 AWS 和 Azure,但也有客户选择 Google Cloud Platform。根据 Kentik 的调查,97%的受访者表示所在公司使用 AWS,35%的受访者表示也在积极使用 Azure,24% 的受访者同时使用 AWS 和 Google Cloud Platform。

\n

但是,也有不少用户发出质疑:单云都没用好,如何Hold住多云?作为云平台的直接使用者到底应该如何选择?InfoQ就此问题采访了数位业内专家、企业用户,并汇总了普通开发者的声音,我们来看看多云到底靠不靠谱。

\n

多云探讨

\n

在不少与宕机相关的文章中,都能看到与“多云”相关的评论,笔者随机截了几位相关评论,如下:
\n\"\"\"\"

\n

不难看出,大多数用户认为多云可以解决供应商锁定问题,并降低安全风险,因此推荐企业部署多云。对此,专家认为,避免厂商锁定是大多数企业的IT策略,其中一个重要考量是成本优化,大多数规模较大的企业都担心与云提供商建立单一供应关系,进而丧失议价能力,但多云是否会降低成本,需要看整体拥有成本的构成。当然,也有用户对多云提出质疑,认为如果上升到实践层面,不少企业恐怕无法应对成本、安全性、域名等相关政策带来的挑战。

\n

在知乎上,也有不少与多云相关的探讨:

\n

\"\"

\n

对此,业内专家在接受InfoQ采访时表示,作为云服务的采用者,企业首先需要仔细考虑清楚自己的战略,同时了解这些挑战最终可能带来的复杂性、成本和陷阱。在多云部署中,成本可能会成倍增加,这不仅仅是云订单的价格,还有运维成本。虽然一开始通过利用多个云计算提供商来实现成本效率似乎是合理的,但长远来看,缺乏工具和标准以及其他低效率培训和跟踪云平台使用的成本可能代价高昂。
\n 
\n目前,多云支持能力的供应商成熟度差异非常大。虽然一些供应商是早期采用者和开拓者,但彼此之间存在全方位差异,而这种差异使得采用过程非常复杂和低效。此外,从安全性和合规性角度来看,缺乏集成身份和访问管理也是一项重要挑战。

\n

Kubernetes将会促成多云?

\n

早前,InfoQ曾 对 Kubernetes 项目创始人兼 Heptio 首席执行官Craig McLuckie进行采访,其在采访中谈到:

\n
\n

Kubernetes 是一个非常健壮的真正的分布式系统。按照设计,它消除了系统中的单点故障。对于一个恰当配置的集群(配置了高可用及恰当的基础设施),你可以在数据中心里转转,拔掉节点,Kubernetes 会把工作负载调整到运行中的节点,把一切恢复到正常状态。许多用户在首次看到这个效果时都非常吃惊。我记得有人将其称为“猎枪证明系统(shotgun proof system)”。其稳定性令人吃惊。

\n
\n

确实,Kubernetes在云计算中处于一个恰好的位置,不是特别底层,不会让开发者受困于特定环境细节,而同时又可以获得足够的灵活性。关于这一点,其背后涉及更深层次的两个论题:一是为什么需要开放的云原生技术体系;二是如何在云端构建高可用IT架构保证业务的连续性。

\n

某互联网云计算厂商的技术专家表示,Kubernetes 一方面帮助用户屏蔽底层特定运行环境细节,一方面提供了灵活的资源调度和应用编排能力,可以让容器化应用获得足够的灵活性并简化自动化运维,得到了社区的广泛支持。CNCF推出Kubernetes一致性验证项目,各主流云厂商都通过了相关认证,保证了用户的容器化应用可以在不同云厂商之间平滑迁移。

\n

根据过去与客户的实际交流来看,尤其是金融、零售、制造、医疗卫生等领域,CIO们不希望被某一家厂商锁定,而是希望云提供商能够提供类似标准电力一样的计算能力,并尽可能价格优惠。云原生不断打磨标准,也必将使得企业用户会从在这个开放标准建立的过程中获益,获得基于云构建IT架构的最佳实践并可以选择合适迁云路径和云平台。

\n

至于第二个问题,用户上云需要一个E2E高可靠架构,比如云基础设施、应用基础设施、应用部署和应用架构自身。当然,这也需要综合考虑成本和效率。跨可用区可以实现同城容灾,而且可用区间延迟小(比如阿里云可用区之间延迟在几个毫秒以内),同时基础云产品基本全部做到了跨可用区容灾,用户使用这些能力提升架构可用性的成本很低。对于容灾能力要求更高的业务,业界比较通用的做法有两地三中心和异地多活等等,能做到地域级容灾能力。多云带来的收益是防止单个云产商多个地域同时出现问题,会更加复杂,这之间的网络互联性能、数据复制策略、管理成本都会非常高。
\n 
\n从Kubernetes的设计来说,其自身是一个健壮的分布式系统架构,如果集群采用了高可用配置,即使某个节点出现故障,原本运行在该节点的应用负载会被Kubernetes调整到其他运行良好的节点上。当然,这也并非高枕无忧。一个完整的高可用架构包括很多层面,从云基础设施IaaS、应用基础设施(如容器集群)配置,到应用配置(如K8s应用的跨AZ部署约束),再到应用架构自身配置,都息息相关。针对实际情况,可以实现不同级别的高可用,比如多可用区级别,或者跨区域、跨多个云供应商级别等。

\n

应用现状

\n

虽然多云目前备受关注,但就实际使用情况而言,国内在该领域仍处于初期阶段,新架构模式和实践经验还在探索之中,多云所带来的复杂性、潜在安全风险等问题都尚未有成熟的解决方案。
\n 
\n相比较而言,跨国企业和大型企业会更倾向于选择多云战略,这是受到安全合规和业务拓展等核心需求驱动。中小企业受限于成本和运维压力,轻易不会选择多云。一些海外500强企业进入中国,一般都会选择多云战略,这可以拓展地域覆盖并就近服务客户,因为云厂商覆盖的地域不同,企业为了业务拓展需要可能会选择多个云供应商。
\n 
\n企业在云迁移过程中所处的阶段和自身技术成熟度不尽相同,其中一些已经具备先进的能力,而其他企业才刚刚迈出试探性的脚步,业务需求和技术选型路径也会有所不同。
\n 
\n一般而言,传统企业会考虑将核心业务和数据放在私有云上,而把互联网应用等新兴业务部署在公有云上。随着业务的持续发展和IT架构的现代化改造,会逐渐扩大公有云比重将更多核心业务迁云,这个时间,企业往往会开始考虑多个云供应商的问题。
\n 
\n对于互联网企业,一开始就是在公有云环境下生长起来的。随着企业技术能力的成熟,整个IT架构充分利用了云能力,具备了较好的弹性、健壮性和可移植性。如果一个云供应商无法满足其业务拓展的需求,自然也会选择多个云供应商。
\n 
\n专家认为,用户对多云的关注,很大程度是云计算被普遍接纳的自然结果。但是,当下多云依然存在很大挑战,还需要业界一同努力。

\n

结语

\n

就现状而言,企业部署多云战略尤其是中小企业尚存难处。因此,企业不要盲目选择多云,首要应该保证单云架构下业务的安全稳定。虽然云计算比本地数据中心可用性高,但不能寄希望于云计算的可用性达到百分百,毕竟近两年主流云计算厂商皆发生过多起宕机事故。在发生可用区级别故障时,如果用户合理设置了多可用区支持可以应对故障。

\n

除了在架构上具备容灾能力,如何确保业务连续性也是一个重要话题。即便系统容灾能力建设完备,还需要确保能力符合预期,不能等真实故障来验证系统能力,容灾能力需要做好提前演练。在容灾能力之外,要真正做到业务高可用还有一系列工作,除了应对硬件设备灾难,还需要额外面对非常多其它挑战,比如流量冲击、引入不合理依赖、依赖环节不可用或者延迟高等,这些都是上云企业在互联网业务快速发展中需要考虑的问题。

\n

这篇关于逢宕机必谈起,多云是真火还是假热?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/506070

相关文章

从网易校招编程题谈起,轻松理解有趣的0-1背包问题

从网易的一道算法题开始 最近在准备春招实习,偶然做到网易的一道编程题,一方面找了很多博客看的云里雾里,这里特别写下解题的思路和逻辑,一方面加深印象,另一方面供需要的你学习参考。好了,话不多说,开始吧。本文提供思路,并给出Java代码实现例子,供大家参考。 先睹为快 来源:网易2017春招笔试真题编程题 时间限制:1秒 空间限制:32768K 一种双核CPU的两个核能够同时的处理任务,现在有

企业多云策略的优势与实施指南

企业在选择云服务提供商时,常见的选项包括亚马逊AWS、微软Azure、谷歌云GCP、阿里云、腾讯云和华为云。为了避免过度依赖单一供应商,许多企业选择采用多云策略,这样可以充分利用不同云服务的优势,同时避免重复工作和其他额外的工作负担。 多云策略的优势 采用多云策略有助于企业不必完全依赖单一的云提供商。不同的云提供商在专业化服务方面各有所长,但这些服务并不总是互通有无。此外,企业内部的不同部

HBase原理 | HBase RegionServer宕机数据恢复

HBase采用类LSM的架构体系,数据写入并没有直接写入数据文件,而是会先写入缓存(Memstore),在满足一定条件下缓存数据再会异步刷新到硬盘。为了防止数据写入缓存之后不会因为RegionServer进程发生异常导致数据丢失,在写入缓存之前会首先将数据顺序写入HLog中。如果不幸一旦发生RegionServer宕机或者其他异常,这种设计可以从HLog中进行日志回放进行数据补救,保证数据不丢失

OpenAI 宕机事件:GPT 停摆的影响与应对

引言 2024年6月4日,OpenAI 的 GPT 模型发生了一次全球性的宕机,持续时间长达8小时。此次宕机不仅影响了OpenAI自家的服务,还导致大量用户涌向竞争对手平台,如Claude和Gemini,结果也导致这些平台出现故障。这次事件的广泛影响提醒我们现代社会对AI服务的高度依赖,也引发了对云计算和AI服务稳定性的深刻思考。 GPT 宕机的技术背景 OpenAI的GPT模型宕机并非孤立

Redis Cluster迁移目标节点宕机下填坑

转载自 听滴滴大神讲解redis cluster数据迁移遇到的坑 问题背景 应@冬洪兄邀请,让我把最近在处理Redis Cluster中遇到的坑分享下,由于个人时间问题,大致整理了一个比较大,比较坑的问题,它可能会导致集群部分slot不可用,甚至需要重建集群。如果对redis cluster不了解的可以查看redis原理分享。 架构图如下 模拟迁移数据目标节点宕机场景

Oracle RAC 单节点宕机 has a disk HB, but no network HB

故障描述: 由于心跳网络出现问题,2号结点服务器被强制重启。重启之后2号结点上的haip丢失,haip服务无法启动,导致2号结点的asm实例和db实例均无法启动。 crs log里出校大量类似 2014-08-0914:21:51.057: [    CSSD][3358]clssnmvDHBValidateNCopy: node 1, rac01, has a disk HB, but n

私有云和多云管理平台 | Cloudpods v3.11.4 正式发布

本次 3.11.4 更新亮点为:系统镜像引入社区镜像,用户可以一键导入各主流开源操作系统镜像,方便用户上手使用。持续迭代共享 LVM,支持快照,主备机等特性,修复迁移删除镜像缓存等 BUG。 功能优化 【费用】费用预测功能优化(企业版)【多云】默认打开火山引擎、金山云及 Oracle Cloud 平台开关【网络】腾讯云支持 WAF 策略【网络】Azure 应用程序服务展示更多属性信息【主机】支

ChatGPT 宕机部分用户访问报错 api key开发应用不影响

就在今日4号下午,有部分用户反映ChatGPT访问报错,不幸的是,ChatGPT 目前对某些用户不可用 - 该问题已被发现,OpenAI 团队正在努力解决它 似乎就api 开发使用key的应用不受影响 以下是对接ChatGPT api key开发的应用正常对话

多云世界中的 API 治理

随着企业不断拥抱数字化转型,许多企业正在采用多云战略,以充分利用不同云平台的独特优势和功能。这种方法使企业能够避免被供应商锁定,提高灵活性,并优化 IT 成本。然而,在多个云平台上管理应用程序接口并非易事。它带来了新的复杂性,因为每个云平台都有自己的一套 API,每个 API 都有独特的特点和特异性。 本文旨在对多云环境中的 API 治理提供一个高层次的概述。API 治理是指为 API 的设计、

内核宕机自救

【问题】在测试内核级防篡改时,偶尔会遇到内核宕机的问题 【结论】进入紧急救援模式,将服务进程文件的start注释掉,即可 在Linux系统启动时,内核启动顺序选择界面,进入系统欢迎界面按上下左右键进入GRUB界面;选择刚刚宕机的内核,按下【e】,进入内核界面后找到下面这一行,然后将ro,修改为rw,并在末尾添加 init=/bin/sh 按下【Ctrl +x】进入单用户模式,找到对应的