欧洲最大云厂商遇火灾，数据安全任重道远！

本文主要是介绍欧洲最大云厂商遇火灾，数据安全任重道远！，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

3月10日欧洲最大云计算厂商OVH位于斯特拉斯堡的数据中心，发生历史上史无前例的灾难性事件，整个数据中心被大伙烧毁。3月11日至今仍在努力恢复中。影响包括火爆全球的视频游戏制作公司Rust、Deribit、英法波政府平台等在内的360万个网站。在云迅猛发展的今天，我们该如何应对不确定性带来的业务不可持续和数据安全灾难呢？

01 OVHCloud火灾事回顾

3月10日周三深夜，OVHcloud位于斯特拉斯堡的SBG2数据中心被大伙烧毁，同时SBG1数据中心也部分受损，SBG3和SBG4数据中心因受消防保护，被迫停服。360万个站点处于离线状态。
3月11日火灾造成的破坏程度超过了想象，OVHcloud宣布下周在重新开放斯特拉斯堡的数据中心，同时将Roubaix和Gravelines数据中心的服务器交付给受影响的客户用于恢复。未来几周内，将10000新服务器用于重建斯特拉斯堡数据中心。根据Gartner分析师分析，推测此次火灾是由于UPS故障导致的。
3月12日保护和清理现场，为火灾中幸存的SBG1 SBG3 SBG4三个数据中心重新恢复电力和网络。

02 分析与推测

按照数据中心建设与运营的标准，每个设施内部都应该配置相应的消防系统，包括自动报警设备等，但此次火灾居然烧掉了整个SBG2数据中心，是否在机房消防维护及消防应急演练存在不足呢？
日常运维工作是否存在不规范的现象？发生火灾时，值班员工做什么？（至少从OVHcloud反馈看，没有看到行动项）
不同AZ之间如果有较好的灾备能力，是否至少保障数据不丢失，也可以帮助用户在较短时间内恢复业务?

03 灾备与业务连续性

定义

我们先看两个定义，灾难恢复(DR)与业务连续性(BCM):

灾难恢复DRP：目标是尽量减少灾难或中断带来的影响，意味着需要采取必要的步骤以确保资源、人员和业务流程能够及时恢复运行。侧重技术层面，是BCP的一个组成部分。
业务连续性BCP：基于企业战略的、处理长期的、面向中断中和后维持业务连续性的规划，核心是保证组织和业务持续运作。侧重业务层面。

对于各行各业而言，用户数据、系统数据均是企业最核心、最重要的财富，业务的稳定运行、IT系统功能正常是企业最重要的发展诉求。而这些诉求常常因为一些不可预期不可力抗“天灾人祸”变得十分困难，例如自然灾害、物理损坏、逻辑错误还是人为故障等都会导致不可用、功能异常甚至完全中断或数据丢失。我们该如何应对呢？答案就是DRP和BCP，永远要有PLAN B。

关键技术指标

进行灾备解决方案设计时，需关注灾备的两个关键技术指标：

- RTO：RecoveryTime Object，恢复时间目标。指灾难发生后，从IT系统宕机导致业务停顿之刻开始，到IT系统恢复至可以支持各部门运作，业务恢复运营之时，此两点之间的时间段称为RTO。RTO是反映业务恢复及时性的指标，体现了企业能容忍的IT系统最长恢复时间。RTO值越小，代表容灾系统的恢复能力越强，但企业投资也越高。
- RPO：Recovery Point Object，恢复点目标。指灾难发生后，容灾系统进行数据恢复，恢复得来的数据所对应的时间点称为RPO。RPO是反映数据丢失量的指标，体现了企业能容忍的最大数据丢失量的指标。RPO值越小，代表企业数据丢失越少，企业损失越小。