Azure云服务故障造成业务停顿我们能从中学到什么？

Azure遭雷击后业务停摆

本月初，Azure因遭遇雷击，造成长时间的业务停顿。随后又因为服务器宕机，而再次暂停2小时服务。是否因为Azure“流年不利”？其实业内人士都了解，这只是意外，而我们无法预测意外什么时候会发生，就跟无法预测会因为什么而发生意外一样。

对于事故勇于承担并予以解决无疑是令人欣慰的。

Azure的工程部主管说“首先，我想对受影响地区的托管客户为长时间的VSTS故障及其对全球客户带来的影响深表歉意。这起事件对我们来说前所未有。在我们七年的历史中，这次故障是VSTS客户遇到持续时间最长的。我通过Twitter、电子邮件和电话与客户沟通，客户的团队至少有一天无法正常办公。我们让客户失望了。这是一次痛苦的经历，为此我道歉。”(译文来源于“云头条”)

随后，Azure对自身的服务设置、备份方案、硬件设施、人员维护等进行了一系列的调整。虽然这些调整也许在未来并不能避免所有意外的发生，但至少能够减轻事故带来的不良影响，减少造成的损失。

我们从中能学到什么？

人类有喜欢成功、畏惧失败的天性，还因此而绞尽脑汁地设计了许多“完美模型”想避免失败。事实上，因为迷信“完美模型”而吃的大亏很多，比如：“泰坦尼克号”曾被认为是“不可沉没”的;马奇诺防线也被称作是“不可逾越”的;在发生核泄漏之前，每个核电站都声称自己的安全系统是“万无一失”的……

意外的发生，最大的好处就是让我们更加进步。因为游轮爆炸污染海面而对石油运输的安全设施重加考虑，因为核反应堆发生意外而改善核反应过程和安全设施，因为发现上万种不适合做灯丝的材料后而找到钨丝……

于是，我开始思考，从Azure的事故中我们能学到什么？

我首先想到的是：“有备无患”的态度。在容灾备份这个行业，每年都会发生若干或大或小的IT事故，比如：某公司员工误删数据了、某医院服务器宕机业务停顿了、某学校被勒索病毒攻击了、某单位丢失数据了，等等。在遭遇意外之后，结果如何就跟“有备无患”的态度大大相关了。

这里举个不久前的例子，今年7月中旬，重庆市南岸区人民医院因意外断电2次，导致医院His系统数据库发生逻辑故障，无法正常启动。

数据库逻辑错误故障截图

作为二甲医院，重庆市南岸区人民医院早就为His系统部署了容灾备份软件，来以防万一。因此，在故障发生后，在容灾备份软件厂家北京和力记易科技有限公司西部大区技术工程师的协助下，利用备特佳软件的“任意时间点回退”功能，一次性成功恢复数据，解决了数据逻辑故障问题，经校验，数据完全一致，His系统恢复正常使用。

有了“有备无患”的态度，之后，自然是想要“鱼”与“熊掌”能够兼得。

大多遭遇IT故障的客户，在面对故障会持续多久没有明确结论的时候，都面临着一道“鱼”与“熊掌”的选择题，是要马上恢复业务，还是要保证数据不丢？其中一些客户，他们不想丢失任何数据，只要能恢复数据，不管这个过程有多长。而另外一些客户，需要让庞大的团队迅速开始工作，哪怕丢失部分数据也认了。

这个选择在构建容灾备份方案的时候也会遇到。一方面是数据的100%备份与恢复，一方面是业务的连续性，“鱼”与“熊掌”如何兼得？

作为国产容灾备份软件厂商，北京和力记易科技有限公司早就已经开始思考并解决了这一问题。和力记易自主研发的备特佳容灾备份系统，以CDP持续数据保护技术为核心，实时监测数据变化并备份，数据变化传到备份机以后，一份与以前的数据实时覆盖，形成一份最新的及时可用数据，另外一份以自有格式存储。备份机上这份及时可用的数据与生产机上的业务数据完全一致，如果生产机意外宕机，备份机完全可以代替生产机继续对外服务。而以自有格式存储的数据，可以在遭遇IT故障后，用于数据的任意回退，就像前面举例说明的那样。既能保证数据安全，又能保障业务连续，“鱼”与“熊掌”也可得兼。

编者语：

遭遇故障并不可怕，从中学习，好的保留，不好的就改变，我们会一直走在进步的路上。

Source link