据了解,阿里云香港区于2022年12月18日出现故障,多个香港和澳门的网站受到影响,包括Linux中国的官网、澳门政府、澳门金融管理局、莲花卫视等平台的网站。事后阿里云官网立即发布关于宕机事故发布的公告
后经排查,阿里云香港地域故障确认系香港PCCW机房制冷设备故障所致。
2022年12月19日下午,根据最新的更新进展显示,目前阿里云所租用的香港电讯盈科公司机房已修复制冷设备故障,阿里云香港地域所有可用区云产品功能正在陆续恢复正常。
此次故障,影响香港地域可用区C的云服务器ECS、云数据库、存储产品(对象存储、表格存储等)、云网络产品(全球加速、NAT网关、VPN网关等)等云产品使用。这一故障也影响了香港地域控制台访问和API调用操作。
对于受本次故障影响的产品,阿里云将根据相关产品的SLA协议进行赔付。
可见,这次已超过24小时的服务器宕机,为各网站及平台造成巨大损失,让阿里云惨遭滑铁卢。
回顾一些比较严重的公有云故障,比如:
2015年6月,阿里云香港的机房服务暂停了12个小时;
2016年4月,微软Azure在中国北部的某个机房出现了故障,停机近4个小时;
2016年6月,AWS停机长达36个小时;
可见,公有云服务每年都会或多或少出现一些故障,人为原因、机器故障、软件bug……等等
虽然原因不同,但是导致的结果只有一个——相关云平台上的客户遭殃。或丢失数据,或停止服务,或影响创新。
业内人士戏言:“世上没有不宕机的云。”
对于云产品的使用,Vecloud提出如下两点建议:
合理灾备方案:比如同一个云厂商在不同可用区中互为备份,或者不同云厂商之间互为备份,也可以考虑混合云架构。
定期进行灾备演练:保证即使某个可用区出现故障,也不会导致核心业务中断。
部署完备的灾备,并且在每隔一段时间就进行一次流程化的演练,就像军事演习一样。这样才可以未雨绸缪,在遭遇问题的时候,得到业务与数据的快速恢复。