2011最严重的十次“云宕机”

 

2011年,IT经理们得到的最宝贵的经验就是:云计算并非万无一失,跟其他IT系统一样,只需要一次准确的闪电,云也会宕机。

 

第十名.Google Doc罢工

今年9月份,Google Doc和其他一些Google云服务宕机将近一小时,导致多数Google App用户无法使用。Google快速启动备用云服务并声称宕机是由于在文档列表中采用了一种用于提升实时协作的新设计,但该设计触发了一个内存bug。Google Doc十月还还经历过一次宕机。

 

第九名:VMware Cloud Foundry 崩溃

今年四月,VMware的Cloud Foundry开发平台一周内经历多起停机事故。当时还处于Beta版本的开源Cloud Foundry服务因存储设备电力故障被停机,第二天当一位工程师试图找到防止电力故障宕机的方法时,因为键盘输入异常再次导致所有负载均衡、路由和防火墙设备停机,内部DNS基础设施部分停机,并最终导致Cloud Foundry失去所有外部连接(无法访问)。

 

第八名:雅虎邮件

今年4月28日,雅虎公司的大规模云邮件服务——雅虎邮件宕机数小时之久。雅虎没能给出准确数字说明到底有多少雅虎邮件用户受到影响,但雅虎估计大致有超过2.5亿雅虎用户受到影响。雅虎至今未透露宕机原因,只是声称用户数据并未丢失,也不存在安全性问题。

 

第七名:Gmail人间蒸发

Gmail在今年2月经历了一次大规模宕机故障,导致数以千计的Gmail收件箱一片空白。Gmail用户一觉起来发现收件箱、文件夹里的数据“人间蒸发”。最高峰时,受宕机影响的用户数高达15万人。故障第二天Google发表致歉声明,表示事故非常“罕见”,是由于存储系统升级引入的一个软件bug导致。

 

第六名:微软在线服务

今年八月都柏林的一次闪电导致微软商业生产力在线套件(BPOS)宕机四小时。微软声称,停机是因为都柏林大面积停电,微软对受宕机影响的客户进行了补偿。

 

第五名:亚马逊也被雷击

虽然今年黑客组织“匿名者”没有能够撼动亚马逊的云服务,但是都柏林的闪电做到了。亚马逊承认强雷电导致其EC2云和关系型数据库服务(RDS)被中断数天。调查者发现电力故障导致这次宕机,电力故障很有可能因闪电击中一个变压器导致着火并发生爆炸。亚马逊称备用发电机没有顺利切换,导致需要人工花费数小时搞定发电机。

 

第四名:亚马逊的客户们

在八月雷击事故中,亚马逊的很多客户也受到殃及,其中不乏Netflix、Quora、Reddit和Foursquare这样的响当当的企业,经受了大致30分钟的服务停顿。亚马逊称主要原因是其三大可用性区域(Availability Zone)与互联网之间的连接发生问题。

 

第三名:微软Office365首次下线

在正式发布后仅仅几个月,微软的云生产力套件Office365就经受了第一次全面宕机。微软将8月份包括Office365、Dynamics CRM 和Windows Live SkyDrive的宕机归咎于“网络连接性问题”。这些服务集体掉线6小时,同时微软北美的一个数据中心托管的服务也受到影响。

 

第二名:微软BPOS四振出局

今年5月,微软的商业生产力在线套件(BPOS)在一个月内连续经受了四次宕机事故,导致其云邮件服务长时间不可用。麻烦从5月10日中午12点半开始,BOPS-S的Exchange服务的一个总线组件由于流量异常发生状况。微软称Exchange内置了处理异常流量的功能,但由于遭遇不明问题而无法正常工作。

 

第一名:亚马逊四月大停机

4月21日开始的亚马逊云服务大停机高居2011年度云宕机事件榜首,引起对云服务脆弱性的广泛关注。在4月的大停机中,亚马逊的一些大客户遭遇了长达数日的服务停顿。更糟糕的是,当亚马逊的大客户们在停机期间奋力自救的时候,亚马逊始终保持沉默,直到灾难过去一周后,亚马逊才发布了一份冗长的技术性分析报告,亚马逊把云灾难归咎于“镜像风暴”(mirroring storm),并向客户致歉和补偿。这次事故给那些忽视云宕机应急处理的企业好好地上了一堂课。

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

        在TMT领域具有十余年的咨询和创业经验。 目前主要关注信息安全,同时密切关注云计算、社会化媒体、移动、企业2.0等领域的技术创新和商业价值。拥有美国麻省理工学院MBA学位和清华大学经济管理学院学士学位,曾任BDA中国公司高级顾问,服务过美国高通、英特尔、中国网通、SK电讯、及沃达丰等公司。联系邮件:wangmeng@ctocio.com