一次城建工人的失误,造成了微信史上最大规模的一次宕机,也让这个拥有4亿用户的超级即时通讯工具面对了自上线以来的最大危机。
从通讯中断后的修护时间之长,到光缆被挖断后的应急方案之弱,都让外界注意到,微信乃至中国互联网产业体系中曾被忽视的安全软肋。
宕机之后,微信团队恢复通讯的时间是6个小时,这在互联网乃至通信行业里都极为罕见,尤其是曾被认为需要向互联网学习的通信运营商,重新成为腾讯需要学习的对象。
“网络再烂的运营商,也基本不会出现全网中断;即使有局部地区短信中断或话路中断,基本也很少超过一个小时。甚至在雅安地震这样的灾难事件中,运营商也做到了在一小时内恢复75%的通信。”一位运营商人士告诉记者。
危机6小时
7月22日上海浦东新区康桥镇秀浦路,一大早,上海城建隧道股份有限公司浦东分公司的工地上就已忙碌起来。在这个被戏称为“上海史上最热”的炎夏,天气最凉爽的清晨是室外市政施工最宝贵的时间。但8点刚过,他们不得不把手里的活儿全部停了下来,因为他们挖断了光缆。
这是一次意外的事故,各路管网交来的图纸显示,地深5米处,应该没有通讯设施。但实际的情况是,地下被挖断的光缆甚至超过了10根,其中2根就是运营商为微信提供的光缆,同时还有其他世界500强企业也因此通讯中断。
最先发现异常的是运营商,它们的网络监测系统第一时间发现区域内管线出现问题,并立刻联系在当地施工的城建公司和电力公司展开排查。
此时,从上海到北京、浙江、广东,到更多地区,越来越多的微信用户发现,自己无法登录微信。他们开始在各个社交网站发问,“微信怎么了”,“我和我的小伙伴失去了联系”……短短数小时内,几个微博平台,与微信故障有关的微博就已达到上亿条,甚至出现了“微信遭受了上海等黑客团队的攻击”等流言。
腾讯对记者表示,负责微信机房的工作人员也发现了数据异常,且与运营商发现问题的时间基本一致。但直到9点26分,也就是光缆中断1个半小时之后,微信团队才对外发布第一条微博,称“由于服务器基础网络故障,您的微信暂时可能出现收发问题。我们正在玩命恢复中,请各位小主耐心等待”。
又一个1个半小时后,腾讯微信团队11点在官方微博上公布了宕机原因:
“机房两路光缆出现硬件故障,导致部分用户无法正常登陆和收发信息”。据记者了解,在光缆被挖断之后,微信团队做出的补救方案,是进行数据迁移。30%的用户数据被迁移到其他的机房,但由于华东、华南地区的机房冗余不足,不堪重负,扑天盖地而来的数据请求,让各地机房的数据处理能力也迅速达到饱和,最终导致了微信业务的几乎全线崩溃。此时,唯一的解决办法,只剩下了全力抢修更换光缆,并通过技术手段逐步恢复用户使用。当天下午14点23分,微信团队终于发布微博表示,全面恢复通讯。
微信为何中断
实际上,这并不是微信第一次发生宕机事故。4月10日,微信曾因机房故障发生10分钟的中断。
但与上一次的短暂中断不同,此次长达6小时的严重事故,具有更大的影响与意义,仅其引发的7月23日股价波动,就让腾讯蒸发了近百亿市值。
作为中国最大的互联网公司之一,腾讯究竟为微信配置了怎样的基础架构,是如何保证机房数据安全、顺畅的?为何因为2根光缆的中断,就出现如此致命的网络问题?
记者了解到,腾讯在上海设有多处机房,分别与不同运营商合作,出于成本考虑,这些机房既有合建,亦有自建。微信机房采用分布式架构,通过云平台实现多机房互联。此次被挖断的光缆正是连接微信在华东区核心服务器所在机房,另一头连接着具有索引功能的机房。
实际上,微信在全国的机房架构均是遵循交互式的布局方式,因为不能将所有的鸡蛋都放置到同一个篮子里。面对4亿用户群体,微信不可能、也不会将所有的用户集中在一家服务器上。也就是说北京的用户数据不全存储在北京的机房里上,有可能存储在上海、广东等地的机房。而上海的光缆断了,会影响到存储到本地的北京、上海、广东、浙江等地的用户。
一般来说,大型公司为保证机房数据安全会设置光纤通信双保护,一旦其中一条光缆出