日本、加拿大的两起重大通信事故,暴露了通信网的哪些脆弱?
通信网络的中断就是通信人的灾难。近日,日本、加拿大先后发生的两起重大通信故障,引起了业界的震动。
两起通信事故,都造成了超大规模用户的长时间断网,还涉及了银行、政府等部门的行业应用停顿,引起了社会的广泛关注。在通信“由硬变软”的大趋势下,通信网络越来越高级、智能的今天,十天之内发生的两起重大事故,不得不发人深省。那么,两次通信事故暴露了通信网的哪些软肋与脆弱?启示什么?
两场突如其来的“网络静默”
日本时间7月2日凌晨1点35分,日本运营商KDDI的移动网络发生大规模通信故障,全日本约3915万手机用户无法正常通信,作为日本第二大移动运营商,KDDI旗下手机用户数量大约有3100万人,加上租用KDDI线路的其他运营商在内,受影响的用户数量多达3915万人,这相当于日本人口的1/3左右。
不同于此前NTT DoCoMo部分用户断网,此次KDDI通信故障几乎是其全部移动用户断网。同时,事故还造成部分银行自动取款机、铁路货运的物流信息系统也受到影响,引发物流迟滞,邮件和包裹投递可能出现延误。
对此,KDDI公司在事故发生的第二天立即召开了记者会,KDDI的高桥社长鞠躬向社会表达了歉意,并表示,这是迄今为止我们公司历史上最大的通信故障。为了防止再次发生,会在公司内采取彻底对应措施,真的很抱歉。
然而,令业界更为震惊的是,如此大范围通信故障的恢复过程更为艰难。7月3日傍晚,KDDI方面表示已经完成了全面范围的系统修复工作,但由于通信量有限,完全恢复信号还需要时间,然而直至4日上午,仍有不少人反映语音通话还是无法接通,最终在4日下午,距离故障发生62个小时后,KDDI表示已在全国范围内基本恢复。这场全国范围内的通信故障给日本全社会造成的极大的不便和损失,无疑是空前的。
时隔仅一周,加拿大最大电信运营商之一罗杰斯电讯公司(Rogers)于当地时间7月8日凌晨,也发生了重大网络故障。
据悉,罗杰斯的互联网自星期五凌晨4点以后几乎完全中断。此次网络故障造成国内数百万用户无法上网、打电话。另外,加拿大电子转账系统Interac无法使用,多伦多和弗雷德里克顿等城市的罗杰斯用户甚至无法拨打911;连接爱德华王子岛与大陆的联邦大桥无法处理借记卡付款;许多银行和金融机构的网络出现故障;渥太华公交局的一些电话服务停止;CBC在安大略省基奇纳市的电台停播。
罗杰斯公司向客户道歉并表示,故障影响了蜂窝、互联网和有线电视服务,公司正在抢修,但仍未找到故障原因,并表示其技术团队正在为尽快恢复服务全力以赴。
事实上,2021年4月,罗杰斯也发生一场全国性的服务中断,导致大量国人无法拨打电话、发送短信或访问他们的互联网浏览器。那么,在通信事故频发发生的背后,通信基础网络的“软肋”在哪?
通信网络的关键“七寸”是什么?
回看KDDI通信故障,对于发生此次通信事故的原因,KDDI官方称是在通信设备维护期间,将语音转换为数据的交换设备器发生了故障,为了减少系统的负载,限制了数据分布进而导致大面积通信故障发生。7月2日凌晨,KDDI组织工程师对连接全国移动核心网和中继网络的一个核心路由器进行割接,将老旧的核心路由器更换为新产品,而割接过程的失败成为这次通信故障的主要原因。
而围绕加拿大Rogers的故障原因,日前Rogers总裁兼首席执行官Tony Staffieri在接受媒体采访时也指出,8日凌晨的事故发生前,Rogers当时正在对核心网络进行更新升级,在此过程中引发路由器出现故障,网络中涉及大量的软件和硬件,最终,在断开某些特定设备的连接并重新定向了流量后,网络和服务恢复正常。
据悉,核心路由器又称“骨干路由器”,是位于网络中心的路由器,而作为整个网络的“交通枢纽”,运营商的核心路由器需要承担最重的信息转发任务,在性能、速度、延迟等方面要求颇高,任何一个环节的缺陷都可能带来难以估量的风险。
赛迪智库无线电管理研究所副所长彭健在接受《通信产业报》全媒体记者采访时指出,核心路由器割接失败的主要原因通常有三点,一是新的核心路由器本身存在故障问题;二是割接准备工作不充分,比如割接前没有进行模拟测试,验证割接方案的可行性;三是在割接过程中出现了操作失误。
事实上,目前运营商的网络故障多与核心路由器有关,去年10月,日本通信运营商NTT docomo发生通信故障,200万用户受影响;2020年美国互联网服务提供商CenturyLink数据中心的错误配置导致多个网站受到影响,我国也曾出现网络割接失败的情况,2022年1月中国电信在实施网络工程割接时出现异常情况,影响部分地区宽带用户互联网访问,在0时51分网络恢复正常,故障历时16分钟。
而对于设备商来说,核心路由器领域一直是IP领域的技术制高点,是厂商技术底蕴和研发实力的集中体现。在国内运营商路由器市场中,最早又思科、上海诺基亚贝尔占据主导,然而,在近十年间的快速发展,以华为、新华三、中兴为代表的国内厂商逐步成为了市场主角。
值得关注的是,网络故障的发生向来是祸不单行,在KDDI的通信故障修复中,正是因为信令风暴的出现,使得整个通信故障的修复时间长达62小时。
具体来看,在核心路由器割接失败后,导致VoLTE交换机报错,大量VoLTE链接断线,于是工程师紧急换回旧的路由器,此前断网的大量移动终端几乎同时向VoLTE节点发起注册信令,占用了大量网络资源,当信令流量超出网络的信令处理能力后,变引发了网络拥塞乃至宕机,“信令风暴”的出现再次引发了VoLTE交换节点拥塞,大量用户无法进行VoLTE通信。
据悉,信令消息处理(SMH)由消息路由、消息鉴别和消息分配三部分功能组成。信令风暴则是指网络收到的终端信令请求超过了网络各项信令资源的处理能力而导致网络服务出现问题。
而为了应对突发的信令风暴,KDDI于7月2日凌晨3:00后开始从无线侧、VoLTE核心网侧同时实施流量控制策略,通过限流的方式减轻用户数据库负荷,以缓解网络拥塞,这也造成了日本全国范围内数据通信与语音通信难以连接的关键。
业内专家指出,在“VoLTE交换机”拥塞发生后,尽管实施了接入限制、流控控制、断开部分PGW网元等措施,但“VoLTE交换机”和“用户数据库”的负荷并没有得到充分缓解,直到故障持续2天多后,KDDI才进一步发现其18台“VoLTE交换机”中有6台“VoLTE交换机”向“用户数据库”不断发送“不必要的多余信令”,断开这6台“VoLTE交换机”后,其余“VoLTE交换机”和“用户数据库”的负载大幅降低到故障发生前的水平。
随后,7月3日上午11点,KDDI宣布日本西部基本完成网络修复工作,下午5点30分,日本东部基本完成。7月4日下午4点,距离故障发生62个小时后,KDDI表示已在全国范围内基本恢复通信保障。
时至今日,网络已经成为消费者生活中必不可少的基础服务,也正因此,每一次的通信故障都会给全体电信人再次敲响警钟,那么在两大通信事故的背后,又有哪些启示?
启示:业务堆叠下的网络“乘法题”
谈及启示,彭健提出四个观点:
一是对网络进行升级和割接等维护时应该安排在网络闲时进行,并且要做好充分的准备工作,将有可能出现的断网等影响降到最低。 二是要适当增加成本,确保网络有足够的冗余和备份机制,包括核心网、传输网、接入网等。 三是要提升网络运维的智能化水平,依靠大数据和智能算法,实现主动预防性运维,提升网络运行质量,使能高效运维。 四是高度重视核心网的安全运行,核心网相对于承载网和接入网是整个通信网络中的中枢和大脑,一旦出现问题将影响整个网络,需要不断推动核心网架构的迭代升级,向架构简单、运维方便、智能开放、安全可靠和低成本为目标的智简网络演进。
“三分靠建设,七分靠运维。”是业内人士对于运营商网络建设的概括,作为“国之重器”的电信级路由器,稳定性、可靠性都的最高标准要求已经不言而喻,与此同时,强化网络的弹性和灵活性、强调网络要具备可编程能力、从连接到智联,这些在数字时代也已成为保障网络平稳运行的关键。