Image 2 Image 3 Image 3 Image 3

从日本KDDI网络事故,聊聊核心路由器那些事

频道:行业资讯 日期: 浏览:1008

2022年7月,日本运营商KDDI因核心路由器割接过程中突发通信故障,导致全日本范围内无法正常拨打电话、收发短信,给全社会造成了极大的损失。故障发生于7月2日凌晨,新老核心路由器割接导致语音流量无法正确选路。出故障后,虽然马上进行了业务回退,但业务恢复仍然进行了超过60小时。作为日本第二大移动运营商,KDDI旗下受影响的用户数量多达3915万人,相当于日本人口的三分之一左右。

断网事件虽已逐渐平息,但经验教训却值得借鉴。中国当前约有20亿网络用户,核心路由器3000余台。按照中国工信部对电信网络运行事故的划分,移动电话通信中断影响超过50万户,且持续超过1小时就属于特别重大事故。假如这样的事故发生在中国,会影响到国计民生,后果难以想象。

从日本KDDI网络事故,聊聊核心路由器那些事

KDDI断网的起因是核心路由器割接,所以我们也来聊聊核心路由器的那些事。在数据通信领域,核心路由器技术门槛“高”,部署位置“高”。其位于网络核心位置,承载全网的流量,是整个网络的交通枢纽。高可靠、大带宽、低功耗、高安全等特点是核心能力。同时,其维护团队也要具备高度的专业化、丰富的经验以及快速应急反应能力。

高可靠:在全球领先的运营商及大中型企业客户中,核心路由器服务于骨干网、城域核心、IGW(Internet Gateway)出口等多种场景。承载千万级用户流量,是“神经中枢”和“咽喉要道”,如果中国发生类似KDDI断网事件,会有上亿用户受到影响。事实上,国内运营商从未发生过如此严重的事故,三大T对设备的性能指标有严格的要求。中国移动在集采测试中要求投标厂商必须满足5个9的可靠性;在工信部发布国内运营商互联网质量数据中,中国联通169骨干网丢包率仅0.01%,时延30.74ms位居首位;中国电信联合华为公司在核心路由器领域获得了国家科学技术进步奖。同时国内大型OTT厂商在租用运营商网络时,丢包、时延等指标也会作为评判运营商网络质量的关键标准。

大带宽:网络系统的架构稳定也同样是网络稳定的基础。随着数字化经济的到来,网络流量增长迅猛,从近年来国内运营商的网络规划及建设来看,骨干网总体流量平均每年增长25%以上,意味着骨干网流量每三年翻一番。当核心路由器的容量达到扩容上限后,增加机框会带来网络拓扑的改变,增加管理复杂度,给现网业务带来风险。国内运营商为了解决扩容问题,在大流量节点一般采用集群路由器。集群架构在提升系统可靠性的同时,还可以在不影响现网业务的情况下增加机框,平滑扩展;扩容过程如同在同一台设备里面插入板卡一样,不改变网络拓扑,不影响现网业务,网络部署及运维非常简单。

低功耗:随着网络规模的不断扩大和网络的冗余设计,提升了流量突发的应对能力和可靠性。设备7*24小时全速工作,日益暴露出能源浪费、效率低等诸多问题,运营商的能耗支出逐年提升,2021年国内运营商能耗支出高达680亿元。在国家“双碳”战略下,绿色发展对通信网络提出节能减排的要求。运营商新建通信机房,能耗比要求小于等于1.3;在集采中核心路由器的能耗比指标占技术评分的10%以上。未来,核心路由器也应该具备如智能手机、变频空调一样的多级节能技术。根据业务流量实际大小进行“潮汐式”的动态节能;将元器件进行分区管理,系统按需用电等技术将成为新的趋势。设备能力提升的同时,不断降低设备单比特能耗。

高安全:近年来网络安全事件频发,有因为误操作引起的路由泄露事件,也有因黑客等原因引起的路由劫持事件。据MANRS路由安全报告:2021年全球累计发生1605起BGP路由安全事件,给运营商和相关企业带来难以估量的经济损失。核心路由器在承载全网的流量的同时,也负责维护全网的“核心信息资产”--路由。路由出现问题时,面临着故障影响大、定位耗时长、难回溯、缺乏有效的监控手段等诸多难题。此前谷歌路由泄漏事故发生在美国芝加哥市的谷歌数据中心,但其后果却漂洋过海,导致日本互联网中断。所以对路由信息进行有效的监管,精确记录并识别路由属性变化、提前告警、主动防御、问题追踪溯源,是对核心路由器安全的一项重要挑战。2021年中国信通院联合华为等厂商共同起草路由安全三大行业标准,加速制定网间路由规范。

优维护:在全球运营商的重大网络事故中,除了设备本身的问题,也暴露出在网络操作过程中对网络变化的评估和验证不够充分,故障应急措施不够完备等情况,导致出现问题后业务恢复时间过长。对此,国内运营商在运维领域,从设备选型测试开始,到版本入网管控、操作管理规范、网络风险规避等方面做了大量的工作,积累了丰富的实践经验。中国移动已经实现100%业务故障,可以在1小时内完成恢复。在设备侧,主流的设备厂商拥有经验丰富的全球化服务机构和专家团队,帮助用户验证网络演进方案,降低割接过程风险,解决现网问题。通过一线、区域、研发等多级技术支撑体系,能够应对核心路由器的各种风险场景,为客户提供7×24小时的全方位保障。

在核心路由器产品领域,曾经是海外厂商的天下。作为昔日的追赶者和今天的领先者,以华为公司为代表的中国厂商逐步打破了海外技术垄断,实现了全面超越。华为NetEngine 5000E核心路由器从2004年面世以来已经在运营商网络的核心位置服务了18年,每年超1000次现网割接,累计超过1亿小时零重大事故,可靠性经受住了长期的考验。

展望未来,中国运营商将与各厂商一起持续引领整个IP产业的进步,朝着智能时代大踏步迈进。为我们带来全新的生产和生活方式,实现更大的商业价值和社会价值。

0 留言

评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
验证码