Rogers Communications近日提交了一份长达39页的文件,以回复加拿大电信监管机构针对其互联网和无线网络近期发生规模空前的故障提出的问题,原因归咎于配置更改删除了路由过滤器,这导致其分布路由器不堪重负。
然而,出于安全或竞争方面的原因,加拿大广播电视和电信委员会(CRTC)周五晚间公开发布的版本其大部分内容被该委员会有意删掉了,留有很多空白,包括对根本原因的进一步解释。
一同被删除的还有Rogers为防止类似中断而采取的步骤。文件称:“我们已制定了非常具体的短期、中期和长期措施,将在未来几天和几周内实施这些措施。”但是公开版并没有列出这部分内容。
文件补充道:“最重要的是,Rogers正在审查其‘变更、规划和实施’流程,以确定具体的改进,从而消除服务进一步中断的风险。这包括以下步骤:”步骤这部分在CRTC发布的版本中已被删除。
自7月8日中断以来,许多专家特别指出,早在2021年4月,Rogers网络的无线网络就曾中断了近22个小时,这表明这家运营商的基础设施可能存在严重问题。
Rogers在提交的文件中表示,导致早期那次中断的原因是第三方的产品更新,与7月8日的事件不一样。提交的文件附有Rogers自2021年崩溃以来为提高网络弹性所做的一系列工作。这部分内容已被删除。
因而,公众并不知道计划更新Rogers的核心IP网络所涉及的相关代码到底为什么引起混乱——是简单的代码语法错误?是没有遵循既定的devops标准?是没有遵循在线下平台上测试代码的实践?还是……?
Rogers在文件中的确表示,其核心IP网络是在“非常谨慎”的情况下更新的。
更新经历了一个全面的规划过程,包括范围确定、预算批准、项目审批、项目启动、设计文件、程序方法、风险评估和测试,最后以工程阶段和实施阶段收尾。
Rogers强调:“有问题的更新是几周前开始的分七个阶段的过程中的第六阶段。前五个阶段进行得很顺利。我们验证了这一变更的方方面面。”
如果是这样,目前尚不清楚为何这家运营商上周换掉了首席技术官(CTO)。
周一上午11点加拿大下议院工业和技术委员会就这次故障举行听证会,到时诸如此类的问题可能会得到答复。听证会将通过电视转播。包括CRTC在内的联邦官员和Rogers将出席作证。
文件确实提到了Rogers对于7月8日的事件所作的回应。一些设备的崩溃和中断非常严重,结果工程师无法访问这家运营商的虚拟专用网(VPN)系统,从而阻碍了其开始识别故障的能力,并减慢了网络恢复速度。
然而,由于一项七年前制定的应急准备计划,工程师们得以通过手机继续工作。在加拿大电信弹性工作组(致力于奉行最佳实践的联邦电信委员会)的领导下,Bell、Rogers和Telus在2015年同意允许某些员工在紧急情况下更换其设备上的SIM卡。一位未透露姓名的Rogers员工利用该协议使用竞争对手的网络,这有助于Rogers的恢复工作。
Rogers描述了7月8日所发生的经过:
维护更新的第六阶段的实施于凌晨2点27分开始。凌晨4点43分,其三个分布路由器中引入了特定的代码更改,两分钟后导致Rogers的IP核心网络出现了故障。
“配置更改删除了路由过滤器,并允许所有通向互联网的路由经由路由器传输。结果,路由器立即开始在整个核心网络中传播流量异常大的路由。某些网络路由设备淹没于庞大流量中,不堪重负,随后无法路由传输流量,导致公共核心网络停止处理流量。结果,Rogers 网络与互联网断开连接,我们消费者和企业客户的无线网络和有线网络的所有出入站流量因此中断。”
“与许多大型电信服务提供商(TSP)一样,Rogers也使用一个公共核心网络,本质上这是一套IP网络基础设施,支持所有无线、有线和企业服务。这个公共核心好比是网络的大脑,负责为我们的客户接收、处理、传输和连接所有互联网、语音、数据和电视流量。”
“与全球各地的其他TSP相似,Rogers同样使用混合供应商核心网络,该网络由来自多家一线制造商的IP路由设备组成。这是一种常见的行业做法,因为不同的制造商在用于互联网网关、核心和分布路由的路由设备方面各自有不同的优势。具体来说,Rogers使用的两家IP路由供应商都有各自的设计和方法来管理路由流量,并保护各自的设备避免不堪重负。在Rogers网络中,一家IP路由制造商使用的设计限制了分布路由器向核心路由器提供的路由数量。另一家IP路由供应商依赖其核心路由器的控制措施。设备设计和协议方面的这些差异带来的影响正是Rogers遭遇故障的核心因素。”
结果是,Rogers网络不但在内部断开连接,在外部还断开了所有出站入流量所需的互联网,消费者和企业客户的无线网络和有线网络面临同样的窘境。
提交的文件列出了Rogers的消费者、企业客户、联邦客户、省客户、地区客户和市政客户的数量(其中一些可能有多余的通信服务)。这些数字在公开文件中已被删除。
由于无线设备已成为绝大多数加拿大人的主要通信方式,Rogers表示,其无线网络是恢复工作的重中之重。随后它致力于恢复固话服务,最后是恢复数据服务,尤其是针对重症护理服务和基础设施。
Rogers的首席监管和政府事务官Ted Woodhead在文件所附的致CRTC的一封信中写道:“Rogers遭遇的网络中断让人根本无法接受。我们未能兑现成为加拿大最可靠网络的承诺。”
0 留言