2014年9月5日下午15:05,西南空管局网络中心区管中心设备管理室值班人员接到云南分局技保部申告,核心业务网昆明节点无法接收宜宾INDRA雷达数据。接到申告后,网络中心值班人员查看FA16网管和设备,发现已无法接收宜宾INDRA雷达信号,立即上报区管设备管理室领导和中心值班领导,启动应急处置程序,并迅速展开故障排查工作。
宜宾INDRA雷达作为区调管制南扇的主用雷达信号,在西南地区区域管制工作中发挥着极为重要的作用,该信号除在成都区管使用外,还通过FA36核心业务网引接至贵阳和云南分局。鉴于宜宾INDRA信号的重要性,网络中心区管设备管理室将其定义为“一类保障”的极其重要信号,正常情况下通过“两地一空”三条路由将信号由宜宾雷达站引接至区管中心。“两地”指一条经区管FA16网由宜宾直达区管的电信和联通双运营商地面链路,一条经航管小区FA16网由宜宾直达航管小区后再由FA36网绕转至区管的电信和联通双运营商地面链路,“一空”指由宜宾直达区管的KU卫星链路。三条路由中,两条直达区管的信号源接入区管自动化系统,经航管小区绕转的信号作为冷备份,在主用信号故障时,可立即接入自动化系统提供服务。
争分夺秒,应急处置
故障发生后,网络中心值班人员严格执行信息通报流程,将故障情况迅速汇总至网络中心值班领导和中心领导。中心领导高度重视,及时了解了故障情况及初步处置状态,要求相关部门启用备用信号保障,控制故障影响范围,立即开展故障排查工作。
排查工作启动后,网络中心技术人员在技保中心区管监视设备室的协同配合下,初步排查出故障原因,将故障点定位于宜宾雷达站直达区管中心的信号传输路由上。此时,区管中心设备管理室技术人员根据应急处置程序,迅速与传输网络部航管小区设备室确认冷备线路信号的状态与质量,在得到信号正常的答复后,迅速将冷备线路接入自动化系统,恢复区管自动化系统双路信号源保障,同时,将该线路的正常信号引接至贵阳和云南分局,将故障发生后造成的影响控制在最小范围。
齐心协力,排查原因
初步判断出故障原因后,技术人员针对区管至宜宾FA16网络开展周密的故障排查工作。“区管FA16接收INDRA雷达无数据刷新,FA16设备未出现中继线路或半永久连接业务中断告警,电信和联通2M链路状态都正常,所有板卡指示灯状态正常,同一套设备承载的VHF话音业务也正常,航管小区接收的INDRA信号刷新正常,这次故障好像真的有点棘手。”区管中心值班人员在和航管小区设备室技术人员沟通确认故障现象时,做出了这样的描述。双方技术人员在应急处置结束后迅速展开技术会商,排查故障原因。设备无告警、链路无告警、板卡无告警,相同信号源通过不同的地面线路分别传输至航管小区和区管中心,只有区管中心无法接收,但运营商链路均无中断告警,一时间使得故障原因变得扑朔迷离,排查难度陡然增加。到底是信号源问题还是传输线路亦或是业务板卡、接入线缆故障,暂时无法确定。
故障虽然离奇,但排查工作不会终止,保障飞行安全,从来都不是一个人的战斗。网络中心传输专业技术骨干再一次启动技术会商,并迅速达成信号源、业务线缆、业务板卡、中继线路的排查顺序。
从信号源开始排查,在技保中心监视设备室和宜宾雷达站同事的帮助下,大家迅速行动了起来。更换信号源、更换通道、紧固线缆、更换线缆、更换板卡、修改配置、更换槽位,技术人员尝试了多种排查方式,故障现象依然存在,故障原因依然无法准确定位,而此时,时钟已经指向了9月6日凌晨3点,所有在场的设备保障人员都还在坚守着。
9月6日是中秋节假期的第一天,但面对如此棘手的故障,网络人不敢有丝毫懈怠,思绪还停留在监控大厅里,眼睛还紧盯着监控屏幕上,双手还缠绕在信号线缆中。鉴于故障的复杂情况,在网络中心的统一部署下,根据“业务集中式,设备属地化”的管理理念,中心决定派遣由传输业务主管单位传输网络部和设备属地化管理单位区管中心设备管理室人员组成的技术小组,赶赴宜宾排查处理故障。为了同时保障节假日值班、排查和配合支持的技术力量搭配,业务管理部门立即进行人力资源协调调配,派遣技术小组,两名前往宜宾排查故障的技术人员,正是前一天的值班人员——最为熟悉故障现象,最为了解排查流程,正在履行首问责任。
尽职尽责,排除故障
技术小组到达宜宾雷达站后立即展开工作。经过反复测试,进一步缩小了故障可能原因的范围:信号源数据正常、业务线缆连接确认无误,业务板卡工作状态确认正常,进一步测试得出了让大家都感到震惊的结果:使用同一条业务通道,宜宾发送至区管的数据无刷新,但区管发送给宜宾的数据却状态正常。同一个通道只有单向数据正常,是在FA16网络运行维护过程中从未发生也从未处理过的现象。在详细的论证和分析后,可能的故障原因指向了一条在当时当下看起来自相矛盾的论证:运营商中继链路故障,但无论是网管还是设备链路指示灯都处于正常状态,且此中继链路承载的其余信号全部处于正常状态,唯独宜宾发送给区管的雷达数据异常。
要彻底排除清楚故障原因,就需要进一步排查运营商中继链路,而当时该链路还在提供宜宾VHF业务的正常服务,技术人员将处置意见汇报至中心值班领导,相关单位迅速与管制中心和技保中心沟通协调。“管制中心同意使用昭通VHF设备,可以对宜宾VHF业务做下线处理,处理完成后请及时告知我们。”在管制中心和技保中心的理解支持与全力帮助下,技术小组解除了后顾之忧,准备对宜宾至区管的运营商中继线路状态进行检查。
技术人员手动将业务由联通链路切换至电信链路,并再次进行业务测试,令人精神一振的情况就这样出现在大家面前:区管接收宜宾INDRA信号数据刷新正常!接入雷达数据分析仪测试状态正常!区管接收宜宾VHF话音正常!区管值班人员在进行多方确认后,在值班记录本上填写下这样的内容:“16点54分,区管接收宜宾INDRA雷达信号恢复正常,故障原因为承载业务的联通2M链路状态不稳定或质量不佳,但未出现链路故障告警,已申告联通配合查明链路故障原因,已告知用户单位,已汇报中心值班领导。”
故障排查处理结束了,但安全保障和运行品质提升不会结束,网络中心要求相关技术部门结合本次故障情况做出详尽的案例分析,与运营商进一步增强沟通协作,明确类似故障的原因、频度与应对措施,制定应急处置流程,把本次故障中整理的经验梳理进入设备维护规程。
一个雷达信号从台站传输回管制单位提供使用,要经过转换、抽样、量化、编码、复用等一系列过程,就好像空管安全生产链条中,管制、情报、技保、网络、气象等部门的通力配合。电子器件的分工协作支撑着信号传输的四通八达,就好像空管单位的齐心协力保障着西南空域的飞行安全。