1事件经过
某日某厂#5燃机停运。4时30分T3000系统OM界面出现“errorsubscribing plant display connection timed out :connect”报警,公用系统画面出现“U”报警,ASD无异常报警,同时#5机组公用系统及#5机组部分界面无法操作。
4时50分#5机组公用系统所有界面以及总览目录中公用系统设备目录消失,现场检查发现公用系统上层网SCALANCE网络交换机T01、T02均存在故障报警。5时50分热工人员将T01网络交换机进行断电重启,T01重启结束后T01、T02故障报警信号消失,公用系统设备在界面中恢复正常。
图1 网络交换机状态显示
图2 #5机组公用系统上层网网络结构
2原因调查
2.1 设备检查
(1)公用网络交换机T01重启后,T01、T02无故障报警信号,F灯未亮。
(2)检查公用系统网络交换机T01发现当光纤数据端口P13处于通信状态,P14处于备用状态时,P14灯标状态闪烁异常,存在故障。
(3)检查公用系统网络交换机T01、T02之间的连接光纤通信无异常。
(4)检查T01、T02之间的连接通信光纤发现光纤存在弯折痕迹。
使用测试光纤工具测试光纤性能,从测试结果可以判断弯折后的光纤通信能力有较大幅度下降,但还是在允许范围内。
图3(正常光纤测试)
图4(弯折光纤测试)
(5)检查赫斯曼路由器MARCH 4000,无异常。
(6)停#5机组公用系统网络交换机T01电源,网络通信正常。
(7)恢复#5机组公用系统T01电源,停T02电源,网络通信正常。
(8)保持#5机组公用系统T01、T02正常工作,拔除T01、T02之间的互为冗余的通信光纤,设置公用系统服务器CoServer01为主控,#5机组公用系统及机组部分界面无法操作的情况出现。
(9)保持#5机组公用系统T01、T02正常工作,拔除T01、T02之间的互为冗余的通信光纤,设置公用系统服务器CoServer02为主控,网络通信正常。
(10)保持#5机组公用系统T01、T02正常工作,拔除T01、T02之间的互为冗余的通信光纤,拔除T01上连接赫斯曼路由器的通信网线,网络通信正常。
(11)保持#5机组公用系统T01、T02正常工作,拔除T01、T02之间的互为冗余的通信光纤,恢复T01上连接赫斯曼路由器的通信网线,拔除T02上连接赫斯曼路由器的通信网线,网络通信正常。
2.1日志检查
(1)检查#5机组公用系统网络交换机T01、T02日志,发现出现网络通信故障的时候,T01和T02之间的两路通信均中断。
(2)检查#5机组公用系统网络交换机T01、T02日志,发现出现网络通信故障的时候,用于T01和T02之间通信的光纤数据端口P13已被禁用,报警信息“Link Check:Broken link on port 13 indicated by 100% packet loss.Portdisabled”。
(3)检查#5机组公用系统网络交换机T01、T02日志,发现出现网络通信故障的时候,用于T01和T02之间通信的光纤数据端口P14已被禁用,报警信息“Link Check:Broken link on port 14 indicated by 100% packet loss.Portdisabled”。
3原因分析
由于#5机组公用系统T01存在故障,导致T01和T02之间通信的光纤数据端口P13、P14的丢包率较高,最终由于高丢包率导致P13、P14端口均被屏蔽,T01和T02之间通信中断。
T01、T02之间的连接通信光纤发现光纤有弯折痕迹,通信能力下降存在安全隐患。
根据测试结果,当赫斯曼路由器选择T02作为主控通信路径时,如果发生环网全部中断,那么只有与T02连接的CoServer02服务器处在主控模式时才能保证通信正常。如果路由器选择T01作为主控通信路径时,发生环网全部中断,那么只有与T01连接的CoServer01服务器处在主控模式时才能保证通信正常。发生#5机组公用系统通信故障期间,路由器选择T02作为主控通信路径,但当时CoServer01服务器处在主控模式,因此路由器无法读取到公用系统服务器的数据,导致画面坏点。
操作员站通过网络同时读取单元机组和公用系统的操作界面数据,当无法读取到公用系统的数据时候,会耗费较多的网络资源用于读取公用系统的数据,导致操作员站的操作界面响应变慢。
4防范措施
(1)更换#5机组公用系统T01网络交换机;
(2)更换#5机组公用系统T01、T02之间的连接通信光纤;
(3)#5机组公用系统上层网络目前是T02作为主控通信路径,已经将CoServer02作为主控服务器;
(4)为确保单元机组的系统画面不受影响,需要确保机组DCS的容错服务器主控服务器也处在主控通信路径,目前#5机组单元机组系统上层网络是T01作为主控通信路径,已经将容错服务器A侧作为主控服务器。
附:#5机组公用系统上层网络故障应急预案
一、 #5机组公用系统上层网络出现网络数据中断故障的应急处置步骤
1)通过公用系统服务器检查公用系统上层网T01、T02网络交换机的事件日志内容。
2)通过公用系统服务器检查CoServer01、CoServer02是否正常。
3)检查Coserver服务器的网线是否紧固。
4)停#5公用系统T3000上层网交换机T01电源。
5)第四步没有效果的情况下恢复#5公用系统T3000上层网交换机T01电源,停T02电源。
6)第五步没有效果的情况下将CoServer01上层网络接入T02,将CoServer02上层网络接入T01,给T02送电,然后重复第四步和第五步内容。
7) 第六步没有效果的情况下,恢复CoServer服务器上层网络接入位置,停T01电源,更换T02网络交换机。
二、#5机组单元机组上层网络出现网络数据中断故障的应急处置步骤
1)通过单元机组服务器检查单元机组上层网T01、T02网络交换机的事件日志内容。
2)通过单元机组服务器检查冗错服务器A、冗错服务器B是否正常。
3)检查冗错服务器的网线是否紧固。
4)停#5单元机组T3000上层网交换机T02电源。
5)第四步没有效果的情况下恢复#5单元机组T3000上层网交换机T02电源,停T01电源。
6)第五步没有效果的情况下将冗错服务器A侧上层网络接入T02,将冗错服务器B侧上层网络接入T01,给T01送点,然后重复第四步和第五步内容
7)第六步没有效果的情况下,恢复冗错服务器上层网络接入位置,停T02电源,更换T01网络交换机。