网络应急方案
网络应急方案
(一)应急方案启动条件
当核心交换机(三层交换机)无法正常完成路由功能、无法正常启动。或者核心路由器无法正常工作时,为了保证核心网络的正常运行,启动该应急方案。
(二)应急方案执行原则
核心交换机没有热备份,核心路由器有利旧设备作为热备份。若出现核心交换机不能正常工作或者核心路由器的主备均不能正常工作的情况,则立刻报告中心申请技术支持尽快恢复。
(三)Nmc 核心网络现状
1、核心网络现状
3、网络结构图
4、应急方案
核心交换机机箱故障的处理
辽宁移动通信公司有1台CISCO 6509交换机作为核心。
常见故障现象
1) 交换机莫名重启
2) 交换机个别槽位无法识别板卡
常见故障原因
1) 交换机没有良好的接地,热插拔板卡时没有带放静电手带,热插拔板卡
时损坏交换机总线插槽
2) 过大的电流冲击损坏交换机电源和总线
3) 交换机长时间处在环境温度过高的环境中,总线器件老化。
故障处理流程
当交换机出现莫名重启现象的时候首先检查一下引擎工作是否正常,有无异常LOG 记录,如果引擎工作正常说明交换机总线可能存在老化情况需要更换。
交换机运行中出现个别板卡出现无法识别的情况下,首先更换板卡槽位,若板卡可以正常识别,找另外一块板卡安装在故障槽位,若能够正常识别,说明先前板卡和总线接触不好,重新插一次,如果任何板卡插入改故障槽位都无法识别说明总线存在问题应立即更换机箱。
有时交换机IOS 或CAT OS存有BUG ,当处理某类数据包或遭到某种攻击后会出现重启现象,此类故障通过升级交换机软件可以解决。在无任何连接的情况下升级多个版本的软件后仍出现此类故障,但使用其它引擎后交换机仍出现重启现象,说明机箱故障需要申请RMA 。
省公司的核心交换机板为冷备份状态,交换机出现问题后将影响整个网络的联通性,需要尽快将备件替换掉原故障板卡。短时间内尽快进行RMA 处理。
常用检测命令:
Show module:检测板卡运行状态
Show environment all:检查交换机电源及温度状态
核心交换机主引擎故障处理
省公司核心交换机采用双引擎,正常状态下两个引擎呈主备状态,平常只有一块引擎处于工作状态另外一台处于standby 状态。
常见故障现象
1) 交换机出现莫名重启现象
2) 引擎工作状态不正常,二层、三层的主备在同一个引擎上
3) 引擎硬件自检失败,交换机无法启动
常见故障原因
1) 引擎没有完全插入总线插槽内或引擎与总线接口接触不好
2) 使用的IOS 、CAT OS有BUG
3) 系统电源不稳定,加速引擎电子器件老化,无法正常工作
故障处理流程
出现引擎无法识别的情况时,重新拔插一下引擎,如果故障依旧,更换一下引擎位置,该引擎仍无法识别说明该引擎故障,需要申请RMA 。
有时交换机IOS 或CAT OS存有BUG ,当处理某类数据包或遭到某种攻击后会出现重启现象,此类故障通过升级交换机软件可以解决。
为了保证交换机可以长久、稳定的运行一定要为交换机提供一个良好的供电系统。
省公司的核心交换机引擎为热备份状态,交换机的一块引擎出现问题后都不会影响到整个业务的进行,短时间内可以进行RMA 处理。
常用检测命令:
Show module:检测板卡运行状态
show diagnostics power-on:交换机引擎2层、三层自检
核心交换机板卡故障处理
常见故障现象
1) 交换机板卡无法正常识别
2) 板卡端口工作异常,时常UP DOWN或根本无反映
3) 板卡经常出现重启
常见故障原因
1) 交换机槽位故障
2) 板卡与总线插槽接触不良
3) 板卡老化,个别固定端口出现问题
4) GBIC 模块老化,信号损耗过高
故障处理流程
运行中的板卡出现无法识别的情况,首先拔插一下板卡,插紧板卡并上紧板卡螺丝,如果拔卡工作正常说明板卡与总线接触不好,若识别后运行时间不常再次出现上述故障说明板卡故障,需要申请RMA 。
如果板卡上的个别端口时常出现UP DOWN 的情况,检查连接终端的网卡或网
线是否存在问题,更换网线使用其它终端接入后若仍出现问题说明板卡问题,需要申请RMA 。
常用检测命令:
Show module:检测板卡运行状态
Show port/interface:检测端口运行状态
核心交换机互连GBIC 模块故障处理
GBIC 是一种使用最广泛的高速连接模块,GBIC 模块受温度,使用时间等诸多因素的影响,最长寿命可达5-6年最少2年左右,因此该模块出现问题属于正常现象。
常见故障现象
1) 模块无法识别
2) 长时间运行后丢包
3) 能看到模块中的光柱,但无法联通
常见故障原因
1) 模块老化、跳线连接头存有污垢或划痕
2) 板卡GBIC 端口故障
故障处理流程
GBIC 成本相对较低,且用量很大,建议常备几块防备万一。
如果系统运行中出现模块无法识别的情况,更换GBIC 模块,若故障依更换模块位置,更换模块位置后仍存在上述问题说明光纤问题。
更换模块位置时注意保存原端口配置。
核心交换机互连城域网线路故障应急处理
省公司城域网全部采用双连接结构,正常情况下不存在中断故障,但是不排除因为设备故障、运营商线路检修或断电而引发的网络中断。
常见故障现象
城域网线路中断影响面较大,这里的核心交换机连接了多个办公机构,一旦设备出现问题将造成多处机构无法正常通讯。
通常出现城域网故障时是由于运行商线路故障和交换机房断电。
故障处理流程
城域网连接不能等到故障后才去处理,应当有一套备用系统,可以使用ISDN 、低档路由器作为备份系统保持生产业务的正常进行。
交换机二层环路故障应急处理
二层环路是一种比较严重的故障,它会产生严重的广播风暴阻塞整个网段。常见故障现象
1) 网段内所有PC 无法访问网络资源,无法ping 通网关和网段内其它PC
2) 交换机死机
3) 核心交换机CPU 利用率升高
常见故障原因
楼层一个HUB 连接了该层交换机的2个相同VLAN 的端口
故障处理流程
最直接的方式是由发现问题的最终用户通知,可以根据他们提供的资料轻松查找到环路的位置。
如果没有任何人通知,发现核心交换机CPU 利用率反常的时候,使用Ipscan 软件检测楼层各交换机是否能够ping 通,如果发现有交换机无法PING 通立即赶到出事楼层配线间,通过CONSOLE 登陆交换机(此时无反映)以此拔下交换机以太网线直至交换机有反映为止,还原网络连接(故障线路除外)根据故障网线对应的信息点查找出现环路的最终设备。
如果系统中能设置一个能够快速收敛设备log 的工具就可以轻松解决此类问题,当发现环路后只需要简单在log 服务器上查找该设备最后一个UP 的端口即可。
楼层交换机引擎故障处理
省公司楼层交换机使用CISCO 2900系列交换机,上联CISCO 4500该类交换机除45O7R 外只支持单引擎,一旦引擎出现问题交换机将无法启动。
1) 交换机出现莫名重启现象
2) 引擎工作状态不正常,二层、三层的主备在同一个引擎上
3) 引擎硬件自检失败,交换机无法启动
常见故障原因
1) 引擎没有完全插入总线插槽内或引擎与总线接口接触不好
2) 使用的IOS 、CAT OS有BUG
3) 系统电源不稳定,加速引擎电子器件老化,无法正常工作
故障处理流程
出现引擎无法识别的情况时,重新拔插一下引擎,如果故障依旧,更换一下引擎位置,该引擎仍无法识别说明该引擎故障,需要申请RMA 。
有时交换机IOS 或CAT OS存有BUG ,当处理某类数据包或遭到某种攻击后会出现重启现象,此类故障通过升级交换机软件可以解决。
为了保证交换机可以长久、稳定的运行一定要为交换机提供一个良好的供电系统。
常用检测命令:
Show module:检测板卡运行状态
show diagnostics power-on:交换机引擎2层、三层自检
楼层交换机故障处理
常见故障现象
4) 交换机板卡无法正常识别
5) 板卡端口工作异常,时常UP DOWN或根本无反映
6) 板卡经常出现重启
常见故障原因
5) 交换机槽位故障
6) 板卡与总线插槽接触不良
7) 板卡老化,个别固定端口出现问题
8) GBIC 模块老化,信号损耗过高
运行中的板卡出现无法识别的情况,首先拔插一下板卡,插紧板卡并上紧板卡螺丝,如果拔卡工作正常说明板卡与总线接触不好,若识别后运行时间不常再次出现上述故障说明板卡故障,需要申请RMA 。
如果板卡上的个别端口时常出现UP DOWN 的情况,检查连接终端的网卡或网线是否存在问题,更换网线使用其它终端接入后若仍出现问题说明板卡问题,需要申请RMA 。
常用检测命令:
Show module:检测板卡运行状态
Show port/interface:检测端口运行状态
楼层交换机配置丢失或处于RMON 状态无法启动处理
当楼层交换机因断电出现重启,有时候会进入RMON 状态,此状态并不是很严重的故障,出现此类问题的原因时启动时系统没有调用IOS 软件。解决此类故障的方法只需要在在RMON 提示符下键入reset 或boot 让系统重新引导。
如果系统引导过程中会首先检测系统二层、三层硬件系统,如果出现错误提示说明引擎故障需要更换。
为了减少此类事故的重演应定期备份交换机配置,并定期做设备老化测试,定期在下班后断电重启楼层交换机。
楼层交换机线路故障处理
省公司楼层交换机采用双线路连接至核心交换机,正常情况下不存在线路完全断掉的问题,但不能排除交换机GBIC 老化问题,应定期进行线路迂回测试,及时排除GBIC 和光纤的问题,保证网络系统在一个稳定的传输环境中运行。
DHCP 服务器故障处理
DHCP 服务器是省公司关键服务器之一,它负担了所有办公用终端IP 地址的自动分配。(sun solaris)
常见故障现象
1) 少数地址状态为other available
2) 多数地址状态为pending available
3) 系统进入OK 状态无法正常引导
故障处理流程
当出现上述故障的前两项时,首先检查一下DHCP 服务器的联通性,如果联通性没有问题,尝试在地址属性上执行force available ,如果仍无发解决,在DHCP 服务的根目录下执行reload ,若仍无法解决该问题reboot 系统。
当系统引导时进入OK 状态时,需要在OK 提示符下键入“go ”即可重新引导系统。
RMA 流程
1) 联系公司维护小组工程师或现场工程师
2) 说明故障现象和处理的措施,将交换机主机序号告知工程师
3) 工程师填写故障报告并发送给公司RMA 负责人
4) 公司RMA 负责人在CISCO 开CASE 续保设备的RMA 需要CISCO TAC工程
师确定故障
5) CSICO TAC确诊交换机机箱属于硬件故障后会返回一个RMA 编号同时从
CISCO 备件库提出相应设备
(四)应急资源配备
Cisco6509暂时无替代资源,但可从提供服务的厂家获得相应得备件
(五)相关人员联系表