发新话题
打印

【原创】特殊网络故障处理方案

【原创】特殊网络故障处理方案

十一假期期间,大家都已经休假,我们管理员必须有一个人值班,也够郁闷的,第二天就出现有6栋楼网络故障,我一个人呀,这样大的网络故障我还是第一次遇见。当时第一预感就是先稳一稳,自己先理清思路,制定查看故障的方案。我就拿起我们当初的一手布线网络拓朴资料,查看网络拓朴结构,首先从最低层用户着手,采用走访性质查看网络故障现象,在去接入层查看交换网络设备配置,在去汇聚层查看配置(去汇聚层又出现了一个小小的插曲,因为设备配线间钥匙管理不善,找不到汇聚层机房钥匙,翻箱倒柜的找到了钥匙。这一点作为我们网络管理者也是不能忽视的问题之一!)。问题是发现了,原来汇聚层的网络设备华为LS-3026FM光交换机挂了。直接是电源指示灯都不亮。我手边又没有备用替换网络设备。就是有也都在库房,我也取不出来。无奈之下就向我们正在休假中的领导打电话催他们支援。
    他们来了,我们立马在库房找了个新的替换交换机,带过去,将坏交换的光模块取下,插到替换交换机上,将交换配置配好,测试还是不通。还有问题!还是交换机的问题?无奈之下,又去库房重拿了一个LS-3026FM和同型号的光模块,替换掉光模块,经过设备调试,走访用户端测试,问题算是解决了。整整用了4天时间,想想只有7天假,4天都在忙那个。
    无疑对用户是造成了一定的损失,也影响了我们部门的形象。但是我们要清楚,这个故障不仅仅是技术问题呀!作为一个合格的网络管理者,保障网络的畅通,快速的解决网络故障,是我们的职责,不仅仅需要技术的支持,同时也需要一点点必要的管理经验!比如配线间钥匙的管理,外界的因素也不容忽视哦!
随着经济的快速增长,一家一端口一台电脑的设计方案,也远远不够部分炒股者的需求,作为学校的03年的网络设计方案的不足也慢慢浮现出水面。网络故障也不可预知的频频发生!
    一些用户因为端口的不足,往往选择自己加设备。谁加了他们也不上报,这样给我们的管理带来许多不便!网络故障也层出不穷。教学区固定ip,不选择mac地址绑定,但在用户申请ip的时候至少有其mac地址的记录,发现某用户流量过高还可以打电话警告,但是部分用户不服从该制度,不登记。挺聪明得,看看隔壁办公室的ip配置,在该ip附近随便找一个用,这样就出现了,ip滥用现象,ip冲突现象时有发生;家属区dhcp,又没有很好的管理方案!许多网管软件也派不上用场。对dhcp用户来说:比如某用户中毒,向设备狂发包,影响网络设备性能,造成网络出口速率低,部分用户上网慢,网络有严重丢包现象,我们也没有什么高级的网络测试工具。只有带个笔记本,一根跳线在接入层的设备配线间内,时时ping网关,拔线,寻找狂发包用户。无疑这样的工作对我们管理员很累!
     
    也就是在11月初,一个特殊的网络问题出现了,估计大家也应该没出现过的,真的是莫不着头脑了.我们大领导出差,办公室除了我们4个网络管理员,一个技术主管,他掌管我们机房所有的服务器,路由器,核心交换机.还有一个接故障电话的女孩.近来1,2,3,4,5号家属院分别有用户反映,近来网络特慢,时通时不通.我们也没留意!都是强调他们查毒,杀毒.可是没过多久,这几栋楼都上不了网了.有用户电话反映获取IP地址是169.92.2.115,我们院里正确的DHCP获取的IP地址是100.100.X.X.根据我以前的经验总结很可能是的网络光链路故障,具体看连接//bbs.chinaitlab.com/thread-325421-1-1.html.我们就去看主机房到汇聚交换及接入层交换光路,一切正常.将主交换设备重起还是无济于事,到接入层设备机房查看,设备状态正常.笔记本接到consol口,查看交换配置一切正常,接入普通端口获取ip地址还是169.X.X.X.将交换机重新启动,马上获取ip地址,突然获取正常,但是不能浏览网页.将网卡禁用启用,又获取的是那个169.X.X.X.
    起初断定可能是上层主机房问题,回去检查核心交换,一切都是原来的配置,一切正常,没办法,去研究已前的网络拓扑和一手的网络配置信息资料.有一个不小的发现,故障所在区的1#,2#,3#,4#.5#,这5栋楼属于同一个Vlan125.当时我们几个人一起坐在会议室研究解决方案.一直到晚上9:00.最后决定将尝试的将Vlan125改划分到Vlan126上,主负责有我的一个同事处理.第二天常识的改了vlan后当时是好了,我不时有个疑问,我问领导为什么Vlan125不行呢?以前Vlan125不是也可以的呀!而且是正常了好多年的呀!我领导也说不上来什么!他就带我去了汇聚交换机房,核心交换机房查看Vlan125的信息.分析故障原因.设备配置Vlan125一切正常.正当我和领导思索,其他人狂欢的时候,电话响了.用户反映故障又出现了,我们百思不得其解.我们冷静的想想,换Vlan后可以了一会.说明问题是在用户端!可能有用户中毒或者架接了DHCP服务.最后决议将这5栋楼分割开来,转接到不同的Vlan内.
    我于是带了本子,网络设备远程控制密码,来到汇聚机房,汇聚交换也是LS-3026FM.我的处理办法是:汇聚交换LS-3026FM配置不变,将它的下边连接的设备通过LS-3026FM远程控制访问,更改下层交换设备配置信息.我起先定了所需的配置规则:1#划到vlan120;2#划到vlan121;3#划到vlan122;4#划到vlan123;5#划到vlan124.在汇聚机房找一台网络设备也同样更改,将它的更改和我远程控制楼号的更改相一致.这样我可以不用下楼到其他楼层看效果.直接拿跟跳线连接到这个设备上,查看获取到的ip地址,尝试上网,测试网络连通性.直接在汇聚机房找到有问题的楼.这个方法不错,当我调试到第3号楼的时候,测试获取的ip地址是169.X.X.X,问题就出在这个楼上,但是我还是耐着性子继续更改其它楼的配置.测试完后,其它楼都正常,我欣喜万千,一想这样找到了,主要对3号楼单独处理,就用我们以前最原始的隔离用户的方法处理.于是我
就远程将所更改的设备配置恢复(因为是测试,我就没有保存我当时更改的配置信息,重起交换机配置自动恢复,我就远程重起.这样和耗时间,每远程重起一设备都需要3~5分钟.我没有那么好的性子,要想想如果远程控制重起设备.设备的数量有18个之多!于是就想起到个单元楼道,将楼道电源断掉再打开就可以实现设备重起了.
    就那样做过之后,这5栋楼的Vlan又回到了Vlan125.(我当时的想法是,既然已经确定了3#楼有问题,我直接用用户隔离法,将用户一个一个隔离,知道找到有问题用户!)但是出人意料的事又发生了.当我恢复其他楼的配置之后,来到3#将笔记本接到交换机普通端口上,测试获得ip地址还是169.X.X.X,无奈之下将所有的接入用户拔掉.只留一个我自己笔记本那个端口,将设备重起,问题依旧!进入交换机控制端,查看配置,设备不停的警告2fun shutdown 交换机上第二个风扇坏了!个人感觉应该与这个警告没关系.即使是它的原因也不至于影响其他4栋楼的网络.我有些恼火了,既然是这栋楼的问题,就先将它断掉,随即我就断掉了3#楼的交换机电源.其他楼网络应该没问题!到了晚上,我电话回访用户,他们反映说是下午好了时间不长,问题又出现了!
    晚上我躺在床上一直在想,这个问题应该与设备本身的性能有关,该类型的网络设备有华为S2403,E026.可以说在市场上都看不到的设备,设备陈旧,设备性能下降,是一个原因;最主要的问题可以追究到存放设备的环境中,我们都知道,灰尘是网络设备的无形杀手!我们的接入层设备都是壁挂于单元楼顶阳台内的铁箱子.设备都是立放的!久而久之灰尘就弥漫了整个箱子.我们没次排除故障都不关清理里边的灰尘!再就是有用户私设DHCP服务!同事们都灰心了,说这问题没办法处理!我不管那么多,申请自己去尝试下!第二天我争的领导同意,将我以前所做的配置保存到网络设备中.一大早我就去了故障地点.还是按以前的操作更改设备所在的Vlan,改好后保存退出!我更改一个办公室就打电话报信说1#故障消失.......当听到这话我不知道有多高兴!继续更改,当到3#时网络是通了,只有一个用户反映它那不行.尾巴终于露出来了!我按办公室给我的电话找到那个用户,进去后查看他们的布局使我大吃一惊.它是三室一厅,每个房间一台台式机,还有好几台笔记本.无语真是有钱人!查看它家布局,门外网络端口引进,接入一6口路由器,通过路由接入一台式机.
    查看网络,一切正常,不能浏览网页.Ping网关也正常,起初以为是浏览器问题,不过带我笔记本后故障依旧!随后断掉他们的路由,直接接到笔记本,一切正常.问题就在这个路由器上!就是因为它造成一大片网络故障;就是因为它折磨的我吃不饱,睡不好!至今那样的问题再也没出现过!哎,问题算是解决了.但是还是有点模糊!
    估计大家对这个处理问题过程不感兴趣,但是那种将大网络划分为小网络处理的方法值得大家学习!
发新话题