法律状态公告日
法律状态信息
法律状态
2022-12-06
专利权有效期届满 IPC(主分类):H04L12/24 专利号:ZL021494401 申请日:20021120 授权公告日:20060726
专利权的终止
2006-07-26
授权
授权
2004-09-15
实质审查的生效
实质审查的生效
2004-06-09
公开
公开
技术领域
本发明涉及通信网网络管理技术领域,是一种网管系统的故障相关性分析及实现方法,通过故障相关性分析与处理,提高运行维护人员对网络运行故障的定位处理和解决效率。
背景技术
目前在GSM/CDMA网管系统中,告警业务台对从主机采集到的每一条告警信息是全部、直接显示的,从采集到显示之间,除了判断采集与告警的内容是否完全一样外,服务器并不进行任何其他过滤性处理。但实际上,通信网元(指网络中的某一设备)的告警是极有特点的,包括:
1.重复性,事件告警的重复性比较明显,在故障没有排除之前,设备会按照一定的频率频繁上报告警,如图1示意的重复告警产生过程,在告警1发生后,于重复周期(Repeat Period)后又产生同样内容的告警2,甚至在若干个重复周期后还会产生同样内容的告警n。这些告警除了产生的时间不同外,其他内容是完全一致的,导致告警台罗列、充斥了大量的此类“重复”告警,如此众多的重复告警往往使运行维护人员眼花缭乱,给选择处理告警带来一定的难度,给维护工作带来困难。
2.闪断性,当网络或网元的运行状态不稳定时,系统工作状态时好时坏,某类告警就会频繁地以“故障”-“恢复”-“故障”-“恢复”的状态进行连续上报,如图2示意出闪断告警产生过程,系统连续产生“告警”-“恢复”-“告警”-“恢复”的上报状态,其中连续两个恢复发生的时间间隔形成一个闪断周期(FlashPeriod)。此种状态告警不能因为系统收到告警恢复就说明故障已经解除,只能说明系统目前工作处于“颠簸”状态,“颠簸”意味着系统处于故障状态。对于这种闪断告警如果不进行特殊处理,告警台界面会频繁刷新,同样也会令运行维护人员眼花缭乱,给定位故障带来困难。
按照现有的技术,以上两种情况的告警都会引起在告警显示界面上罗列大量重复告警的结果,同时,大量闪断告警频繁上报使得告警显示界面频繁刷新。这种情况下,用户不能直观的了解系统当前到底存在哪些(类)故障、运行状况又如何,并且要在刷新频繁的告警中选择一条进行定位处理也存在一定的难度。
发明内容
本发明的目的是设计一种网管系统的故障相关性分析及实现方法,针对通信网元告警的重复性和闪断性特点,按照本发明的故障相关性分析及实现方法对重复与闪断告警进行处理,使得用户能够方便地定位、解决故障,不受重复告警、闪断告警的干扰,提高运行维护工作的效率。
实现本发明目的的技术方案是这样的:一种网管系统的故障相关性分析及实现方法,其特征在于:
A.在两条内容相同的故障告警信息的产生时间间隔小于预设的重复周期时,将后一条故障告警信息判断为重复告警信息,对重复告警信息进行屏蔽处理,仅显示一条该内容的故障告警;
B.在两条类型相同的故障恢复告警信息的产生时间间隔小于预设的闪断周期时,将后一条故障恢复告警信息判断为闪断告警信息,对闪断告警信息进行屏蔽处理,仅显示一条该类型的故障告警。
其中,所述的步骤A进一步包括:
a1.接收网元产生的一条故障告警信息2;
a2.分析数据库系统分析表中记录是否存在与接收到的告警信息2内容完全一致的故障告警信息1,若存在,进一步将故障告警信息1和故障告警信息2产生的时间间隔与预设的重复周期进行比较;
a3.如果不存在故障告警信息1,或者存在故障告警信息1但故障告警信息1和故障告警信息2产生的时间间隔大于预设的重复周期,进一步分析当前告警界面上是否已经显示了此条故障告警信息2;
a4.如果当前告警界面上还没有显示此条故障告警信息2,则在告警界面上显示此条故障告警信息2,并将该条故障告警信息2保存在网管系统数据库中,和保存在数据库系统分析表中;
a5.如果在步骤a3中,分析出当前告警界面上已经显示有此条故障告警信息2时,将该条故障告警信息2保存在网管系统数据库中,和保存在数据库系统分析表中;
a6.如果在步骤a2中,故障告警信息1和故障告警信息2产生的时间间隔小于预设的重复周期,则将故障告警信息2判断为重复告警的信息,不送告警显示界面,但将故障告警信息2保存在数据库系统分析表中。
其中,所述的步骤B进一步包括:
b1.接收网元产生的故障恢复告警信息;
b2.分析数据库系统分析表中是否存在与此故障恢复告警对应的故障告警;
b3.分析接收到的故障恢复告警与对应的故障告警的产生时间间隔是否小于预设的闪断周期;
b4.当b3中的时间间隔小于预设的闪断周期时,进一步分析数据库系统分析表中是否存在相同性质的故障恢复告警信息;
b5.当数据库系统分析表中存在相同性质的故障恢复告警信息时,进一步分析前后两条故障恢复告警信息产生的时间间隔是否小于预设的闪断周期;
b6.当分析出前后两条故障恢复告警产生的时间间隔小于预设的闪断周期时,判断为闪断性质告警,将该故障恢复告警信息送数据库系统分析表保存;
b7.当在执行步骤b2时分析出数据库系统分析表中不存在与此故障恢复告警对应的故障告警时,或在执行步骤b3时,时间间隔大于预设的闪断周期时,或在执行步骤b4时,分析出数据库系统分析表中不存在相同性质的故障恢复告警时,或在执行步骤b5时分析出前后两条故障恢复告警产生的时间间隔大于预设的闪断周期时,将此条故障恢复告警信息送显示界面进行显示,同时还将该故障恢复告警信息送网管系统数据库保存,和将该条故障恢复告警信息送数据库系统分析表保存。
本发明的故障相关性分析及实现方法,是在网管系统中,由告警服务器对采集到的每一条告警信息先进行过滤性处理,然后再决定是否送告警业务台进行显示。
本发明的方法,根据通信网元告警重复性和闪断性的特点,利用网管系统当前具备的软件环境(网管系统数据库中有一张系统分析表,用于对告警进行分析,其他表格用于存储告警),在此基础上提供了一种可行方法。通过对重复和闪断故障进行分析处理,建立故障相关性功能,对告警信息进行过滤性处理,供运行维护人员一目了然地了解系统当前存在哪些(类)告警,不必像以往一样对频繁的告警进行选择处理,可提高解决问题的效率,同时使系统的易用性大大提高。
由于本发明的灵活、稳定的故障相关性判断方法,完全是采用数据库例行操作实现的,因此不必购买、集成第三方引擎,接口灵活;能有效屏蔽无意义的告警显示,使运行维护人员可以更加快捷地掌握系统的当前运行状况,减少故障定位与分析时间,提高运行维护效率。
附图说明
图1是重复告警产生示意图;
图2是闪断告警产生示意图;
图3是本发明的重复规则设置界面图;
图4是本发明的闪断规则设置界面图;
图5是本发明方法过滤重复告警的流程框图;
图6是本发明方法过滤闪断告警的流程框图。
具体实施方式
本发明是针对通信网元告警的重复性与闪断性特点作出的,在进行故障相关性分析及实现之前首先需要对故障相关性规则进行定义,然后才能按该规则对告警进行分析与处理。
用户可根据自己系统运行的特点,定义适合自己系统的故障相关性处理规则,包括故障的重复规则和闪断规则。
其中的重复规则:用户可以根据实际上报的告警情况设置重复告警周期,如图1中所示的重复周期,如果两条相同告警内容的产生时间间隔小于设定的重复周期,则这两条告警被认为是重复告警,则可对重复告警进行屏蔽处理。
可采用如图3所示的重复规则条件的设定界面:在相关性条件设置的重复告警设置中,用户可设置重复上报周期(秒)、激活和重复告警入库项,其中的“重复上报周期”项是指前后两条相同内容的告警上报的时间间隔;其中的“激活”是指当前设置的重复告警过滤功能是否生效;其中的重复告警入库是指重复的事件告警是否保存在网管系统数据库表中。
其中的闪断规则:用户根据实际上报的告警情况设置闪断告警的闪断周期,如图2中所示的闪断周期,闪断告警是以“故障”-“恢复”-“故障”-“恢复”的序列状态出现的,闪断周期定义的是两条恢复告警之间的产生时间间隔。如果某类型故障频繁以“故障”-“恢复”-“故障”-“恢复”的状态出现,并且两条同类型故障恢复之间的时间间隔小于预设的闪断周期,则此故障为闪断告警。
可采用如图4所示的闪断规则条件的设定界面:在相关性条件设置的闪断告警设置中,用户可设置闪断周期(秒)、激活、闪断告警入库、高频开关和闪断次数项。其中的“闪断周期”是指两条相同类型的恢复告警上报的时间间隔;其中的“激活”是指当前设置的闪断告警过滤功能是否生效;其中的闪断告警入库是指闪断的事件告警是否保存在网管系统数据库表中;其中的高频开关是指闪断次数达到设定的次数后是否显示一条故障告警;其中的闪断次数是指类型相同的一条告警“恢复—故障—恢复”的次数。
在网管系统上都安装有数据库系统,如:ORACLE,SYBASE,SQL SERVER等,具备很强的数据库运算与处理能力,本发明实施例是利用已有的数据库技术和其常规运算对告警数据进行运算与比较,分析其是否为重复或者闪断告警。
进行相关性分析的时候,将接收到的告警信息先跟数据库系统分析表中的数据进行比较与分析,判断是否为重复或者闪断告警,将分析完后的此条告警再入数据库分析表,以此与后来的告警进行比较。
本发明在制定了故障告警相关性规则后,就可在原来的接收告警与显示告警之间增加对故障相关性的过滤或屏蔽处理,包括重复告警判断与闪断告警判断过程。
参见图5,重复告警分析判断过程。
步骤51,接收网元产生的告警信息,告警信息包括网元、名称、到达系统的流水号、出现的位置和告警类型等,其中的告警类型包括事件告警、故障告警和故障恢复告警等;
步骤52,对接收到的告警信息进行相关性判断和处理,包括分析数据库系统分析表(由网管系统在表中记录告警信息,使用结构化查询语言sql语言进行分析)中记录的告警信息是否与接收到的告警信息内容完全一致,所谓内容完全一致是指网元、名称、到达系统的流水号、出现的位置和告警类型等信息完全一致,如果存在,则再分析两个连续接收到的与数据库系统分析表中记录的告警信息内容完全一致的告警信息所产生的时间间隔是否小于预设的重复周期;
步骤53,如果在步骤52中,分析出数据库系统分析表中不存在与接收到的告警信息内容完全一致的故障告警信息;或者存在,但两个前后接收到的与数据库系统表中记录的告警信息内容完全一致的告警信息所产生的时间间隔大于预设的重复周期,则需进一步判断是否是重复告警,即分析设备的当前告警界面上是否已经显示有此条告警信息;
步骤54,如果当前告警界面上还没有显示此条告警信息,则在告警界面上显示此条告警信息;
步骤55,如果步骤53中,分析出当前告警界面上已经显示有此条告警信息时,判断为重复的告警,则不需要再进行显示,因为当前界面上已经有了此类告警的显示,用户完全可以获知此类告警的信息,将这条告警信息保存在网管系统数据库中,或在执行完步骤54后,也将这条告警信息保存在网管系统数据库中;
步骤57,如果在步骤52中,虽然数据库系统分析表中的记录存在与接收的告警信息内容完全一致的故障告警信息,但分析出两个前后接收到的与数据库系统表中记录的告警信息内容完全一致的告警信息所产生的时间间隔小于预设的重复周期时,则不将此条告警信息送告警显示界面进行显示,对于已经判断为重复的告警,还可以根据图3所示的设定入库保存条件决定是否对重复告警入网管系统数据库保存,以便节约网管系统数据库空间;
步骤56,执行完步骤55、57后,将每一条告警信息入数据库系统分析表中,留作后续与接收的告警信息相比较。
参见图6,闪断告警分析、判断方法流程。
步骤60,接收网元产生的恢复告警信息,即一故障—恢复—故障状态序列;
步骤61,使用sql语言分析数据库系统分析表中是否存在与此恢复告警对应的故障告警;
步骤62,使用sql语言进行相关性判断和处理,包括分析接收到的恢复与故障的产生时间间隔是否小于预设的闪断周期;
步骤63,当分析出接收到的恢复与故障的产生时间间隔小于预设的闪断周期时,进一步分析是否有重复告警,即分析数据库系统分析表中是否存在相同性质的恢复告警;
步骤64,当数据库系统分析表中存在相同性质的恢复告警时,进一步分析前后两条恢复告警产生的时间间隔是否小于预设的闪断周期;
步骤65,当分析出前后两条恢复告警产生的时间间隔小于预设的闪断周期时,说明故障和恢复告警属于闪断性质告警,根据图4中的设定条件决定是否入网管系统数据库保存;
步骤67,当在执行步骤61时分析出数据库系统分析表中不存在与此恢复告警对应的故障告警时,或在执行步骤62时分析出接收到的恢复与故障的产生时间间隔大于预设的闪断周期时,或在执行步骤63时分析出数据库系统分析表中不存在相同性质的恢复告警时,或在执行步骤64时分析出前后两条恢复告警产生的时间间隔大于预设的闪断周期时,将恢复告警送显示界面进行显示;
步骤68,在步骤67进行显示的同时还将该恢复告警送网管系统数据库保存;
步骤66,执行完步骤65、68后,将每一条恢复告警信息入数据库系统分析表保存,留作后续与接收的恢复告警序列相比较。
上述步骤表明,对于判断为重复或闪断的告警,屏蔽一系列的重复告警或“故障”-“恢复”告警序列,显示一条故障告警提醒用户:当前系统存在故障或“颠簸”现象,需要用户对此故障告警进行干预,切实解决导致系统故障或工作“颠簸”的原因。对于已经判断为重复或闪断的告警,还可以根据设定的入库保存条件决定是否对重复或闪断告警入网管系统数据库保存,以节约数据库空间。
本发明对故障相关性的分析、处理是利用数据库操作实现的,可以根据系统不同灵活的设置字段进行判断处理。
本发明的故障相关性分析、处理方法,可应用于移动网全套网络网管解决方案中。
机译: 网管系统中故障信息的处理方法及系统
机译: 中继服务器故障环境下网管系统中的数据中继方法
机译: 多层布线结构的故障分析及装置故障分析方法