法律状态公告日
法律状态信息
法律状态
2020-04-07
授权
授权
2020-02-25
实质审查的生效 IPC(主分类):G06F11/07 申请日:20191218
实质审查的生效
2020-01-24
公开
公开
技术领域
本发明涉及故障分析技术领域,尤其涉及一种基于模型命中概率分布的故障定位系统及方法。
背景技术
随着信息时代的持续发展,IT运维已经成为IT服务内涵中重要的组成部分。IT运维管理已是时下IT界最热门的话题之一。随着 IT 建设的不断深入和完善,计算机硬软件系统的运行维护已经成为了各行各业各单位领导和信息服务部门普遍关注和不堪重负的问题。由于这是一个随着计算机信息技术的深入应用而产生的新课题,因此如何进行有效的IT运维管理,这方面的知识积累和应用技术还刚刚起步。对这一领域的研究和探索,将具有广阔的发展前景和巨大的现实意义。所谓IT运维管理,是指单位IT部门采用相关的方法、手段、技术、制度、流程和文档等,对IT软硬运行环境(软件环境、网络环境等)、IT业务系统和IT运维人员进行的综合管理。
面对现有的越来越复杂的业务,面对越来越多样化的用户需求,不断扩展的IT应用需要越来越合理的模式来保障IT服务能灵活便捷、安全稳定地持续保障,这种模式中的保障因素就是IT运维。从初期的几台服务器发展到庞大的数据中心,单靠人工已经无法满足在技术、业务、管理等方面的要求,那么标准化、自动化、架构优化、过程优化等降低IT服务成本的因素越来越被人们所重视。其中,自动化最开始作为代替人工操作为出发点的诉求被广泛研究和应用。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种基于模型命中概率分布的故障定位系统及方法,可以对异常数据主动探测并进行分析,利用故障模型快速实现故障的定界,指明排障方向。同时根据分析步骤,逐步排查故障可能原因,不断试错,缩小排障范围,并最终给出故障的可能原因,输出合理佐证。
为了实现以上目的,本发明采用以下技术方案:
一种基于模型命中概率分布的故障定位系统,包括:创建模块、接收模块、解析模块、生成模块、匹配模块、计算模块、更正模块;
所述创建模块,用于预先创建故障模型判断规则库及故障模型库;
所述接收模块,用于接收异常数据;
所述解析模块,用于对接收到的异常数据进行解析,并与所述预先创建的故障模型判断规则库进行匹配;
所述生成模块,用于根据所述接收到的异常数据生成排障任务,所述排障任务中包括数个异常数据;
所述匹配模块,用于根据生成到的排障任务中的数个异常数据匹配与各个异常数据相对应的数个故障模型;
所述计算模块,用于根据匹配到的数个故障模型对当前排障任务进行故障定界,并通过计算得到定界概率;
所述更正模块,用于对得到的故障定界概率进行确认或更正,得到最终故障定界概率。
进一步的,所述生成模块还包括若存在多个异常数据命中相同的规则库,则记录命中次数。
进一步的,所述计算模块中还包括根据匹配到的数个故障模型计算与数个故障模型各自对应的故障模型活跃度。
进一步的,所述生成模块还包括:
判断模块,用于当产生新的异常数据时,判断是否存在与所述新的异常数据相同或相关联设备未完结的排障任务。
进一步的,所述匹配模块中还包括若生成的排障任务中的异常数据未匹配到预先创建的故障模型库中的故障模型,则根据未匹配的异常数据自动模拟故障模型,并将所述自动模拟的故障模型存储于故障模型库中。
相应的,还包括一种基于模型命中概率分布的故障定位方法,包括步骤:
S0.预先创建故障模型判断规则库及故障模型库;
S1.接收异常数据;
S2.对接收到的异常数据进行解析,并与所述预先创建的故障模型判断规则库进行匹配;若匹配成功,则执行步骤S3;
S3.根据所述接收到的异常数据生成排障任务,所述排障任务中包括数个异常数据;
S4.根据生成到的排障任务中的数个异常数据匹配与各个异常数据相对应的数个故障模型;
S5.根据匹配到的数个故障模型对当前排障任务进行故障定界,并通过计算得到定界概率;
S6.对得到的故障定界概率进行确认或更正,得到最终故障定界概率。
进一步的,所述步骤S3还包括若存在多个异常数据命中相同的规则库,则记录命中次数。
进一步的,所述步骤S4还包括:
根据匹配到的数个故障模型计算与数个故障模型各自对应的故障模型活跃度。
进一步的,所述步骤S3还包括:
当产生新的异常数据时,判断是否存在与所述新的异常数据相同或相关联设备未完结的排障任务;若存在,则新的异常数据表示和相同或相关联设备所属同一排障任务;若不存在,则所述新的异常数据生成一个新的排障任务。
进一步的,所述步骤S3还包括若生成的排障任务中的异常数据未匹配到预先创建的故障模型库中的故障模型,则根据未匹配的异常数据自动模拟故障模型,并将所述自动模拟的故障模型存储于故障模型库中。
与现有技术相比,本发明可以对异常数据主动探测并进行分析,利用故障模型快速实现故障的定界,指明排障方向。同时根据分析步骤,逐步排查故障可能原因,不断试错,缩小排障范围,并最终给出故障的可能原因,输出合理佐证。且本发明是专门的IT运维领域,针对IAAS层的设备进行故障定位的(IT设备)。
附图说明
图1是实施例一提供的一种基于模型命中概率分布的故障定位系统结构图;
图2是实施例一提供的模型命中概率分布的故障定位流程示意图;
图3是实施例一提供一种基于模型命中概率分布的故障定位方法流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有技术的缺陷,提供了一种基于模型命中概率分布的故障定位系统及方法。
需要说明的是,本发明是对IT设备故障发生后到解决前的这一段时间进行分析处理的。
实施例一
本实施例提供一种基于模型命中概率分布的故障定位系统,如图1所示,创建模块11、接收模块12、解析模块13、生成模块14、匹配模块15、计算模块16、更正模块17;
所述创建模块11,用于预先创建故障模型判断规则库及故障模型库;
所述接收模块12,用于接收异常数据;
所述解析模块13,用于对接收到的异常数据进行解析,并与所述预先创建的故障模型判断规则库进行匹配;
所述生成模块14,用于根据所述接收到的异常数据生成排障任务,所述排障任务中包括数个异常数据;
所述匹配模块15,用于根据生成到的排障任务中的数个异常数据匹配与各个异常数据相对应的数个故障模型;
所述计算模块16,用于根据匹配到的数个故障模型对当前排障任务进行故障定界,并通过计算得到定界概率;
所述更正模块17,用于对得到的故障定界概率进行确认或更正,得到最终故障定界概率。
在创建模块11中,用于预先创建故障模型判断规则库及故障模型库。
建立规则库具体为,由系统管理员预设故障模型判断规则,其中规则信息包括:
(1)规则名称:如a规则、b规则、c规则等;
(2)指标类型:包括状态类指标、指标阈值类指标、关键字类指标;
(3)指标名称:如CPU利用率;
(4)规则比较:等于、大于、小于、不等于、包含、不包含、介于;
(5)比较值:各指标的对应的判断标准;
(6)出现次数:同一排障任务中,异常数据命中规则次数。
建立模型库具体为,由系统管理员将预设好的规则进行组合,生成故障模型,其中故障模型信息包括:
(1)模型名称:如A模型、B模型、C模型等;
(2)模型描述;
(3)所含规则或规则组:如A模型包含规则A(a、b、c)等
(4)判断结果概率。
在本实施例中,将预先创建的故障模型判断规则库及故障模型库存储于系统中,便于后续使用。
在接收模块12中,接收异常数据。
在本实施例中,当设备产生异常数据时,系统接收该异常数据。
在解析模块13中,用于对接收到的异常数据进行解析,并与预先创建的故障模型判断规则库进行匹配。
具体为,当系统接收到异常数据时,系统对于异常数据进行文本解析,并从异常数据文本中获取包括配置项编号、数据类型、规则比较、比较值、异常告警内容等关键信息,并根据解析的关键信息开始进行异常分析。其中异常分析为将解析后的异常数据与预先创建故障模型判断规则库进行匹配。
在生成模块14中,根据所述接收到的异常数据生成排障任务,所述排障任务中包括数个异常数据。
将解析后的异常数据与系统规则库进行匹配,若命中规则,则生成排障任务;若存在多条异常数据命中相同规则,则记录命中次数。
在一个排障任务中可能包括多个异常数据,如异常数据1、异常数据2、异常数据3等等。
需要说明的是,本实施例排障任务关联的是多个故障,将多个关联故障汇聚成一个异常事件(排障任务)。
所述匹配模块15中,根据生成到的排障任务中的数个异常数据匹配与各个异常数据相对应的数个故障模型。
当生成排障任务后,对排障任务中的各个异常数据匹配故障模型:
(1)当异常数据1匹配到了某条规则(如a规则),则生成排障任务,查找所有包含此规则的故障模型(如A模型、B模型),为该异常数据1所有可能的故障模型;
(2)当收到处于同一排障任务的异常数据2,匹配到规则(如b规则),则查找所有包含此两条规则(a规则、b规则)的故障模型(如A模型),为该异常数据2所有可能的故障模型;
(3)依次类推。每当有异常数据进入时,相关异常事件的判断概率重新计算一次,确保在排障任务页面展示的是最新系统判定结果。
(4)在匹配模块15中还包括若生成的排障任务中的异常数据未匹配到预先创建的故障模型库中的故障模型,则根据未匹配的异常数据自动模拟故障模型,并将所述自动模拟的故障模型存储于故障模型库中。
具体为,若排障任务中的异常数据系未匹配到已有的故障模型,则此时排障任务中故障模型匹配状态标记为故障模型未命中,系统会根据命中的规则,自动模拟出一个新的故障模型,再根据所有异常数据命中该故障模型的情况,计算模拟活跃度,当这个故障模型模拟活跃度超过某个阈值时,系统主动添加该故障模型,并保留命中记录和该模型活跃度。
(5)当排障任务30分钟未接收新的异常数据是,则排障任务结束,故障模型匹配完毕。
在计算模块16中,根据匹配到的数个故障模型对当前排障任务进行故障定界,并通过计算得到定界概率。
在本实施例中,计算模块还包括根据匹配到的数个故障模型计算与数个故障模型各自对应的故障模型活跃度。
具体为:某一排障任务中的所有异常数据匹配故障模型之后,系统会根据匹配结果对当前异常事件进行故障定界,并输出定界概率。定界概率判定原则(活跃度变更原则)如下:
(1)某一排障任务中包含的每一条命中规则原则上都使命中的故障模型的活跃度自增加1。即在同一个排障任务中,当多条异常数据命中同一条规则时,此规则命中的故障模型活跃度也只自增加1。
(2)当出现某一异常数据命中多条规则时,这几条规则之间必然是包含关系(特殊情况),因此,若匹配到同时包含这些规则的故障模型,此时故障模型活跃度只增加1。
(3)当由于异常数据合并,在排障任务中,因合并的异常数据的次数改变导致命中规则改变,从而导致匹配的故障模型改变,则原匹配的故障模型活跃度还原,包含新命中规则的故障模型活跃度自增加1。
具体为,设在预设的规则库中对于出现次数的设定为:同一排障任务中,异常数据命中规则次数为1次,而此时当前合并的异常数据的次数为3次,则与规则库中预设的命中规则次数不同,因此导致命中规则改变,导致匹配的故障模型改变,此时需要根据当前合并的异常数据来重新确定一个新的故障模型。
(4)当排障任务所对的异常数据集合有变动时,重新计算一次概率。
假设一个排障任务包含n个可能的故障模型,则结果A的定界概率为:
其中:PA表示结果A在该排障任务中的定界概率;Si表示该排障任务命中的第i个故障模型的活跃度;PAi表示第i个故障模型自身指向结果A的概率。
在更正模块17中,对得到的故障定界概率进行确认或更正,得到最终故障定界概率。
在本实施例中,当一个排障任务结束后,可以人工根据实际设备故障情况,对系统给出的定界结果进行确认或更正。
在本实施例中,还包括更新模块,用于更新故障模型库。
故障模型自带基准概率,通过不断的人工反馈(排障任务结束时的人工确认),完善基准概率,使故障模型的判断更加准确。
一个故障模型中包含的所有结果组的概率和为100%,即该故障模型包含的结果组内的所有可能结果的概率和为100%。
故障模型可以关联多个结果组,每个结果组各自独立,由于一个故障存在有多个维度的故障原因,因此一条排障任务可能有多个结果组(多维度)的结果,当排障任务产生定界结果,则该结果在命中模型的每个结果组内的概率基数都自增加1。
当系统判定的结果中,同结果组内最高概率的结果有多个,结果组内自增的1个概率基数均分至多个相同结果中。
如图2所示为模型命中概率分布的故障定位流程示意图。
需要说明的是,本实施例接收的设备故障异常数据,并不代表该设备一定出现异常,有可能是和它关联的设备出现异常,导致这台设备网络联不通,因此在排障任务当中,是要将关联的设备也作为分析对象。
本实施例可以对异常数据主动探测并进行分析,利用故障模型快速实现故障的定界,指明排障方向。同时根据分析步骤,逐步排查故障可能原因,不断试错,缩小排障范围,并最终给出故障的可能原因,输出合理佐证。
相应的,本实施例还提供一种基于模型命中概率分布的故障定位方法,如图3所示,包括步骤:
S10.预先创建故障模型判断规则库及故障模型库;
S11.接收异常数据;
S12.对接收到的异常数据进行解析,并与所述预先创建的故障模型判断规则库进行匹配;若匹配成功,则执行步骤S13;
S13.根据所述接收到的异常数据生成排障任务,所述排障任务中包括数个异常数据;
S14.根据生成到的排障任务中的数个异常数据匹配与各个异常数据相对应的数个故障模型;
S15.根据匹配到的数个故障模型对当前排障任务进行故障定界,并通过计算得到定界概率;
S16.对得到的故障定界概率进行确认或更正,得到最终故障定界概率。
进一步的,所述步骤S13还包括若存在多个异常数据命中相同的规则库,则记录命中次数。
进一步的,所述步骤S14还包括:
根据匹配到的数个故障模型计算与数个故障模型各自对应的故障模型活跃度。
进一步的,所述步骤S13还包括:
当产生新的异常数据时,判断是否存在与所述新的异常数据相同或相关联设备未完结的排障任务;若存在,则新的异常数据表示和相同或相关联设备所属同一排障任务;若不存在,则所述新的异常数据生成一个新的排障任务。
进一步的,所述步骤S13还包括若生成的排障任务中的异常数据未匹配到预先创建的故障模型库中的故障模型,则根据未匹配的异常数据自动模拟故障模型,并将所述自动模拟的故障模型存储于故障模型库中。
实施例二
本实施例提供的一种基于模型命中概率分布的故障定位系统与实施例一的不同之处在于:
在生成模块中,根据所述接收到的异常数据生成排障任务,排障任务中包括数个异常数据。
将解析后的异常数据与系统规则库进行匹配,若命中规则,则生成排障任务;若存在多条异常数据命中相同规则,则记录命中次数。
在一个排障任务中可能包括多个异常数据,如异常数据1、异常数据2、异常数据3等等。
当在一个排障任务中产生新的异常数据时,需要须先判断当前是否存在与该异常数据相同或相关联设备的未完结排障任务(根据异常数据中的配置项编号和CMDB中记录的设备拓扑关联关系进行判断),若存在关联信息,则表示新进入的异常数据可以被视为和相同或相似的对象所属同一排障任务;若不存在关联信息,则该异常数据生成一个新的排障任务。
本实施例通过判断新的异常数据,可以准确得到当前产生的异常数据所处的排障任务,快速完成排障任务。
实施例三
本实施例一种基于模型命中概率分布的故障定位系统与实施例一的不同之处在于:
本实施例举例说明在某一排障任务中最终得到的故障定界概率及对得到的故障定界概率进行更正。
1、故障模型定界概率
某一排障任务中的异常事件1所对的a规则匹配到故障模型A、B、C,其中故障模型A包含规则A(a、b、c)、故障模型B包含规则(a、b)、故障模型C包含规则(a、c),则此时故障模型A、故障模型B、故障模型C的活跃度各自增加1;当出现第二条异常事件2所对的b规则,则匹配到故障模型A、B,此时故障模型A、故障模型B的活跃度再各自增加1;当出现第三条异常事件3所对的c规则,则匹配到故障模型A,此时故障模型A的活跃度再自增加1,此时故障模型A、故障模型B、故障模型C的活跃度为3、2、1。设故障模型A所对的定界概率为主机故障80%、数通故障20%,故障模型B的定界概率为主机故障60%,数通故障40%,故障模型C的定界概率为主机故障70%,数通故障30%。则根据公式:
其中:PA表示结果A在该排障任务中的定界概率;Si表示该排障任务命中的第i个故障模型的活跃度;PAi表示第i个故障模型自身指向结果A的概率。
(1)当再次发生异常事件时,出现a规则时,所有匹配到的故障模型A、B、C的活跃度各自增加1,此时的定界概率为:
主机故障:
4/(4+3+2)*80%+3/(4+3+2)*60%+2/(4+3+2)*70%=71.11%;
数通故障:
4/(4+3+2)*20%+3/(4+3+2)*40%+2/(4+3+2)*30%=28.89%;
(2)当再次发生异常事件是,出现b规则时,所有匹配到的故障模型A、B的活跃度各自增加1,定界概率为:
主机故障:5/(5+4)*80%+4/(5+4)*60%=71.11%
数通故障:5/(5+4)*20%+4/(5+4)*40%=28.89%;
(3)当再次发生异常事件是,出现c规则时,所有匹配到的故障模型A的活跃度自增加1,定界概率为:
主机故障:6/6*80%=80%
数通故障:6/6*20%=20%。
2、定界概率结果更正
(1)当故障模型第一次配置结果A时,故障模型所对的此结果A的概率基数设置为1,此时此模型的基准概率为结果A:100%;
(2)当第二次匹配至此故障模型A时,此时故障模型A的基准概率为结果A:100%,人工确认后结果为结果A,故障模型所对的结果A的概率基数增加1到达2;
(3)当第三次匹配至故障模型A时,此时故障模型的基准概率仍为结果A:100%,人工确认后结果为结果B,故障模型所对的结果A的概率基数为2,故障模型所对的结果B的概率基数为1;
(4)当第四次匹配至故障模型A时,此时故障模型的基准概率为结果A:66.7%(根据前3次结果计算得到的,由当前结果所占对应结果组所有结果的概率基数之和的百分比,100%*2/3=66.7%),人工确认后结果为结果A,故障模型所对的结果A的概率基数增加1到达3,故障模型所对的结果B的概率基数为1;
(5)以此类推。如果状态为未确认,不计入概率基数计算。模型的新增视为对此模型原始结果的一次人工确认。
本实施例可以对异常数据主动探测并进行分析,利用故障模型快速实现故障的定界,指明排障方向。同时根据分析步骤,逐步排查故障可能原因,不断试错,缩小排障范围,并最终给出故障的可能原因,输出合理佐证。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例, 而本发明的范围由所附的权利要求范围决定。
机译: 一种补偿命中的方法和用于补偿命中的支持系统
机译: 一种补偿命中的方法和用于补偿命中的支持系统
机译: 概率系统,即贝叶斯系统,一种用于确定患者临床治疗程序的学习方法,涉及根据质量标准更改概率分布,从而增加边缘的概率