首页> 中国专利> 一种基于统计学习优化的自适应规则生成的告警系统

一种基于统计学习优化的自适应规则生成的告警系统

摘要

本发明公开了一种基于统计学习优化的自适应规则生成的告警系统,涉及告警系统领域。本发明包括收集模块、分析模块、特征提取模块、特征处理模块、算法模块、告警模块以及学习模块,通过统计学习的方式进行多特征融合建模,并结合告警处理的过程数据进行告警排序,大大减少了形成圣诞树效应产生告警风暴的概率,提高了操作人员的处理效率,减少了操作人员的投入精力,使告警处理更加方便。

著录项

  • 公开/公告号CN115658444A

    专利类型发明专利

  • 公开/公告日2023-01-31

    原文格式PDF

  • 申请/专利权人 北京泰策科技有限公司;

    申请/专利号CN202211341618.5

  • 发明设计人 刘宝铧;张林林;

    申请日2022-10-31

  • 分类号G06F11/32;G06N20/00;G08B23/00;

  • 代理机构深圳天融专利代理事务所(普通合伙);

  • 代理人赵柱兰

  • 地址 100000 北京市大兴区经济技术开发区科谷一街8号院1号楼18层1801

  • 入库时间 2023-06-19 18:29:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-01-31

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及告警系统领域,特别是涉及一种基于统计学习优化的自适应规则生成的告警系统。

背景技术

告警是系统发生故障时,监控单元将视故障情况给出告警信号。

现有的告警系统大部分都是基于配置规则进行,实际执行的过程中需要操作人员对告警信息进行处理,为了提高服务质量,操作人员需要收集各种监控指标数据并编写许多规则来进行触发警报。

告警处理有两类方法:基于规则的方法和Bug-KNN的方法;基于规则的方法: 即根据规定人工事先定义不同告警的告警等级,例如红橙黄蓝。操作人员完全按照既定等级进行处理。Bug-KNN的方法:利用KNN最近邻算法,对历史告警以及处理报告进行统计计算,从而找出和当前告警类似的告警出来进行定级后再推荐给操作人员。

但是,在实际的应用过程中,上述告警处理的系统和方法很容易形成圣诞树效应产生告警风暴,即告警数量超过操作人员能处理的可行效率,导致的告警风暴对操作人员的不友好。

发明内容

本发明的目的在于提供一种基于统计学习优化的自适应规则生成的告警系统,解决很容易形成圣诞树效应产生告警风暴,即告警数量超过操作人员能处理的可行效率,导致的告警风暴对操作人员的不友好的问题:

本发明为一种基于统计学习优化的自适应规则生成的告警系统,包括收集模块、分析模块、特征提取模块、特征处理模块、算法模块、告警模块以及学习模块;

所述收集模块用于收集系统的历史告警的处理记录并进行标注,进行标注的数据包括告警本身的严重等级、告警产生时间、开始处理时间以及后续操作;

所述告警系统进行故障告警,故障告警一般分为四级并以红橙黄蓝重要性依次降低予以呈现,方便操作人员按照优先级进行处理。

所述分析模块用于对历史告警数据进行操作,形成告警数据的文本、时间和时序特征的KPI数据;

所述特征提取模块用于过对告警内容文本内容的提取,获得告警本文特征以及告警时间特征,结合告警对应的KPI以及关联的KPI数据,从KPI中提取出需要的特征;

所述特征处理模块用于将特征组合成特征向量,采用XGBoost排序算法,对线上实时到达的告警流进行排序,以排序结果作为严重性的定级结果,将告警分级的问题转化成重要性排序的问题,得到训练完成的排序模型算法,并将排序模型算法导入到算法模块中,而且根据从离线数据中训练调参得到告警分级的阈值;

其中,XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携;它在Gradient Boosting 框架下实现机器学习算法,XGBoost提供并行树提升(也称为GBDT,GBM),可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop,SGE,MPI)上运行,并且可以解决数十亿个示例之外的问题;

所述算法模块用于将输入的实时的告警记录以及对应告警的KPI数据,根据排序模型算法,输出对应告警的告警严重性分数;所述算法模块中设置有比较子模块,所述比较子模块则针对告警严重性分数设定一个阈值,此阈值与根据从离线数据中训练调参得到告警分级的阈值相同,超过阈值则认为是严重的告警;

所述告警模块用于将排序完成的告警提供给操作人员,并将处理过程和结果反馈到后台的分析系统。

告警系统的使用方法如下:

S1:收集系统的历史告警的处理记录并进行标注

对系统产生的历史告警数据进行标注,包括告警本身的严重等级,告警产生时间,开始处理时间,后续操作,例如与其他告警的抑制、合并等操作,结束或转任务工单的时间等。形成告警数据的文本、时间和时序特征等KPI数据。

S2:对标注数据进行基于统计排序模型的训练

利用多特征融合的方法进行统计排序模型的训练,即通过对告警内容文本内容的提取,可以获得告警本文特征以及告警时间特征;再结合告警对应的KPI以及关联的KPI数据,则可以从KPI中提取出需要的特征。

将这些特征组合成特征向量,用于排序模型的输入,采用XGBoost排序算法,对线上实时到达的告警流进行排序,以排序结果作为严重性的定级结果,将告警分级的问题转化成重要性排序的问题。

S3:基于统计排序模型的训练结果进行在线实时应用

输入的数据则是多条实时的告警记录以及对应告警的KPI数据。经过特征工程后,特征向量输入到离线训练好的排序模型算法,输出对应告警的告警严重性分数。针对告警严重性分数设定一个阈值,超过阈值则认为是严重的告警。这里的阈值则是从离线数据中训练调参得到。

并同时展示原先规则下的告警级别与统计排序后的告警级别,帮助操作人员进行判断,并将处理过程和结果反馈到后台的分析系统,利用增量学习的方式不断优化操作人员的告警处理效率。

优选地,所述分析模块对历史告警数据进行的操作包括与其他告警的抑制以及合并操作,结束或转任务工单的时间。

优选地,所述告警模块同时展示原先规则下的告警级别与统计排序后的告警级别,并将处理过程和结果反馈到后台的分析系统;

其中,原先规则下的告警级别是使用利用KNN最近邻算法,对历史告警以及处理报告进行统计计算,从而找出和当前告警类似的告警出来进行定级后再推荐给操作人员。

优选地,所述告警模块中还设置有学习子模块,所述学习子模块用于根据处理过程和结果反馈,利用增量学习的方式不断优化;

其中,增量学习主要表现于两个方面:一方面由于其无需保存历史数据,从而减少存储空间的占用;另一方面增量学习在当前的样本训练中充分利用了历史的训练结果,从而显著地减少了后续训练的时间。

优选地,所述告警系统还包括若干发送子模块以及若干接收子模块,所述发送子模块设置于各个模块中,用于每个模块之间的数据发送;所述接收子模块设置于各个模块中,用于对发送子模块发送数据的接收。

优选地,所述告警分为一级告警、二级告警以及三级告警;所述严重的告警为一级重要告警、二级重要告警以及三级重要告警。

优选地,所述告警系统包括第一存储模块、第二存储模块以及编辑模块,所述第一存储模块用于储存告警中的一级告警和二级告警以及严重的告警中一级重要告警和二级重要告警;所述第二存储模块用于存储告警中的三级告警以及严重的告警中三级重要告警;所述编辑模块用于对所述第一存储模块以及第二存储模块进行编辑操作。

优选地,所述告警系统包括业务模块,所述业务模块用于获取多条历史告警记录以及将所述多条历史告警记录在系统中进行统计显示。

本发明具有以下有益效果:

1、本发明通过设置收集模块、分析模块、特征提取模块、特征处理模块、算法模块、告警模块以及学习模块,通过统计学习的方式进行多特征融合建模,并结合告警处理的过程数据进行告警排序,大大减少了形成圣诞树效应产生告警风暴的概率,提高了操作人员的处理效率,减少了操作人员的投入精力,使告警处理更加方便。

2、本发明通过本发明的告警系统进行处理告警信息时,同样的告警信息,准确率均高于使用基于规则方法的系统以及Bug-KNN方法的系统处理的准确率,且处理的告警信息越多时,准确率也会缓慢降低,但本发明的系统在处理告警信息增多时,准确率的下降量也较低,提高告警处理的效果。

3、本发明通过本发明的告警系统进行处理告警信息时,同样的告警信息,召回率均高于使用基于规则方法的系统以及Bug-KNN方法的系统处理的召回率,误判率较低,提高了处理效果。

4、本发明通过本发明的告警系统进行处理告警信息时,同样的告警信息,F1分数较高,体现了系统优越性。

当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一种基于统计学习优化的自适应规则生成的告警系统的系统框图;

图2为本发明一种基于统计学习优化的自适应规则生成的告警系统的训练与实际应用过程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

在本发明的描述中,需要理解的是,术语“上”、“中”、“外”、“内”等指示方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的组件或元件必须具有特定的方位,以特定的方位构造和操作,因此不能理解为对本发明的限制。

如图1-2所示,本实施列一种基于统计学习优化的自适应规则生成的告警系统,包括收集模块、分析模块、特征提取模块、特征处理模块、算法模块、告警模块以及学习模块;

收集模块用于收集系统的历史告警的处理记录并进行标注,进行标注的数据包括告警本身的严重等级、告警产生时间、开始处理时间以及后续操作;

告警系统进行故障告警,故障告警一般分为四级并以红橙黄蓝重要性依次降低予以呈现,方便操作人员按照优先级进行处理。

分析模块用于对历史告警数据进行操作,形成告警数据的文本、时间和时序特征的KPI数据;

特征提取模块用于过对告警内容文本内容的提取,获得告警本文特征以及告警时间特征,结合告警对应的KPI以及关联的KPI数据,从KPI中提取出需要的特征;

特征处理模块用于将特征组合成特征向量,采用XGBoost排序算法,对线上实时到达的告警流进行排序,以排序结果作为严重性的定级结果,将告警分级的问题转化成重要性排序的问题,得到训练完成的排序模型算法,并将排序模型算法导入到算法模块中,而且根据从离线数据中训练调参得到告警分级的阈值;

其中,XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携;它在Gradient Boosting 框架下实现机器学习算法,XGBoost提供并行树提升(也称为GBDT,GBM),可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop,SGE,MPI)上运行,并且可以解决数十亿个示例之外的问题;

算法模块用于将输入的实时的告警记录以及对应告警的KPI数据,根据排序模型算法,输出对应告警的告警严重性分数;算法模块中设置有比较子模块,比较子模块则针对告警严重性分数设定一个阈值,此阈值与根据从离线数据中训练调参得到告警分级的阈值相同,超过阈值则认为是严重的告警;

告警模块用于将排序完成的告警提供给操作人员,并将处理过程和结果反馈到后台的分析系统。

告警系统的使用方法如下:

S1:收集系统的历史告警的处理记录并进行标注

对系统产生的历史告警数据进行标注,包括告警本身的严重等级,告警产生时间,开始处理时间,后续操作,例如与其他告警的抑制、合并等操作,结束或转任务工单的时间等。形成告警数据的文本、时间和时序特征等KPI数据。

S2:对标注数据进行基于统计排序模型的训练

利用多特征融合的方法进行统计排序模型的训练,即通过对告警内容文本内容的提取,可以获得告警本文特征以及告警时间特征;再结合告警对应的KPI以及关联的KPI数据,则可以从KPI中提取出需要的特征。

将这些特征组合成特征向量,用于排序模型的输入,采用XGBoost排序算法,对线上实时到达的告警流进行排序,以排序结果作为严重性的定级结果,将告警分级的问题转化成重要性排序的问题。

S3:基于统计排序模型的训练结果进行在线实时应用

输入的数据则是多条实时的告警记录以及对应告警的KPI数据。经过特征工程后,特征向量输入到离线训练好的排序模型算法,输出对应告警的告警严重性分数。针对告警严重性分数设定一个阈值,超过阈值则认为是严重的告警。这里的阈值则是从离线数据中训练调参得到。

并同时展示原先规则下的告警级别与统计排序后的告警级别,帮助操作人员进行判断,并将处理过程和结果反馈到后台的分析系统,利用增量学习的方式不断优化操作人员的告警处理效率。

分析模块对历史告警数据进行的操作包括与其他告警的抑制以及合并操作,结束或转任务工单的时间。

告警模块同时展示原先规则下的告警级别与统计排序后的告警级别,并将处理过程和结果反馈到后台的分析系统;

其中,原先规则下的告警级别是使用利用KNN最近邻算法,对历史告警以及处理报告进行统计计算,从而找出和当前告警类似的告警出来进行定级后再推荐给操作人员。

告警模块中还设置有学习子模块,学习子模块用于根据处理过程和结果反馈,利用增量学习的方式不断优化;

其中,增量学习主要表现于两个方面:一方面由于其无需保存历史数据,从而减少存储空间的占用;另一方面增量学习在当前的样本训练中充分利用了历史的训练结果,从而显著地减少了后续训练的时间。

告警系统还包括若干发送子模块以及若干接收子模块,发送子模块设置于各个模块中,用于每个模块之间的数据发送;接收子模块设置于各个模块中,用于对发送子模块发送数据的接收。

告警分为一级告警、二级告警以及三级告警;严重的告警为一级重要告警、二级重要告警以及三级重要告警。

告警系统包括第一存储模块、第二存储模块以及编辑模块,第一存储模块用于储存告警中的一级告警和二级告警以及严重的告警中一级重要告警和二级重要告警;第二存储模块用于存储告警中的三级告警以及严重的告警中三级重要告警;编辑模块用于对第一存储模块以及第二存储模块进行编辑操作。

告警系统包括业务模块,业务模块用于获取多条历史告警记录以及将多条历史告警记录在系统中进行统计显示。

本实施例中,对本发明的告警系统进行实验,设置10-100个不同级别的告警信息,分别传输到本发明的系统中、基于规则方法的系统中和Bug-KNN方法的系统中,同一个操作人员进行告警信息的处理,并分别就其准确率、召回率以及F1分数进行记录,记录结果如下:

其中,表1为准确率实验记录;表2为召回率实验记录;表3为F1分数实验记录;

表1

由上表可知,在进行10个告警信息的处理时,操作人员用本发明的系统处理的准确率达到了99.5%,操作人员用基于规则方法的系统处理的准确率为88.2%,操作人员用Bug-KNN方法的系统处理的准确率为92.5%;在进行20个告警信息的处理时,操作人员用本发明的系统处理的准确率达到了99.3%,操作人员用基于规则方法的系统处理的准确率为88.0%,操作人员用Bug-KNN方法的系统处理的准确率为92.3%;在进行40个告警信息的处理时,操作人员用本发明的系统处理的准确率达到了99.1%,操作人员用基于规则方法的系统处理的准确率为87.6%,操作人员用Bug-KNN方法的系统处理的准确率为91.8%;在进行60个告警信息的处理时,操作人员用本发明的系统处理的准确率达到了98.8%,操作人员用基于规则方法的系统处理的准确率为87.2%,操作人员用Bug-KNN方法的系统处理的准确率为91.7%;在进行80个告警信息的处理时,操作人员用本发明的系统处理的准确率达到了98.6%,操作人员用基于规则方法的系统处理的准确率为86.5%,操作人员用Bug-KNN方法的系统处理的准确率为91.4%;在进行100个告警信息的处理时,操作人员用本发明的系统处理的准确率达到了98.6%,操作人员用基于规则方法的系统处理的准确率为86.4%,操作人员用Bug-KNN方法的系统处理的准确率为91.2%;

从中可以得出,使用本发明的告警系统进行处理告警信息时,同样的告警信息,准确率均高于使用基于规则方法的系统以及Bug-KNN方法的系统处理的准确率,且处理的告警信息越多时,准确率也会缓慢降低,但本发明的系统在处理告警信息增多时,准确率的下降量也较低,提高告警处理的效果。

表2

由上表可知,在进行10个告警信息的处理时,操作人员用本发明的系统处理的召回率达到了88.5%,操作人员用基于规则方法的系统处理的召回率为78.2%,操作人员用Bug-KNN方法的系统处理的召回率为82.5%;在进行20个告警信息的处理时,操作人员用本发明的系统处理的召回率达到了88.3%,操作人员用基于规则方法的系统处理的召回率为78.0%,操作人员用Bug-KNN方法的系统处理的召回率为82.3%;在进行40个告警信息的处理时,操作人员用本发明的系统处理的召回率达到了87.8%,操作人员用基于规则方法的系统处理的召回率为77.8%,操作人员用Bug-KNN方法的系统处理的召回率为81.8%;在进行60个告警信息的处理时,操作人员用本发明的系统处理的召回率达到了87.7%,操作人员用基于规则方法的系统处理的召回率为81.7%,操作人员用Bug-KNN方法的系统处理的召回率为81.7%;在进行80个告警信息的处理时,操作人员用本发明的系统处理的召回率达到了87.4%,操作人员用基于规则方法的系统处理的召回率为76.5%,操作人员用Bug-KNN方法的系统处理的召回率为81.4%;在进行100个告警信息的处理时,操作人员用本发明的系统处理的召回率达到了87.2%,操作人员用基于规则方法的系统处理的召回率为76.4%,操作人员用Bug-KNN方法的系统处理的召回率为81.2%;

从中可以得出,使用本发明的告警系统进行处理告警信息时,同样的告警信息,召回率均高于使用基于规则方法的系统以及Bug-KNN方法的系统处理的召回率,误判率较低,提高了处理效果。

表3

F1分数是由准确率*召回率*2/(准确率+召回率) 计算得到的;

由上表可知,在进行10个告警信息的处理时,操作人员用本发明的系统处理的F1分数达到了93.7%,操作人员用基于规则方法的系统处理的F1分数为82.9%,操作人员用Bug-KNN方法的系统处理的F1分数为87.2%;在进行20个告警信息的处理时,操作人员用本发明的系统处理的F1分数达到了93.5%,操作人员用基于规则方法的系统处理的F1分数为82.7%,操作人员用Bug-KNN方法的系统处理的F1分数为87.0%;在进行40个告警信息的处理时,操作人员用本发明的系统处理的F1分数达到了93.1%,操作人员用基于规则方法的系统处理的F1分数为82.4%,操作人员用Bug-KNN方法的系统处理的F1分数为86.5%;在进行60个告警信息的处理时,操作人员用本发明的系统处理的F1分数达到了92.9%,操作人员用基于规则方法的系统处理的F1分数为82.1%,操作人员用Bug-KNN方法的系统处理的F1分数为86.4%;在进行80个告警信息的处理时,操作人员用本发明的系统处理的F1分数达到了92.7%,操作人员用基于规则方法的系统处理的F1分数为81.2%,操作人员用Bug-KNN方法的系统处理的F1分数为86.1%;在进行100个告警信息的处理时,操作人员用本发明的系统处理的F1分数达到了92.6%,操作人员用基于规则方法的系统处理的F1分数为81.1%,操作人员用Bug-KNN方法的系统处理的F1分数为85.9%;

从中可以得出,使用本发明的告警系统进行处理告警信息时,同样的告警信息,F1分数均高于使用基于规则方法的系统以及Bug-KNN方法的系统处理的F1分数,F1分数为综合准确率以及召回率调和平均,体现了系统优越性。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号