首页> 中国专利> 监管系统的告警根源分析系统及方法

监管系统的告警根源分析系统及方法

摘要

本发明公开了一种监管系统的告警根源分析系统及方法,包括IT元素归集模块、告警根源分析定位模块和告警根源处理模块;IT元素归集模块用于通过信息归集手段将被监控的IT元素进行信息归集,将归集后的IT元素写入数据库;告警根源分析定位模块用于根据各IT元素的物理、逻辑访问关系进行链路梳理和分析,根据链路匹配、事件链路叠加、权重面积计算与噪点过滤,定位告警根源;告警根源处理模块用于处理告警根源。本发明实现告警根源定位、影响范围相关指标的结果关联,方便运维人员进行告警快速定位查阅,并在此基础上进行故障解决。

著录项

  • 公开/公告号CN106254137A

    专利类型发明专利

  • 公开/公告日2016-12-21

    原文格式PDF

  • 申请/专利权人 广州汇通国信信息科技有限公司;

    申请/专利号CN201610772896.4

  • 申请日2016-08-30

  • 分类号H04L12/24(20060101);

  • 代理机构北京联瑞联丰知识产权代理事务所(普通合伙);

  • 代理人张清彦

  • 地址 510000 广东省广州市天河区中山大道西139号自编111之一房

  • 入库时间 2023-06-19 01:10:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-11-15

    专利权质押合同登记的生效 IPC(主分类):H04L12/24 专利号:ZL2016107728964 登记号:Y2022980020291 登记生效日:20221031 出质人:广州汇通国信科技有限公司 质权人:广州凯得融资担保有限公司 发明名称:监管系统的告警根源分析系统及方法 申请日:20160830 授权公告日:20190510

    专利权质押合同登记的生效、变更及注销

  • 2022-11-11

    专利权质押合同登记的注销 IPC(主分类):H04L12/24 授权公告日:20190510 申请日:20160830 专利号:ZL2016107728964 登记号:Y2020980005749 出质人:广州汇通国信科技有限公司 质权人:广州凯得融资担保有限公司 解除日:20221027

    专利权质押合同登记的生效、变更及注销

  • 2019-05-10

    授权

    授权

  • 2017-01-18

    实质审查的生效 IPC(主分类):H04L12/24 申请日:20160830

    实质审查的生效

  • 2016-12-21

    公开

    公开

说明书

技术领域

本发明涉及IT监管系统技术领域,特别是指一种监管系统的告警根源分析系统及方法。

背景技术

随着IT技术发展,在IT环境中会出现各种各样的设备、应用等,对于IT监管系统的要求,也逐步涵盖到硬件、网络报文、集群、虚拟化、操作系统、应用软件、数据库、中间件网元监控、代码组件和浏览器等各IT层面,但当某个IT元素节点出现事件时,网管系统往往由于缺少联动分析,导致该IT元素横向与纵向关联节点均会出现故障提示信息,造成运维人员只能通过经验,采用网管工具、手工脚本进行逐条排查,根据经验在海量告警信息中分析定位事件发生的根源,由于定位的不及时,从而延误抢修时机,造成不必要的业务损失与运维成本浪费。除了依赖运维人员的经验,IT监管系统还可通过设置各IT元素相关指标的告警阀值信息,当各IT元素的指标信息被归集后,系统判断具体指标的数值是否符合告警阀值设置条件,如符合,则直接对该IT元素指标进行告警提醒。由于是通过各IT元素相关指标的阀值进行定义后,只要该IT元素指标符合告警阀值设置条件,则该告警信息会直接显示出来;但由于IT系统中,每个IT元素基本不会独立存在,而是与周边形成一定的物理访问关系、逻辑访问关系,所以该技术存在的缺点包含如下:

1当某IT元素的指标存在告警时,在它基础之上构建的其他IT元素、与它形成访问关系的IT元素均会形成对应的事件信息,当这些事件信息也超出自身定义的告警阀值时,则由原来的单一IT元素单一指标的根源告警信息,会形成多个IT元素多个指标的告警提醒,会对运维处理人员造成信息干扰,无法及时查找定位出根源告警内容。

2当告警根源被处理后,原来被联动关联并告警且没被处理的指标,可能随着该指标新数据的正常,该指标的告警信息会被下沉;但以后对历史信息进行回顾后,很难查找出当时该指标为何会出现告警、为何又恢复正常、当时事件的影响范围如何。

发明内容

本发明提出一种监管系统的告警根源分析系统及方法,能够在处理IT元素的海量告警信息时告警根源的定位、影响范围关联存在的弱点,提出采用各元素指标告警根源分析技术,最终实现告警根源定位、影响范围相关指标的结果关联,方便运维人员进行告警快速定位查阅,并在此基础上进行故障解决。

本发明的技术方案是这样实现的:

一种监管系统的告警根源分析系统,包括IT元素归集模块、告警根源分析定位模块和告警根源处理模块;所述IT元素归集模块用于通过信息归集手段将被监控的IT元素进行信息归集,将归集后的IT元素写入数据库;所述告警根源分析定位模块用于根据各IT元素的物理、逻辑访问关系进行链路梳理和分析,根据链路匹配、事件链路叠加、权重面积计算与噪点过滤,定位告警根源;所述告警根源处理模块用于处理告警根源。

进一步的,所述IT元素包括硬件、网络报文、软件系统、应用软件、代码和浏览器。

进一步的,所述数据库还包含各IT元素的指标信息。

一种监管系统的告警根源分析方法,具体包括以下步骤:

(1)信息采集:将被监控的IT元素,通过各类信息归集方法对各IT元素进行信息归集,将归集后的各IT元素写入数据库;

(2)物理、逻辑访问关系链路梳理、降维:分析各IT元素内部和外部之间的业务范围关系、逻辑访问关系和配置管理信息,对各IT元素的关系链路进行降维处理,形成各IT元素的单一链路;

(3)链路匹配:按照各IT元素的单一链路关系对归集后的各IT元素进行匹配,得到每个单一链路间各IT元素的链路总览;

(4)时间匹配与事件链路叠加:根据告警事件信息的时间有效性、持续性和时延,将告警事件信息储存到每个单一链路中,进行各单一链路的事件总览;

(5)权重面积计算:根据各单一链路的告警IT子元素的指标信息和其他IT子元素的指标信息,计算告警前后各IT子元素的数据波动率,若其他IT子元素的数据波动率大于告警IT子元素的数据波动率,则将该告警IT子元素纳入告警的整体权重面积中;

(6)噪点过滤:根据告警IT子元素以往的数据波动性和关联IT子元素的数据波动性,对整体权重面积中的告警IT子元素进行过滤,得出告警根源。

进一步的,所述IT元素包括硬件、网络报文、软件系统、应用软件、代码和浏览器。

进一步的,在步骤(1)中,通过代理或非代理接入方式对各IT元素进行信息归集。

进一步的,在步骤(5)中,各IT元素的数据波动率的计算公式为:数据波动率=告警后的数据/告警前的数据-1。

本发明的有益效果在于:通过自动梳理IT元素周边的物理、逻辑关系,并通过关系拓扑降维操作,时间与链路关系的事件叠加,通过权重面积计算,最终根据持续性、波动性算法进行过滤筛选,实现告警根源定位、影响范围相关指标的结果关联,方便运维人员进行告警快速定位查阅,并在此基础上进行故障解决。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明监管系统的告警根源分析系统的原理框图;

图2为本发明监管系统的告警根源分析方法的流程图;

图3为图2中物理、逻辑访问关系链路梳理、降维实施例的原理框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明提出了一种监管系统的告警根源分析系统,包括IT元素归集模块、告警根源分析定位模块和告警根源处理模块;IT元素归集模块用于通过信息归集手段将被监控的IT元素进行信息归集,将归集后的IT元素写入数据库;告警根源分析定位模块用于根据各IT元素的物理、逻辑访问关系进行链路梳理和分析,根据链路匹配、事件链路叠加、权重面积计算与噪点过滤,定位告警根源;告警根源处理模块用于处理告警根源。本发明通过自动梳理IT元素周边的物理、逻辑关系,并通过关系拓扑降维操作,时间与链路关系的事件叠加,通过权重面积计算,最终根据持续性、波动性算法进行过滤筛选,实现告警根源定位、影响范围相关指标的结果关联,方便运维人员进行告警快速定位查阅,并在此基础上进行故障解决。

IT元素包括硬件、网络报文、软件系统、应用软件、代码和浏览器。具体的,各IT元素还包括若干IT子元素。

数据库还包含各IT元素的指标信息。IT元素归集模块对被监控的IT元素进行数据采集和归集,采集与归集的内容包括各IT元素和IT元素的指标信息,比如硬件的的型号、CPU使用量、内存使用量、网络流量、进程名称、代码各方法响应时间、浏览器返回码等。

如图2所示,本发明还提出了一种监管系统的告警根源分析方法,具体包括以下步骤:

(1)信息采集:将被监控的IT元素,通过各类信息归集方法对各IT元素进行信息归集,将归集后的各IT元素写入数据库;

具体的,在步骤(1)中,通过代理或非代理接入方式对各IT元素进行信息归集。IT元素包括硬件、网络报文、软件系统、应用软件、代码和浏览器。IT元素的指标信息,比如硬件的的型号、CPU使用量、内存使用量、网络流量、进程名称、代码各方法响应时间、浏览器返回码等。

(2)物理、逻辑访问关系链路梳理、降维:分析各IT元素内部和外部之间的业务范围关系、逻辑访问关系和配置管理信息,对各IT元素的关系链路进行降维处理,形成各IT元素的单一链路;具体的,将原本单一IT元素与周边元素间的网状关系,梳理为从发起端元素到末端元素的单一链路关系。如图3所示,对A-E五个IT元素举例分析,降维前A-E为网状关系,梳理、降维后为单一链路关系。

1)IT元素的内部关系,表示各IT元素与其中的子元素的关系:比如物理服务器元素,装载着虚拟化平台,每个虚拟主机安装了各自的操作系统,操作系统运行了多个进程,不同进程提供着不同的服务,如信息系统服务上面还有不同的页面代码。

2)IT元素的外部关系,表示各IT元素与其它IT元素间的关系:比如物理服务器与物理服务器之间通过交换机、路由器、负载均衡器进行关联。

(3)链路匹配:按照各IT元素的单一链路关系对归集后的各IT元素进行匹配,得到每个单一链路间各IT元素的链路总览;

(4)时间匹配与事件链路叠加:根据告警事件信息的时间有效性、持续性和时延,将告警事件信息储存到每个单一链路中,进行各单一链路的事件总览;

(5)权重面积计算:根据各单一链路的告警IT子元素的指标信息和其他IT子元素的指标信息,计算告警前后各IT子元素的数据波动率,若其他IT子元素的数据波动率大于告警IT子元素的数据波动率,则将该告警IT子元素纳入告警的整体权重面积中;

在步骤(5)中,各IT元素的数据波动率的计算公式为:数据波动率=告警后的数据/告警前的数据-1。

(6)噪点过滤:根据告警IT子元素以往的数据波动性和关联IT子元素的数据波动性,对整体权重面积中的告警IT子元素进行过滤,得出告警根源。

具体的,IT子元素也包含若干指标信息。

如指标A,在本次告警指标的历史状态为非告警时,它的历史数据波动性达到现有数据的波动性,但它关联的指标B、C的波动性比当前值还大,则指标A可过滤掉。

如指标A,在本次告警指标的历史状态为非告警时,它的历史数据波动性达到现有数据的波动性,但它关联的指标B、C的波动性等于或者小于当前值,则指标A列为告警根源项。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号