首页> 中国专利> 基于JMX的定制化实时监控及自动化异常处理的系统及方法

基于JMX的定制化实时监控及自动化异常处理的系统及方法

摘要

一种基于JMX的定制化实时监控及自动化异常处理的系统,包括数据采样信息库、监控模型库、异常处理库、网络通信模块、数据收集模块、数据异常处理分析模块、页面展示模块,监控数据库;被监控系统开启JMX访问端口,建立监控系统与被监控系统之间的远程访问连接;所述数据采样信息库,用于存放数据样本信息的仓库,所述监控模型库,用于存放所有被监控系统所对应的监控模型的仓库;所述异常处理库,用于存放异常处理方法及流程的仓库;所述网络通信模块,构建并管理监控系统和各个被监控系统间的网络数据传输,维护监控系统和所有被监控系统间的正常网络通信;监控数据库,用于存储实时数据收集模块监控采集的数据。

著录项

  • 公开/公告号CN105071969A

    专利类型发明专利

  • 公开/公告日2015-11-18

    原文格式PDF

  • 申请/专利权人 焦点科技股份有限公司;

    申请/专利号CN201510510641.6

  • 发明设计人 王炜;陈涛;张丽;

    申请日2015-08-19

  • 分类号H04L12/24(20060101);H04L12/26(20060101);H04L29/08(20060101);G06F11/30(20060101);

  • 代理机构南京瑞弘专利商标事务所(普通合伙);

  • 代理人陈建和

  • 地址 210003 江苏省南京市高新技术产业开发区星火路软件大厦A座8-12F

  • 入库时间 2023-12-18 12:02:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-03-08

    授权

    授权

  • 2015-12-16

    实质审查的生效 IPC(主分类):H04L12/24 申请日:20150819

    实质审查的生效

  • 2015-11-18

    公开

    公开

说明书

技术领域

本发明属于计算机系统数据监控领域,特别是实时监控及异常动态配置的方 法,具体涉及基于JMX(JavaManagementExtensions,即Java管理扩展)的定 制化实时监控及自动化异常处理的系统及方法。

背景技术

信息化的日益深入促使现代IT系统业务规模的不断扩大,相应地,系统数 量也随之在不断增加。系统运行过程中所产生的异常监控报警信息对系统运维人 员及时定位异常,挖掘系统运行规律,起到至关重要的作用。然而,传统的系统 运维方式只有在发生故障或影响业务连续性时才可能被发现,被动救火式的维护 不仅会因异常数据采集不及时导致异常发生处无法被准确定位,而且更严重地则 会导致故障的恶性连锁反应持续发生。同时,为保证系统的稳定运行和业务的正 常流转,也将耗费大量的人力和物力进行监控。

针对一些常见异常,开发人员可直接在系统程序编写中实现风险的自动规避, 但仍有一些异常仍需要系统运维人员参与实时监控并做及时处理,比如系统运行 中的部分参数会根据当前运行状况进行动态调整,通常的实现方式是将这些配置 参数置于配置文件中进行管理,一旦有调整的需求,系统运维人员首先修改配置 文件,再重新发布系统,如若调整不及时很可能导致运行环境报错。

JMX在Java编程语言中定义了应用程序以及网络管理和监控的体系结构、 设计模式、应用程序接口以及服务。通常使用JMX来监控系统的运行状态或管 理系统的某些方面,比如清空缓存、重新加载配置文件等优点可以非常容易的使 应用程序具有被管理伸缩性的架构每个JMXAgent服务可以很容易的放入到 Agent中。如专利“基于JMX的网管系统中服务生命周期管理监控方法”(专利 公开号:CN102904745A)提供一种基于JMX的网管系统中服务生命周期管理监 控方法,该方法包括服务生命周期的管理、服务的配置和服务生命周期的监控, 所述的服务生命周期的管理是指对生命周期的阶段及状态进行管理;所述的服务 的配置是指服务器获取相应的配置文件对服务模块进行监听配置、异常事件处理 方式配置和服务启动方式配置;所述的服务生命周期的监控是指服务器利用JMX 对生命周期进行监控;此监控方法能有效实现对服务模块进行生命周期的监控及 管理,并能灵活动态地对服务进行配置。然而,这种监控方法仅是通过配置文件 控制监控、异常事件处理及服务启动,因而针对不同的服务应用,需要重复更改 配置文件实现监控及异常处理,这不仅导致效率低,而且通用性也不高;再者, 该监控方法仅仅是关注服务在生命周期内的状态是否正常,监控流程较为简单, 不能全面覆盖多样化的应用系统运行中。

专利“一种基于Java的异常处理装置及其异常处理方法”(专利公开 号:CN101853189A)提供一种基于Java的异常处理装置及异常处理方法,其中 异常装置主要包括异常管理器、XML解析器、类反射器、异常处理器、异常处理 结果信息封装器及日志记录器,并提供异常处理框架接口、异常处理器接口和日 志记录器接口,将异常处理封装在一个框架中,并为用户提供了统一的调用接口 和格式化的配置文件。基于Java的异常处理方法,通过提供异常处理框架接口 与异常处理器接口,使传入的异常封装在一个框架内处理。该方法利用XML配 置文件定义异常和异常处理之间的对应关系,虽然保证异常处理的灵活性和自动 化,但XML配置文件编写较为复杂,需要专业的技术人员参与异常分析和编写 工作,配置化程度不高。

如何转变传统的人工更新、检测和故障排除的模式,实现定制化监控、自动 化部署、诊断和管理,提高监控的工作效率,加速定位异常的速度和缩短故障恢 复时间,对计算机系统数据监控来说是一件非常重要和有意义的工作。

发明内容

为解决现有技术的局限性,本发明提供一种基于JMX的定制化实时监控及 自动化异常处理的系统及方法,通过采用JMX远程方法调用RMI,构建集监控系 统和多被监控系统的分布式网络连接,各个被监控系统根据各自需求自行限定运 行过程中需监控的关键数据及异常发生条件,实现监控细节的定制化,满足不同 系统的数据监控需求;监控系统依据被监控系统的选择及异常处理设置,实时收 集、校验监控数据,并对出现的异常直接调用适合的异常处理方式进行自动化处 理,减少人工参与,提高异常处理的准确率,也缩短了异常周期。

本发明的技术方案是:一种基于JMX的定制化实时监控及自动化异常处理 的系统,监控系统具体包括数据采样信息库、监控模型库、异常处理库、网络通 信模块、数据收集模块、数据异常处理分析模块、页面展示模块,监控数据库; 被监控系统开启JMX访问端口,建立监控系统与被监控系统之间的远程访问连 接;

所述数据采样信息库,用于存放数据样本信息的仓库,被监控系统根据自身 所需从采样信息库中选择需要被监控的数据,如若数据采样信息库无法满足被监 控系统的数据需求,则由被监控系统向数据采样信息库中添加新的数据样本,数 据采样信息库会实时对新的数据样本进行保存;

所述监控模型库,用于存放所有被监控系统所对应的监控模型的仓库;经从 采样信息库中采集到监控数据后,被监控系统会根据这些数据间的结构,在监控 模型库中搜索相应的数据监控模型;如存在基于采样数据的数据监控模型,被监 控系统直接调用;如若没有,被监控系统需要自行构建新监控模型,同时将其存 入监控模型库中;

所述异常处理库,用于存放异常处理方法及流程的仓库;针对一些监控数据, 被监控系统会设定异常阀值,超出阀值的监控数据则被视为异常,不同的异常对 应不同的异常处理方式,因而阀值和异常处理方式相互绑定;当被监控系统的监 控数据超出预定的异常阀值时,被监控系统根据阀值直接从异常处理库中调用相 应的异常处理方式,在无需人工参与的情况下,自动进入异常处理流程;

所述网络通信模块,构建并管理监控系统和各个被监控系统间的网络数据传 输,维护监控系统和所有被监控系统间的正常网络通信;

所述数据收集模块,用于对监控数据的实时和定时采集;监控系统的数据采 集模块根据被监控系统所选的监控数据实施数据采集,采集范围包括被监控系统 的链路层、网络层、设备层及系统层;数据采集方式分为变频采集、主动探测、 链路管理,其中变频采集是指根据被监控系统设定的采集频率进行数据采集;主 动探测是指监控系统主动对关键数据实时采集;链路管理是对监控系统和各被监 控系统间的链路数据进行采集;

所述数据异常分析模块,用于对存在异常的监控数据进行定制化处理和记录; 数据异常分析模块对每一次采集模块输出的数据进行阀值校验,针对那些触发阀 值条件的数据,被监控系统根据阀值从异常处理库中调用相应的异常处理方式, 自动进入异常处理流程;

所述页面展示模块,用于实时统计、分析数据采集模块获取的数据、发生异 常的数据、被监控系统正常运行的数据及异常运行的数据,同时提供报表展示界 面,助于被监控系统的负责人员评估系统运行健康状况;

所述监控数据库,用于存储实时数据收集模块监控采集的数据、数据异常分 析模块采集的异常发生现场数据及数据异常分析处理的数据,是定期的监控统计 报表的数据源。

最初运行的数据采样信息库、监控模型库及异常处理库中不存在任何数据; 随着系统持续运行,数据采样信息库会不断积累不同的数据样本,监控模型库会 不断积累不同的监控模型,异常处理库也会不断积累不同的异常处理方式,具有 相同数据需求、模型需求、异常处理需求的被监控系统可直接从相应的库中调用。

一种基于JMX的定制化实时监控及自动化异常处理的方法,包括定制化数 据采集监控的方法和异常识别及自动化处理的方法;

所述定制化数据采集监控的方法,是指被监控系统根据自己需要自行选择在 运行过程中需要被特别关注的数据,监控系统会实时观测被监控系统的运行状况, 并根据设定的数据采集频率及时收集、校验监控数据,具体步骤为:

步骤1:通过为被监控系统开启JMX访问端口,建立监控系统与被监控系统 之间的远程访问连接;根据被监控系统的访问频率及其所承担的任务量,为不同 的被监控系统设置不同的数据采集频率;

其中,数据采集频率规定了监控系统每次应间隔多长时间对被监控系统的运 行数据进行采集;

监控系统通过记录被监控系统的IP地址实现对被监控系统的识别,进而形 成两者间的连接;连接方式分为主动连接和配置连接,主动连接是指监控系统定 期轮询连接到自己的IP,当发现有新的IP连接时,监控系统则认定该IP为新的 监控对象,同时添加到监控队列当中;配置连接是指通过将所有被监控系统的IP 地址写入监控系统的配置文件实现连接;

步骤2:由于不同的被监控系统对需要监控数据存在不同的需求,因而被监 控系统可根据监控需要从监控系统的数据采样信息库中检索并选择需要监控的 数据,数据定制的具体步骤包括:

步骤2-1:被监控系统确定需要监控的数据,并在数据采样信息库中搜索这 些数据;

步骤2-2:监控系统判断数据采样信息库中是否存在相应的监控数据;

步骤2-3:如果数据采样信息库中存在所需的监控数据,调用这些数据;如 果数据采样信息库中没有所需的数据,则继续执行步骤2-4;

步骤2-4:针对那些没有存储于数据采样信息库中的监控数据,监控系统向 数据采样信息库中添加缺失的数据,再从步骤2-1开始执行;

步骤3:不同的被监控系统会定制不同的监控数据,为梳理这些监控数据间 的层次结构,体现监控数据之间的关系,构建相应的数据监控模型;所有被监控 系统所构建对应的监控模型存放监控模型库;

定制化数据采集监控的方法的步骤3具体包括:

步骤3-1:根据监控数据及数据之间的结构和关系,在监控模型库搜索相应 的监控模型;

步骤3-2:监控系统判断监控模型库中是否存在被监控系统所需的监控模型;

步骤3-3:如果监控模型库中存在相应的监控模型,被监控系统调用该模型 直接作为自己的监控模型,继续执行步骤3-5;如果监控模型库中不存在相应的 监控模型,则执行步骤3-4;

步骤3-4:针对那些监控模型库中没有相匹配模型的被监控系统,监控系统 根据被监控系统的模型需求,重新构建监控模型,并将该新模型存储于监控模型 库中,然后再从步骤3-1开始执行;

步骤3-5:将被监控系统和监控模型进行绑定;

步骤4:针对监控模型中所涉及的所有数据,为对监控起关键作用的重要数 据设定异常阀值,同时设置针对异常阀值的异常处理方式,并将该异常处理方式 存储于异常处理库中;

步骤5:按照监控数据所隶属的范围,依次从链路层、网络层、设备层、系 统层上获取并保存被监控系统在实际运行过程中的实时数据;

采集方式分为主动勘测和变频采集,其中主动勘测是指数据收集模块实时获 取被监控系统运行数据,变频采集是指数据收集模块按照设定的采集频率收集定 制的监控数据;

步骤6:针对每一个被监控系统,监控系统将每一次采集得到的监控数据与 异常阀值进行校验比对,用以确认被监控系统的运行是否处于正常状态;

当监控数据未达到异常阀值时,将当前运行数据直接记录入库;

当监控数据达到异常阀值时,监控系统记录阀值的发生时间、主机信息及应 用信息;同时根据异常的监控数据隶属的监控模型,定位异常发生处;

所述异常识别及自动化处理的方法,是指当被监控系统在运行过程中出现异 常时,监控系统无需将所有异常问题都发送给运维人员,等待人工处理;而是经 异常分析确认异常原因及异常严重性,并自动调用监控系统内的异常处理方式, 直接对异常做出相应处理,具体步骤为:

步骤6-1:针对监控数据达到异常阀值的被监控系统,异常分析模块通过计 算被监控系统运行时在监控数据上的数值超出阀值的范围判断异常的严重性,通 过依据监控数据隶属监控模型的维度判定异常产生起因,同时记录本次异常的发 生时间、所属的应用系统、发生的主机;

步骤6-2:根据阀值、阀值超出范围在异常处理库中搜索对之对应的异常处 理方式;

步骤6-3:针对在监控系统内能搜寻到异常处理方式的异常,直接从异常处 理库中调用异常处理方式,作用于异常对象;针对在监控系统内不能搜寻到异常 处理方式的异常,监控系统应及时告知被监控系统,待被监控系统向异常处理库 中添加异常处理方式后再对异常进行处理;

步骤6-4:状态入库:异常对象处理完毕后,监控系统需要将异常的现场数 据和异常处理的结果信息记录入监控系统的数据库中,用以后期对被监控系统的 整体运行状态做异常评估;

所述异常的现场数据,指包括异常发生的时间、异常发生的应用、异常发生 的主机、异常名称、异常处理方式、异常处理用时;

步骤6-5:监控系统实时更新数据库内各个被监控系统的正常运行数据、异 常运行及处理数据,并对监控数据、异常处理做不同维度的统计展现。

监控系统监控的数据范围分布在系统层、设备层、网络层、链路层;其中系统层 涵盖被监控系统的运行数据;设备层涵盖被监控系统所在主机的硬件配置数据; 网络层涵盖被监控系统当前网络运行状况的数据;链路层涵盖监控系统和被监控 系统之间链路连接状况的数据;

具体地,监控模型是一种多维的数据结构,每一层维度都是对上一层维度的 细化,下一层维度的数据隶属于上一层维度的数据,监控模型方便于异常发生时 准确定位异常来源;

所述异常阀值,是判定被监控系统是否出现异常的条件;当监控数据达到指 定的异常阀值时,被监控系统被视为出现异常,一方面可根据监控数据超出阀值 的范围判断异常的严重性;另一方面可根据监控数据定位异常发生处及异常发生 原因;

特别地,异常阀值的设定是可选择的,并且相同的异常处理方式不进行二次 存储;每一个异常阀值及阀值超出范围均与异常处理库中的异常处理方式相互对 应。

本发明与现有技术相比,其有益效果:

(1)本发明提供被监控系统对监控数据的自主选择,被监控系统能根据自 身的运行需要自行定义监控的数据对象和监控细节,通过区分运行过程中的关键 数据和非关键数据,重点对关键数据进行关注,有利于提高监控的工作效率;

(2)本发明通过构建数据采样信息库、监控模型库,被监控系统能直接从 库中调用数据对象和模型对象,减少通过修改配置文件创建监控对象带来的重复 工作,实现被监控系统对监控数据及模型的管理和复用;通过构建异常处理库, 被监控系统能直接从库中调用异常处理方式匹配异常问题,减少为应对不同系统 的同一异常处理需要而进行的重复工作,实现被监控系统对异常处理方式的管理 和复用,提高异常处理的可复用性及可配置性;

(3)本发明提供自定义异常阀值与异常处理方式之间的对应关系,方便被 监控系统根据实际异常处理情况,通过设定或修改阀值控制异常处理方式在异常 发生时的自动化调用,减少异常处理过程中的人工参与,将原始的被动处理转变 为主动处理,提高异常处理的灵活性,加速定位异常的速度,缩短故障恢复时间, 确保系统运行的稳定性。

附图说明

图1为本发明实施例的基于JMX的定制化实时监控及自动化异常处理的系 统结构图;

图2为本发明实施例中定制化数据采集监控的方法实现流程图;

图3为本发明实施例中监控模型构建流程图;

图4为本发明实施例中异常识别及自动化处理的方法。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例, 并参照附图,对本发明进一步详细说明。

如图1所示,为本发明实施例中一种基于JMX的可订阅化实时监控及异常 自动化处理的系统,包括以下几个部分:数据采样信息库101、监控模型库102、 异常处理库103、网络通信模块104、数据收集模块105、数据异常处理分析模 块106、页面展示模块107。

所述数据采样信息库101,指用于存放数据样本信息的仓库,被监控系统根 据自身所需从采样信息库中选择需要被监控的数据,如若采样信息库无法满足被 监控系统的数据需求,则由被监控系统向采样信息库中添加新的数据样本,采样 信息库会实时对新的数据样本进行保存;

最初数据采样信息库中不存在任何数据,伴随着系统持续运行,数据采样信 息库中会不断积累数据样本,以避免具有相同数据采集需求的被监控系统重复新 建数据样本;

所述监控模型库102,指用于存放所有被监控系统所对应的监控模型的仓库; 经从采样信息库中采集到监控数据后,被监控系统会根据这些数据间的结构,在 监控模型库中搜索相应的数据监控模型,如存在基于采样数据的数据监控模型, 被监控系统直接调用;如若没有,被监控系统需要自行构建新监控模型,同时将 其存入监控模型库中;

所述异常处理库103,指用于存放异常处理方法及流程的仓库;针对一些关 键的监控数据,被监控系统会设定异常阀值,超出阀值的监控数据则被视为异常, 不同的异常对应不同的异常处理方式,因而阀值和异常处理方式相互绑定;当被 监控系统的监控数据超出预定的异常阀值时,被监控系统根据阀值直接从异常处 理库中调用相应的异常处理方式,在无需人工参与的情况下,自动进入异常处理 流程;

最初的异常处理库中不存在任何异常处理的方法,随着系统持续运行,异常 处理库会不断积累异常处理方式供被监控系统选择,而无需再由被监控系统重新 建立;

所述网络通信模块104,指用构建并管理监控系统和各个被监控系统间的网 络数据传输,维护监控系统和所有被监控系统间的正常网络通信;实时监控和异 常处理的实现都建立于监控系统和被监控系统的正常通信情景下;

所述数据收集模块105,用于负责对监控数据的实时和定时采集;监控系统 的数据采集模块根据被监控系统所选的监控数据实施数据采集,采集范围包括被 监控系统的链路层、网络层、设备层及系统层;数据采集方式分为变频采集、主 动探测、链路管理,其中变频采集是指根据被监控系统设定的采集频率进行数据 采集;主动探测是指监控系统主动对关键数据实时采集;链路管理是对监控系统 和各被监控系统间的链路数据进行采集;

所述数据异常分析模块106,用于负责对存在异常的监控数据进行定制化处 理和记录;数据异常分析模块对每一次采集模块输出的数据进行阀值校验,针对 那些触发阀值条件的数据,被监控系统根据阀值从异常处理库中调用相应的异常 处理方式,自动进入异常处理流程;

所述页面展示模块107,用于实时统计、分析数据采集模块获取的数据、发 生异常的数据、被监控系统正常运行的数据及异常运行的数据,同时提供可视化 报表展示界面,助于被监控系统的负责人员评估系统运行健康状况。

所述监控数据库108,用于存储实时监控采集的数据、异常发生现场数据及 异常处理数据,是定期的监控统计报表的数据源。

本发明实施例中还涉及一种基于JMX的定制化实时监控及自动化异常处理 的方法,包括定制化数据采集监控的方法和异常识别及自动化处理的方法;

如图2所示,为本发明实施例中定制化数据采集监控的方法,它是指被监控 系统可根据自己需要自行选择在运行过程中需要被特别关注的数据,监控系统会 实时观测被监控系统的运行状况,并根据设定的数据采集频率及时收集、校验监 控数据,具体步骤为:

通过为被监控系统开启JMX访问端口,建立监控系统与被监控系统之间的 远程访问连接;根据被监控系统的访问频率及其所承担的任务量,为不同的被监 控系统设置不同的数据采集频率;其中,数据采集频率规定了监控系统每次应间 隔多长时间对被监控系统的运行数据进行采集;

监控系统通过记录被监控系统的IP地址实现对被监控系统的识别,进而形 成两者间的连接;连接方式分为主动连接和配置连接,主动连接是指监控系统定 期轮询连接到自己的IP,当发现有新的IP连接时,监控系统则认定该IP为新的 监控对象,同时添加到监控队列当中;配置连接是指通过将所有被监控系统的IP 地址写入监控系统的配置文件实现连接;

步骤202:由于不同的被监控系统对需要监控数据存在不同的需求,因而被 监控系统可根据监控需要从数据采样信息库中检索并选择需要监控的数据,数据 定制的具体步骤包括:

步骤202-1:被监控系统确定需要监控的数据,并在数据采样信息库中搜索 这些数据;

步骤202-2:监控系统判断数据采样信息库中是否存在相应的监控数据;

步骤202-3:如果数据采样信息库中存在所需的监控数据,调用这些数据; 如果数据采样信息库中没有所需的数据,则继续执行步骤2-4;

步骤202-4:针对那些没有存储于数据采样信息库中的监控数据,监控系统 向数据采样信息库中添加缺失的数据,再从步骤202-1开始执行;

监控系统监控的数据范围分布在系统层、设备层、网络层、链路层;其中系 统层涵盖被监控系统的运行数据;设备层涵盖被监控系统所在主机的硬件配置数 据;网络层涵盖被监控系统当前网络运行状况的数据;链路层涵盖监控系统和被 监控系统之间链路连接状况的数据;

特别地,监控系统初次使用时,数据采样信息库内不存在任何数据样本,随 着监控系统长期运行,不断积累监控过程中需要的关键数据,以避免不同监控系 统具有相同监控数据需要时,无需再重新创建数据;

步骤203:不同的被监控系统会定制不同的监控数据,为梳理这些监控数据 间的层次结构,体现监控数据之间的关系,应构建相应的数据监控模型’

具体地,监控模型是一种多维的数据结构,每一层维度都是对上一层维度的 细化,下一层维度的数据隶属于上一层维度的数据,监控模型方便于异常发生时 准确定位异常来源;

比如:某一个监控模型Y如下所示:

具体的模型构建流程参阅图3所示:

现有被监控系统X,需要定制的监控数据分别是数据A、B、B’、C和数据A’, 其中数据A、B、B’、C已存储于数据采样信息库中,相应地,基于数据A、B、B’、 C之间结构关系的监控模型也已存储于监控模型库中,即监控模型X={A,B{B’}, C},当前被监控系统X构建基于数据A、B、B’、C和A’之间结构关系的监控模型 涉及如下步骤:

步骤301:被监控系统从数据采样信息库中调用数据A、B、B’、C、A’,识 别数据之间的结构关系,即数据A、数据B和数据C相互独立,数据B’属于数据 B,数据A’属于数据A;

步骤302:根据数据间的结构关系,确定需要构建的数据监控模型X,即监 控模型X={A{A’},B{B’},C};

步骤303:搜索监控模型库,判断监控模型库中是否存在与监控模型X一致 的模型;

步骤304:经搜索发现,监控模型库中不存在与监控模型X一致的模型,被 监控系统按照自己的模型需求,新建监控模型X’={A{A’},B{B’},C};

步骤305:被监控系统将新建的监控模型X’存入监控模型库中;

步骤306:再次搜索监控模型库,找到新建的监控模型X’,对其进行调用;

步骤307:将被监控系统X和监控模型X’进行绑定;

步骤204:针对监控模型中所涉及的所有数据,为对监控起关键作用的重要 数据设定异常阀值,同时设置针对异常阀值的异常处理方式,并将该异常处理方 式存储于异常处理库中;

所述异常阀值,是判定被监控系统是否出现异常的条件;当监控数据达到指 定的异常阀值时,被监控系统被视为出现异常,一方面可根据监控数据超出阀值 的范围判断异常的严重性;另一方面可根据监控数据定位异常发生处及异常发生 原因;

特别地,异常阀值的设定是可选择的,并且相同的异常处理方式不进行二次 存储;

步骤205:按照监控数据所隶属的范围,依次从链路层、网络层、设备层、 系统层上获取并保存被监控系统在实际运行过程中的实时数据;

具体流程包括:

步骤205-1:数据收集模块获取有关被监控系统与监控系统连接管理情况的 数据;

步骤205-2:数据收集模块实时主动获取被监控系统运行状态的数据;

步骤205-3:数据收集模块按照数据采集频率收集在某个时间点上被监控系 统运行数据;

步骤206:针对每一个被监控系统,监控系统将每一次采集得到的监控数据 与异常阀值进行校验比对,用以确认被监控系统的运行是否处于正常状态;

当监控数据未达到异常阀值时,将当前运行数据直接记录入库;

当监控数据达到异常阀值时,监控系统记录阀值的发生时间、主机信息及应 用信息;同时根据异常的监控数据隶属的监控模型,定位异常发生处。

如图4所示,为本发明实施例中异常识别及自动化处理的方法,它是指当被 监控系统在运行过程中出现异常时,监控系统无需将所有异常问题都发送给运维 人员,等待人工处理;而是经异常分析确认异常原因及异常严重性,并自动调用 监控系统内的异常处理方式,直接对异常做出相应处理,具体步骤为:

步骤401:针对监控数据达到异常阀值的被监控系统,异常分析模块通过计 算被监控系统运行时在监控数据上的数值超出阀值的范围判断异常的严重性,通 过依据监控数据隶属监控模型的维度判定异常产生起因,同时记录本次异常的发 生时间、所属的应用系统、发生的主机;

步骤402:根据阀值、阀值超出范围在异常处理库中搜索对之对应的异常处 理方式;

步骤403:针对在监控系统内能搜寻到异常处理方式的异常,直接从异常处 理库中调用异常处理方式,作用于异常对象;针对在监控系统内不能搜寻到异常 处理方式的异常,监控系统应及时告知被监控系统,待被监控系统向异常处理库 中添加异常处理方式后再对异常进行处理;

步骤404:状态入库:异常对象处理完毕后,监控系统需要将异常的现场数 据和异常处理的结果信息记录入监控系统的数据库中,用以后期对被监控系统的 整体运行状态做异常评估;

所述异常的现场数据,指包括异常发生的时间、异常发生的应用、异常发生 的主机、异常名称、异常处理方式、异常处理用时;

步骤405:监控系统实时更新数据库内各个被监控系统的正常运行数据、异 常运行及处理数据,并对监控数据、异常处理做不同维度的统计及可视化展现, 本发明实施例中监控数据运行曲线图中也明显给出了这种统计及可视化展现。

所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已, 并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替 换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号