首页> 中国专利> 管理事故池以进行事件和警报分析的方法和系统

管理事故池以进行事件和警报分析的方法和系统

摘要

本发明涉及一种管理事故池以进行事件和警报分析的方法和系统。管理事故池包括创建事故池,所述池具有预定初始时段;将每个接收的事故分配到所述池;由事故分析器向每个事故分配包含在池中的预定最短时间;对于所述事故中的一个或多个事故,将所述池的所述预定初始时段延长被分配给所述事故的特定时段;判定是否满足关闭所述池的条件;以及如果满足关闭所述池的条件,则针对所述池中的每个事故判定该事故是否已在所述池中达到该事故的包含在池中的预定最短时间;以及如果该事故未在所述池中达到该事故的预定最短时间,则从关闭后的池驱逐该事故并将该事故包括在下一池中。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-07-02

    授权

    授权

  • 2012-09-19

    实质审查的生效 IPC(主分类):G06F11/00 申请日:20111101

    实质审查的生效

  • 2012-07-18

    公开

    公开

说明书

技术领域

本发明涉及数据处理,更具体地说,涉及在分布式处理系统中与事件 和警报抑制有关的相关警报传送以及管理事故池以进行事件和警报分析的 方法、系统和产品。

背景技术

1948年EDVAC计算机系统的开发通常被认为是计算机时代的开始。 从此之后,计算机系统逐渐演变为非常复杂的设备。今天的计算机比诸如 EDVAC之类的早期系统要复杂的多。计算机系统一般由硬件组件及软件 组件、应用程序、操作系统、处理器、总线、存储器、输入/输出设备等组 合而成。由于半导体工艺和计算机体系结构的发展促使计算机的性能不断 提高,因此开发了更复杂的计算机软件以充分利用更高的硬件系统性能, 从而使得今天的计算机系统比仅仅几年前的系统功能强大得多。

执行密集计算的现代分布式处理系统可具有数百万的设备,每个设备 上有许多进程在运行,所有这些进程都能报告错误和状态以自动恢复错误、 向系统管理员报告以及执行其他任务。在许多情况下,例如当出现错误时, 此类错误报告和状态报告的绝对数量如此之大,以致于无法通过有意义的 方式来处理。例如,收到几十万个错误报告的系统管理员会被这么多的报 告弄得不知所措,因此总地来说,这些报告变得越来越无用和无关。

发明内容

提供了在分布式处理系统中管理事故池以进行事件和警报分析的方 法、系统和计算机程序产品,包括:由事故分析器从事故队列接收来自所 述分布式处理系统的一个或多个组件的多个事故;由所述事故分析器创建 事故池,所述池具有预定初始时段;由所述事故分析器将每个接收的事故 分配到所述池;由所述事故分析器向每个事故分配包含在池中的预定最短 时间;对于所述事故中的一个或多个事故,由所述事故分析器将所述池的 所述预定初始时段延长被分配给所述事故的特定时段;由所述事故分析器 判定是否满足关闭所述池的条件;以及如果满足关闭所述池的条件,则针 对所述池中的每个事故判定该事故是否已在所述池中达到该事故的包含在 池中的预定最短时间;以及如果该事故已在所述池中达到该事故的预定最 短时间,则将该事故包括在关闭后的池中;以及如果该事故未在所述池中 达到该事故的预定最短时间,则从关闭后的池驱逐该事故并将该事故包括 在下一池中。

通过下面对附图中所示的本发明的示例性实施例的更具体的描述,本 发明的上述和其他目标、特征和优点将是显而易见的,在附图中,相同的 标号通常表示本发明的示例性实施例的相同部分。

附图说明

图1示出根据本发明的实施例的在分布式处理系统中通过事件和警报 抑制实现相关警报传送的示例性系统;

图2示出包括在根据本发明的实施例通过事件和警报抑制实现相关警 报传送中使用的示例性计算机的自动计算机器的方块图;

图3示出根据本发明的实施例的在分布式处理系统中通过事件和警报 抑制实现相关警报传送的示例性系统的方块图;

图4是示出根据本发明的实施例的将事件分配到事件池的示意图;

图5是示出根据本发明的实施例的将警报分配到警报池的示意图;

图6是示出根据本发明的实施例的通过事件和警报抑制实现相关警报 传送的实例方法的流程图;

图7是示出根据本发明的实施例的在分布式处理系统中管理事故池以 进行事件和警报分析的示例性方法的流程图;

图8是示出根据本发明的实施例的在分布式处理系统中管理事故池以 进行事件和警报分析的附加方法的流程图;以及

图9是示出根据本发明的实施例的在分布式处理系统中管理事故池以 进行事件和警报分析的附加方法的流程图。

具体实施方式

参考从图1开始的附图描述了根据本发明的实施例在分布式处理系统 中管理事故池以进行事件和警报分析以及相关警报传送的示例性方法、系 统和计算机程序产品。图1示出根据本发明的实施例的在分布式处理系统 中管理事故池以进行事件和警报分析以及相关警报传送的示例性系统。分 布式处理系统通常实现为多个通过计算机网络通信的自主或半自主计算 机。在此类实例分布式处理系统中,计算机经常彼此交互以便实现共同的 目标。此类实例分布式系统中运行的计算机程序一般被称为分布式程序, 经常使用分布式编程来描述编写此类程序的过程。

在图1的实例中,分布式处理系统(101)实现为并行计算机(100), 所述计算机的非易失性存储器采取数据存储设备(118)的形式,所述计算 机的输出设备采取打印机(120)的形式,以及所述计算机的输入/输出设 备采取计算机终端(122)的形式。图1的实例中的并行计算机(100)还 包括多个计算节点(102)。每个计算节点是包括一个或多个计算机处理器、 其自己的计算机存储器以及其自己的输入/输出功能的自动计算设备。各计 算节点(102)被耦合以通过包括高速以太网络(174)、联合测试行动小 组(‘JTAG’)网络(104)、针对集合操作优化的树状网络(106)以 及针对点对点操作优化的环状网络(108)的若干独立数据通信网络进行数 据通信。树状网络(106)是包括与计算节点相连以将所述计算节点组织为 树的数据通信链路的数据通信网络。每个数据通信网络都通过计算节点 (102)之间的数据通信链路来实现。数据通信链路为并行计算机的计算节 点之间的并行操作提供数据通信。除了计算节点以外,计算机(100)还包 括通过数据通信网络(174)之一与计算节点(102)相连的输入/输出(‘I/O’) 节点(110、114)。I/O节点(110、114)在计算节点(102)与I/O设备 (118、120、122)之间提供I/O服务。I/O节点(110、114)被连接以通 过局域网(‘LAN’)(130)进行数据通信。计算机(100)还包括通过 网络(104)之一与计算节点耦合的服务节点(116)。服务节点(116)提 供对多个计算节点通用的服务、将程序载入计算节点、在计算节点上启动 程序执行、在计算节点上检索程序操作的结果等。服务节点(116)运行服 务应用(124)并通过在计算机终端(122)上运行的服务应用接口(126) 与用户(128)通信。

图1的分布式处理系统的许多组件(即,图1的分布式处理系统的设 备或在分布式处理系统的设备上运行的进程)能够通过事件执行某种形式 的错误或状态报告并且许多此类组件还能够响应于一个或多个此类事件而 接收警报。通常在根据本发明的实施例使用的分布式处理系统中,数十万 或数百万的组件通常可以以事件的形式提供事故或接收警报。

本说明书中使用的通用术语“事故”指分布式处理系统的某个组件的 诸如下面描述的事件之类的特定事件的识别或通知,事件的精细识别经常 基于诸如下面描述的警报之类的事件,或者本领域的技术人员将想到的其 他通知。

根据本发明的各实施例,在池中管理事故以便进行事件和警报分析。 事故池是按事故发生的时间、事故被记录在事故队列中的时间、包括在池 中的时间,或本领域的技术人员将想到的其他时间来组织的事故集合。

图1的服务节点(116)上安装有事件和警报分析模块(124),模块 (124)包括至少两个事故分析器,所述事故分析器实现为能够根据本发明 的实施例在分布式处理系统中管理事故池以进行事件和警报分析的事件分 析器和警报分析器。事件和警报分析模块(124)实现为能够执行以下操作 的自动计算机器:接收来自分布式处理系统的一个或多个组件的多个事故; 创建事故池,所述池具有预定初始时段;将每个接收的事故分配到池;向 每个事故分配包含在池中的预定最短时间;对于所述事故中的一个或多个 事故,将所述池的所述预定初始时段延长被分配给所述事故的特定时段; 判定是否满足关闭所述池的条件;以及如果满足关闭所述池的条件,则针 对所述池中的每个事故判定该事故是否已在所述池中达到该事故的包含在 池中的预定最短时间;以及如果该事故已在所述池中达到该事故的预定最 短时间,则将该事故包括在关闭后的池中;以及如果该事故未在所述池中 达到该事故的预定最短时间,则从关闭后的池驱逐该事故并将该事故包括 在下一池中。

事件和警报分析模块(124)还能够根据本发明的实施例在分布式处理 系统中通过事件和警报抑制实现相关警报传送。图1的事件和警报分析模 块(124)实现为能够执行以下操作的自动计算机器:在事件队列中接收来 自分布式处理系统的一个或多个组件的多个事件;由事件分析器将每个接 收的事件分配到事件池;其中所述事件分析器包括事件分析规则,所述事 件分析规则包括事件到达规则、事件池操作规则、事件抑制规则以及事件 池关闭规则;由所述事件分析器根据所述事件到达规则和分配到所述事件 池的事件识别一个或多个警报;由所述事件分析器根据所述事件池操作规 则关闭所述事件池;由所述事件分析器根据所述事件抑制规则判定是否抑 制关闭后的事件池中的一个或多个事件;以及由所述事件分析器根据所述 事件池关闭规则和分配到所述事件池的任何未抑制事件识别一个或多个其 他警报;由所述事件分析器将所述事件分析器所识别的所有警报发送给警 报分析器;由所述警报分析器将所识别的警报分配到警报池;由所述警报 分析器根据警报分析规则和所述警报池中的警报判定是否抑制任何警报; 以及将未抑制的警报传输到所述分布式处理系统的一个或多个组件。

在某些实施例中,将未抑制的警报传输到分布式处理系统的一个或多 个组件。一个此类组件可以是向系统管理员进行显示的终端(122)。其他 组件可以包括生成事件的组件、用于错误报告的组件、用于自动错误恢复 的组件或本领域的技术人员将想到的任何其他组件。

图1的事件和警报模块(124)使得诸如在任何时刻接收的事件和产生 的警报之类的事故数不会给尝试识别分布式处理系统中的问题或事件的系 统管理员(128)带来太大困扰。根据本发明的实施例管理事故池以进行事 件和警报分析以及通过事件和警报抑制实现相关警报传送提供了用户在确 定如何管理与分布式处理系统关联的功能和错误中更有意义的警报。

图1中所示的构成示例性分布式处理系统的节点、网络和I/O设备的 布置仅用于说明,并非对本发明进行限制。能够根据本发明的实施例管理 事故池以进行事件和警报分析以及实现相关警报传送的分布式数据处理系 统可以包括图1中未示出的本领域技术人员将想到的其他节点、网络、设 备和体系结构。图1的实例中的并行计算机(100)包括十六个计算节点 (102);能够根据本发明的实施例实现相关警报传送的并行计算机有时包 括数以千计的计算节点。除了以太网和JTAG之外,此类数据处理系统中 的网络还可支持许多数据通信协议,包括例如TCP(传输控制协议)、IP (网际协议)以及本领域的技术人员将想到的其他协议。除图1中示出的 那些平台以外,本发明的各种实施例还可以在多种硬件平台上实现。

根据本发明管理事故池以进行事件和警报分析以及通过事件和警报抑 制实现相关警报传送一般使用计算机实现,也就是说,使用自动计算机器 实现。在图1的系统中,例如,并行计算机的所有服务节点、I/O节点、 计算节点在某种程度上至少实现为计算机。因此,为了进一步说明,图2 示出包括在根据本发明的实施例实现相关警报传送中使用的示例性计算机 (152)的自动计算机器的方块图。图2的计算机(152)包括至少一个计 算机处理器(156)或‘CPU’以及随机存取存储器(168)(‘RAM’), 随机存取存储器(168)通过高速存储总线(166)和总线适配器(158)与 处理器(156)和计算机(152)的其他组件相连,以及通过扩展总线与适 配器相连以便与分布式处理系统(101)的其他组件通信。

RAM(168)中存储有事件和警报分析模块(124),模块(124)是 根据本发明的实施例实现相关警报传送的自动计算机器的模块。事件和警 报分析模块(124)包括两个根据本发明的实施例的事故分析器。所述事故 分析器包括事件分析器(208)和警报分析器(218)。事件分析器(208) 和警报分析器均能够根据本发明的实施例在分布式处理系统中管理事故池 以进行事件和警报分析。所述事件分析器根据本发明的实施例管理事件池, 其方式为:由所述事件分析器从事件队列接收来自所述分布式处理系统的 一个或多个组件的多个事件;由所述事件分析器创建事件池,所述池具有 预定初始时段;由所述事件分析器将每个接收的事件分配到所述池;由所 述事件分析器向每个事件分配包含在池中的预定最短时间;对于所述事件 中的一个或多个事件,由所述事件分析器将所述池的所述预定初始时段延 长被分配给所述事件的特定时段;由所述事件分析器判定是否满足关闭所 述池的条件;以及如果满足关闭所述池的条件,则针对所述池中的每个事 件判定该事件是否已在所述池中达到该事件的包含在池中的预定最短时 间;以及如果该事件已在所述池中达到该事件的预定最短时间,则将该事 件包括在关闭后的池中;以及如果该事件未在所述池中达到该事件的预定 最短时间,则从所述关闭后的池驱逐该事件并将该事件包括在下一池中。

所述警报分析器根据本发明的实施例管理警报池,其方式为:由警报 分析器从警报队列接收来自分布式处理系统的一个或多个组件的多个警 报;由所述警报分析器创建警报池,所述池具有预定初始时段;由所述警 报分析器将每个接收的警报分配到所述池;由所述警报分析器向每个警报 分配包含在池中的预定最短时间;对于所述警报中的一个或多个警报,由 所述警报分析器将所述池的所述预定初始时段延长被分配给所述警报的特 定时段;由所述警报分析器判定是否满足关闭所述池的条件;以及如果满 足关闭所述池的条件,则针对所述池中的每个警报判定该警报是否已在所 述池中达到该警报的包含在池中的预定最短时间;以及如果该警报已在所 述池中达到该警报的预定最短时间,则将该警报包括在关闭后的池中;以 及如果该警报未在所述池中达到该警报的预定最短时间,则从关闭后的池 驱逐该警报并将该警报包括在下一池中。

图2的事件分析器是能够根据接收的事件识别警报的自动计算机器的 模块。也就是说,事件分析器通常接收事件并产生警报。在许多实施例中, 并行实现多个事件分析器。通常将此类事件分析器分配给特定的事件池并 且此类事件分析器可关注来自特定组件或由特定事件导致的事件以产生更 简洁的警报集。

图2的警报分析器是能够识别从事件和其他警报传输的警报、能够识 别要传输的其他警报,以及能够抑制事件分析器所识别的不必要的、无关 的或不需要的警报的自动计算机器的模块。也就是说,警报分析器一般接 收警报和事件并根据这些警报和事件产生或转发警报。在许多实施例中, 并行实现多个警报分析器。通常将此类警报分析器分配给特定的警报池并 且此类警报分析器可关注具有特定属性的警报以产生更简洁的警报集。

图2的事件和警报分析模块(124)包括执行以下操作的计算机程序指 令:在事件队列中接收来自分布式处理系统(101)的一个或多个组件(例 如,100、182、181、180和170)的多个事件;由事件分析器(208)将每 个接收的事件分配到事件池;由事件分析器(208)根据事件到达规则和分 配到所述事件池的事件识别一个或多个警报;由事件分析器(208)根据事 件池操作规则关闭所述事件池;由事件分析器(208)根据事件抑制规则判 定是否抑制关闭后的事件池中的一个或多个事件;由事件分析器(208)根 据事件池关闭规则和分配到所述事件池的任何未抑制事件识别一个或多个 其他警报;由事件分析器(208)将事件分析器所识别的所有警报发送给警 报分析器(218);由警报分析器(218)将所识别的警报分配到警报池; 由警报分析器(218)根据警报分析规则和警报池中的警报判定是否抑制任 何警报;以及将未抑制的警报传输(420)到分布式处理系统的一个或多个 组件。

RAM(168)中还存储有操作系统(154)。用于根据本发明的实施例 实现相关警报传送的操作系统包括UNIXTM、LinuxTM、Microsoft XPTM、 AIXTM、IBM的i5/OSTM以及本领域的技术人员将想到的其他操作系统。 图2的实例中的操作系统(154)、事件和警报分析模块(124)、事件分 析器(208)、警报分析器(218)被示为位于RAM(168)中,但是此类 软件的许多组件一般也存储在非易失性存储器中,例如,存储在盘驱动器 (170)上。

图2的计算机(152)包括通过扩展总线(160)和总线适配器(158) 与处理器(156)以及计算机(152)的其他组件相连的盘驱动器适配器(172)。 盘驱动器适配器(172)以盘驱动器(170)的形式将非易失性数据存储装 置连接到计算机(152)。在计算机中用于根据本发明的实施例实现相关警 报传送的盘驱动器适配器包括集成驱动电子设备(‘IDE’)适配器、小 型计算机系统接口(‘SCSI’)适配器以及本领域的技术人员将想到的其 他适配器。非易失性计算机存储器还可以实现为本领域的技术人员将想到 的光盘驱动器、电可擦写可编程只读存储器(所谓的“EEPROM”或闪存)、 RAM驱动器等。

图2的实例计算机(152)包括一个或多个输入/输出(‘I/O’)适配 器(178)。I/O适配器通过例如控制到诸如计算机显示屏之类的显示设备 的输出以及控制来自诸如键盘和鼠标之类的输入设备(181)的用户输入的 软件驱动器和计算机硬件来实现面向用户的输入/输出。图2的实例计算机 (152)包括视频适配器(209),适配器(209)是专门设计为将图形输出 到诸如显示屏或计算机监视器之类的显示设备(180)的I/O适配器的实例。 视频适配器(209)通过高速视频总线(164)、总线适配器(158)以及前 端总线(162)(也称为高速总线)与处理器(156)相连。

图2的示例性计算机(152)包括用于与其他计算机(182)进行数据 通信以及用于与数据通信网络(100)进行数据通信的通信适配器(167)。 此类数据通信可以通过RS-232连接、通过诸如通用串行总线(‘USB’) 之类的外部总线串行地执行、通过诸如IP数据通信网络之类的数据通信网 络以及本领域的技术人员将想到的其他方式执行。通信适配器实现硬件级 数据通信,通过此硬件级数据通信,一台计算机可以直接地或通过数据通 信网络将数据通信发送给另一计算机。用于根据本发明的实施例实现相关 警报传送的通信适配器实例包括用于有线拨号通信的调制解调器、用于有 线数据通信网络通信的以太网(IEEE 802.3)适配器,以及用于无线数据 通信网络通信的802.11适配器。

为了进一步说明,图3示出根据本发明的实施例在分布式处理系统 (102)中管理事故池以进行事件和警报分析以及实现相关警报传送的示例 性系统的方块图。图4的方法包括在事件队列(206)中接收来自分布式处 理系统(102)的一个或多个组件的多个事件(202)。根据本发明的实施 例的分布式处理系统的组件可以是分布式处理系统的设备或在分布式处理 系统的设备上运行的进程。此类组件通常能够进行某种形式的事件传输, 以便执行错误或状态报告。

根据本发明的实施例的事件是分布式处理系统的组件上或组件中的特 定事件的通知。根据本发明,将此类事件从发生该事件的组件或另一报告 组件发送到事件和警报分析模块。事件通常是数据处理系统的组件中发生 的错误的通知。事件经常实现为通过数据通信网络或共享存储器发送的消 息。根据本发明的实施例的用于事件和警报分析的典型事件具有发生时间、 记录时间、事件类型、事件ID、报告组件、源组件以及其他属性。发生时 间是组件上发生事件的时间。记录时间是将事件包括在事件队列(206)中 的时间,通常由图3的实例中的监视器(204)插入事件内。事件类型是事 件的通用类型,例如电源错误、链路故障错误、与未收到消息或丢弃分组 相关的错误以及本领域的技术人员将想到的其他错误。事件ID是事件的 唯一标识。报告组件是报告该事件的组件的标识。源组件是发生事件的组 件的标识。在许多情况下(但不是全部),报告组件和源组件是分布式处 理系统的同一组件。

在图3的实例中,事件和警报分析模块(124)包括接收来自分布式处 理系统的组件的事件以及将接收的事件(202)放入事件队列(206)的监 视器(204)。图3的监视器(204)可以在事件运动中接收来自分布式处 理系统的组件的事件、可以定期轮询分布式处理系统的一个或多个组件, 或者以本领域的技术人员将想到的其他方式接收来自组件的事件。

图3的系统包括事件分析器(208)。图3的事件分析器(208)是能 够根据接收的事件识别警报的自动计算机器的模块。也就是说,事件分析 器通常接收事件并产生警报。在许多实施例中,并行实现多个事件分析器。 通常将事件分析器分配给特定的事件池并且此类事件分析器可关注来自特 定组件或由特定事件导致的事件以产生更简洁的警报集。

图3的事件分析器(208)将每个接收的事件(202)分配到事件池(212)。 事件池(212)是按事件发生的时间、事件被记录在事件队列中的时间、包 括在事件池中的时间或本领域的技术人员将想到的其他时间来组织的事件 集合。也就是说,事件池是按时间组织的事件集合。此类事件池经常提供 分析一组与时间相关的事件以及根据所述事件识别警报的能力。此类事件 池经常用于根据多个相关的事件识别更少和更多的相关警报。

根据本发明的各实施例,事件池(212)由事件分析器(208)来管理。 事件分析器根据本发明的实施例管理事件池,其方式为:由事件分析器从 事件队列接收来自分布式处理系统的一个或多个组件的多个事件;由事件 分析器创建事件池,所述池具有预定初始时段;由事件分析器将每个接收 的事件分配到所述池;由事件分析器向每个事件分配包含在池中的预定最 短时间;对于所述事件中的一个或多个事件,由事件分析器将所述池的所 述预定初始时段延长被分配给所述事件的特定时段;由事件分析器判定是 否满足关闭所述池的条件;以及如果满足关闭所述池的条件,则针对所述 池中的每个事件判定该事件是否已在所述池中达到该事件的包含在池中的 预定最短时间;以及如果该事件已在所述池中达到该事件的预定最短时间, 则将该事件包括在关闭后的池中;以及如果该事件未在所述池中达到该事 件的预定最短时间,则从关闭后的池驱逐该事件并将该事件包括在下一池 中。

如上所述,根据图3的方法的事件池具有预定初始时段,并且在图3 的实例中,由事件分析器将每个接收的事件分配到事件池包括:对于分配 到事件池的每个事件,将所述预定初始时段延长分配给该事件的特定时段。 通过这种方式,使用每个接收的事件延长池,直到将可用于识别警报的事 件集合分配到事件池。

如上所述,在本发明的某些实施例中,多个事件分析器可以并行工作。 这样,每个事件分析器可以维护一个或多个事件池以根据本发明的实施例 实现相关警报传送。因此,由事件分析器将事件分配到事件池可包括仅选 择来自一个或多个特定组件的事件。在此类实施例中,可针对特定事件池 选择特定组件以提供来自一个或多个组件的特定集合的与特定时段关联的 事件。

由事件分析器将事件分配到事件池还可以通过仅选择具有特定事件类 型的事件来实现。在此类实施例中,可以针对特定事件池选择特定事件以 提供来自特定事件类型集合的与特定时段关联的事件。

图3的实例中的事件分析器(208)根据事件分析规则(210)和分配 到事件池的事件识别一个或多个警报(214)。事件分析规则(210)是用 于有目的地分析接收的事件以根据所述事件识别相关警报的预定规则集 合。

图3的事件分析规则(210)包括事件到达规则(230)、事件池操作 规则(232)、事件抑制规则(234)以及事件池关闭规则(236)。事件到 达规则(230)是用于在事件被分配到事件池时根据所述事件实时识别警报 的可配置预定规则。也就是说,事件到达规则(230)在关闭事件池之前根 据事件识别警报。此类规则通常被预先确定以根据这些事件的属性识别特 定警报。事件到达规则可以例如规定根据事件的特定事件类型或组件类型 或该事件的其他属性识别要传输给系统管理员的特定预定警报。此类规则 是灵活的并可以适合特定分布式计算系统及其功能的需要。

根据本发明的各实施例的警报是根据一个以上的事件对事件发生(例 如错误)的精细识别并因此在分布式处理系统内在事件工作的上下文中提 供了事件发生的识别。通常,警报是根据从数据处理系统的一个或多个组 件接收的多个事件识别的特定错误类型事件的通知,所述事件例如是多个 设备之间的链路故障(每个设备都基于单个链路故障而产生许多事件)或 引起数以千计的事件的电源故障等。

警报经常实现为要通过数据通信网络或共享存储器发送的消息。根据 本发明的各实施例的典型警报具有附加到所述警报的属性,基于从标识警 报的事件所接收的事件属性将属性附加到警报。

事件池操作规则(232)是用于控制事件池的操作的可配置预定规则。 此类规则包括识别每个事件池的初始预定时段的规则、规定在将每个新事 件分配到池时为池延长的时长的规则、规定在关闭池时将事件包括在事件 集合中之前事件必须在池中的最短时间的规则、管理事件池的关闭的规则, 以及本领域的技术人员将想到的其他规则。此类规则是灵活的并可以适合 特定分布式计算系统及其功能的需要。

事件抑制规则(234)是用于抑制在识别警报时使用的关闭后的事件池 中的一个或多个事件的可配置预定规则。也就是说,关闭后的事件池中的 事件经常是识别警报时的重复事件、冗余事件或不必要的或无用的事件。 此类抑制规则通常被预先确定以删除、丢弃或以其他方式忽略那些被抑制 的事件。事件抑制规则可以例如规定要抑制多于阈值数量的特定事件类型 或组件类型的事件。此类规则也是灵活的并可以适合特定分布式计算系统 及其功能的需要。

事件池关闭规则(236)是用于根据关闭后的事件池中的未抑制事件和 由事件到达规则识别的警报来识别警报的可配置预定规则。也就是说,事 件池关闭规则根据关闭后的事件池中的一个或多个或甚至所有未抑制事件 来识别新的警报。事件池关闭规则还根据事件到达规则(230)所识别的警 报或事件到达规则(230)所识别的警报和关闭后的事件池中的一个或多个 未抑制事件的组合来识别警报。

图3的实例中的事件分析器(208)将事件分析器(208)所识别的所 有警报(214)发送给警报分析器(218)。图3的警报分析器是能够从事 件和其他警报识别要传输的警报、能够识别要传输的附加警报,以及能够 抑制事件分析器所识别的不必要的、无关的或不需要或无用的警报的自动 计算机器的模块。也就是说,警报分析器通常接收警报和事件并根据这些 警报和事件产生或转发警报。在许多实施例中,并行实现多个警报分析器。 将图3的实例中的警报(216)通过警报队列(216)从事件分析器(208) 发送到警报分析器(218)。

图3的警报分析器(218)将每个所识别的警报(214)分配到警报池 (224)。警报池(224)是按导致识别警报的一个或多个事件的时间、识 别警报的时间或本领域的技术人员将想到的其他时间组织的警报集合。也 就是说,警报池是按时间组织的警报的集合。此类警报池经常提供根据某 个时间分析被识别和包括在警报池中的一组警报的能力。此类事件池经常 用于根据多个相关的事件和多个相关的警报识别更少和更多的相关警报。

警报分析器根据本发明的实施例管理警报池,其方式为:由警报分析 器从警报队列接收来自分布式处理系统的一个或多个组件的多个警报;由 所述警报分析器创建警报池,所述池具有预定初始时段;由所述警报分析 器将每个接收的警报分配到所述池;由所述警报分析器向每个警报分配包 含在池中的预定最短时间;对于所述警报中的一个或多个警报,由所述警 报分析器将所述池的所述预定初始时段延长被分配给所述警报的特定时 段;由所述警报分析器判定是否满足关闭所述池的条件;以及如果满足关 闭所述池的条件,则针对所述池中的每个警报判定该警报是否已在所述池 中达到该警报的包含在池中的预定最短时间;以及如果该警报已在所述池 中达到该警报的预定最短时间,则将该警报包括在关闭后的池中;以及如 果该警报未在所述池中达到该警报的预定最短时间,则从关闭后的池驱逐 该警报并将该警报包括在下一池中。

警报分析器可以根据警报的属性或从中识别这些警报的事件的属性将 识别的警报分配到警报池(224)。例如,图3的警报分析器可以通过选择 从来自一个或多个特定组件的事件生成的警报、与特定警报类型关联的警 报以及本领域的技术人员将想到的其他警报来将警报分配到警报池(224)。

图3的警报分析器(218)根据警报分析规则(222)和警报池中的警 报判定是否抑制任何警报。通常通过丢弃警报、删除警报或以其他方式忽 略警报或不将抑制的警报传输到分布式处理系统的组件来实现抑制警报。

警报分析规则(222)是用于抑制一个或多个警报以提供更相关的警报 集以便传输到分布式处理系统的组件(例如,以便显示给系统管理员)以 及识别附加警报以便传输到分布式处理系统的一个或多个组件的规则的集 合。例如,警报分析规则可以规定抑制重复警报、抑制传输到特定组件的 特定类型的警报以及抑制本领域的技术人员将想到的其他警报。此类警报 对于进行自动错误恢复的分布式处理系统的组件或对于不能通过大量原始 的未分析警报以其他方式了解更多信息的系统管理员而言更有用。

图3的警报分析器(218)还可访问事件队列(206)。在某些实施例 中,图3的依赖于警报分析规则的警报分析器(218)可以选择事件队列中 的事件并根据所选事件判定是否抑制任何警报。也就是说,警报分析规则 还考虑了事件及其属性以便抑制警报和识别要传输到一个或多个组件的附 加警报。此类事件可能与警报池中的警报相关,也可能与此类警报无关。

图3的警报分析器(218)将未抑制的警报传输到分布式处理系统的一 个或多个组件。警报分析器可以通过数据通信网络、通过共享存储器或以 本领域的技术人员将想到的其他方式作为消息发送警报来将未抑制的警报 传输到分布式处理系统的一个或多个组件。在图3的实例中,未抑制的警 报(220)被传输到终端(122)以显示给系统管理员(128)。

图3的警报分析器(218)还能够根据警报分析规则(222)、警报池 (224)中的警报以及选定事件(206)识别一个或多个附加警报并将所述 警报传输到分布式处理系统的一个或多个组件。附加警报可包括未由事件 分析器识别的一个或多个警报。此类附加警报可为系统管理员将附加信息 提供给分布式处理系统的组件。

如上所述,根据本发明的相关警报传送包括将事件分配到事件池以及 根据本发明的实施例管理这些池。为了进一步说明,图4是示出根据本发 明的实施例将事件分配到事件池的示意图。事件池(212)是按事件发生的 时间、事件被记录在事件队列中的时间、包括在事件池中的时间,或本领 域的技术人员将想到的其他时间组织的事件集合。也就是说,事件池是按 时间组织的事件的集合。此类事件池经常提供分析一组时间相关的事件以 及根据这些事件识别警报的能力。此类事件池经常用于根据多个相关的事 件识别更少和更多的相关警报。

根据本发明的实施例的事件池通常根据本身经常包括在事件分析规则 中的事件池操作规则来执行操作。此类事件池操作规则是用于控制事件池 操作的可配置预定规则。此类规则包括识别每个事件池的初始预定时段的 规则、规定在将每个新事件分配到池时为池延长的时长的规则、规定在关 闭池时将事件包括在事件集合中之前事件必须在池中的最短时间的规则、 管理事件池的关闭的规则,以及本领域的技术人员将想到的其他规则。此 类规则是灵活的并可以适合特定分布式计算系统及其功能的需要。

经常根据事件被记录的时间将事件分配到事件池。也就是说,通常按 照在事件队列中接收事件的顺序将事件插入事件池。在图4的实例中,在 时间t0将首个事件‘事件0’(400)分配到事件池(212)时,开始事件 池(212)的计时。图4的事件池在从t1到tf的预定初始时段内工作。也就 是说,当接收首个事件‘事件0’(400)时,图4的事件池具有在t1开始 并在tf结束的预定初始时段。所述预定初始时段可以根据本领域的技术人 员将想到的许多因素进行配置,例如,分布式处理系统中的组件数、接收 事件的频率、通常接收的事件的类型以及本领域的技术人员将想到的其他 因素。

在图4的实例中,在从t1到tf的预定初始时段期间,针对每个分配到 事件池的新事件将所述预定初始时段延长分配给该事件的特定时段。在图 4的实例中,在将‘事件1’(404)分配到事件池(212)时,将预定初始 时段(t0-tf)延长具有时间e1的‘延长1’(406),由此在tf+e1之前没有 任何其他事件被分配到池的情况下,将在tf+e1产生关闭事件池(212)的新 时间。类似地,在图4的实例中,在将‘事件2’(404)分配到具有时间 e2的事件池时,再次通过‘延长2’(406)延长目前已延长的时段(t0-tf+e1), 由此在tf+e1+e2之前或在事件池的某个最长时间过期之前没有任何其他事件 被分配到池的情况下,在时间tf+e1+e2产生关闭池的新时间。通过这种方式, 在收到每个事件时延长事件池,直到将可用于识别警报的事件集合分配到 事件池。

在本发明的典型实施例中,事件池可具有无法再延长的最大时长。在 这种情况下,可要求将未在事件池中驻留达阈值时段的事件移至下一事件 池。在某些实施例中,移至下一事件池的此类事件的属性用于与初始事件 池一起实现根据本发明的实施例的相关警报传送,而在其他实施例中,此 类事件的属性用于与事件所移至的下一事件池一起实现相关警报传送。

在图4的实例中,当满足关闭池的条件时,事件分析器针对池(212) 中的每个事件(400、402、404)判定该事件是否已在池中达到该事件的包 括在池中的预定最短时间。如果该事件已在池中达到其预定最短时间,则 将该事件包括在关闭后的池中以进行事件分析以便根据本发明的实施例实 现相关警报传送。如果该事件未在池中达到其预定最短时间,则从关闭后 的池驱逐该事件并将该事件包括在下一池中以进行事件分析以便根据本发 明的实施例实现相关警报传送。

在许多实施例中,可并行使用多个事件池并将一个或多个此类事件池 分配给特定事件分析器。在此类实施例中,事件分析器可针对事件池中具 有特定属性的事件。

如上所述,根据本发明的相关警报传送还包括将警报分配到警报池。 为了进一步说明,图5是示出根据本发明的实施例的将警报分配到警报池 的示意图。图5的警报池(224)的工作方式与图4的事件池的工作方式类 似。也就是说,根据图5的实例的警报池包括警报并且警报池的计时从时 间t0处的首个警报‘警报0’(500)开始,并且警报池被配置为具有预定 初始时段t0-tf。在图5的实例中,在从t1到tf的预定初始时段期间,针对 每个分配到警报池的新警报将所述预定初始时段延长分配给该警报的特定 时段。在图5的实例中,在将‘警报1’(502)分配到警报池(224)时, 将预定初始时段(t0-tf)延长具有时间e1的‘延长1’(506),由此在tf+e1之前没有任何其他警报被分配到池的情况下,将在tf+e1产生关闭警报池 (224)的新时间。类似地,在图5的实例中,在将‘警报2’(504)分 配到具有时间e2的警报池时,再次通过‘延长2’(508)延长目前已延 长的时段(t0-tf+e1),由此在tf+e1+e2之前没有任何其他警报被分配到池的情 况下或在警报池的某个最长时间过期之前,在时间tf+e1+e2建立关闭池的新 时间。

在本发明的典型实施例中,警报池可具有无法再延长的最大时长。在 这种情况下,可要求将未在警报池中驻留达阈值时段的警报移至下一警报 池。在某些实施例中,移至下一警报池的此类警报的属性用于与初始警报 池一起实现根据本发明的实施例的相关警报传送,而在其他实施例中,此 类警报的属性用于与警报所移至的下一警报池一起实现相关警报传送。

在图5的实例中,当满足关闭池的条件时,警报分析器针对池(224) 中的每个警报(500、502、504)判定该警报是否已在池中达到该警报的包 括在池中的预定最短时间。如果该警报已在池中达到其预定最短时间,则 将该警报包括在关闭后的池中以进行警报分析以便根据本发明的实施例实 现相关警报传送。如果该警报未在池中达到其预定最短时间,则从关闭后 的池驱逐该警报并将该警报包括在下一池中以进行警报分析以便根据本发 明的实施例实现相关警报传送。

在许多实施例中,可并行使用多个警报池并将一个或多个此类警报池 分配给特定警报分析器。在此类实施例中,警报分析器可针对警报池中具 有特定属性的警报。

为了进一步说明,图6是示出根据本发明的实施例的在分布式处理系 统中通过事件和警报抑制实现相关警报传送的实例方法的流程图。图6的 方法包括在事件队列中接收(402)来自分布式处理系统的一个或多个组件 的多个事件(202)。在根据本发明的实施例通过事件和警报抑制实现相关 警报传送时使用的事件可以包括发生时间、记录时间、事件类型、事件iD、 报告组件以及源组件。

在事件队列中接收(402)来自分布式处理系统的一个或多个组件的多 个事件(202)可以通过以下方式实现:接收数据处理系统的一个或多个组 件发起的事件并根据事件发生的时间或根据接收事件的时间将事件存储在 事件队列中。在事件队列中接收(402)来自分布式处理系统的一个或多个 组件的多个事件(202)还可以通过以下方式实现:轮询组件的状态并作为 响应而接收事件并根据事件发生的时间或根据接收事件的时间将事件存储 在事件队列中。

图6的方法还包括由事件分析器将每个接收的事件分配(404)到事件 池(212)。在本发明的某些实施例中,由事件分析器将每个接收的事件(202) 分配(404)到事件池(212)可以通过根据记录时间将事件分配到事件池 来实现。由事件分析器将每个接收的事件(202)分配(404)到事件池(212) 还可以根据事件的属性来实现。此类属性可以包括产生事件的组件的标识 或类型、事件的报告组件、事件ID、事件类型以及本领域的技术人员将想 到的其他属性。

根据图6的方法的事件池包括在预定初始时段内发生的事件,并且在 图6的实例中,由事件分析器将每个接收的事件分配(404)到事件池包括 针对每个分配到事件池的事件将所述预定初始时段延长(432)分配给该事 件的特定时段。

事件分析器包括事件分析规则(210),事件分析规则(210)包括事 件到达规则、事件池操作规则、事件抑制规则以及事件池关闭规则。事件 到达规则是用于根据事件被分配到事件池时的实时事件识别警报的可配置 预定规则。也就是说,事件到达规则在关闭事件池之前根据事件识别警报。 此类规则是灵活的并可以适合特定分布式计算系统及其功能的需要。

根据本发明的各实施例的警报是根据一个以上的事件对事件发生(例 如错误)的精细识别并因此在分布式处理系统内在事件工作的上下文中提 供了事件发生的识别。通常,警报可以是根据从数据处理系统的一个或多 个组件接收的多个事件识别的特定错误类型事件的通知,所述事件例如是 多个设备之间的链路故障(每个设备都基于单个链路故障而产生许多事件) 或引起数以千计的事件的电源故障等。

警报经常实现为要通过数据通信网络或共享存储器发送的消息。根据 本发明的各实施例的典型警报具有所附加的属性,基于从标识警报的事件 所接收的事件属性将属性附加到警报。

事件池操作规则是用于控制事件池的操作的可配置预定规则。此类规 则包括识别每个事件池的初始预定时段的规则、规定在将每个新事件分配 到池时为池延长的时长的规则、规定在关闭池时将事件包括在事件集合中 之前事件必须在池中的最短时间的规则、管理事件池的关闭的规则,以及 本领域的技术人员将想到的其他规则。此类规则是灵活的并可以适合特定 分布式计算系统及其功能的需要。

事件抑制规则是用于抑制在识别警报时使用的关闭后的事件池中的一 个或多个事件的可配置预定规则。也就是说,关闭后的事件池中的事件经 常可能是识别警报时的重复事件、冗余事件或不必要的或无用的事件。此 类抑制规则通常被预先确定以删除、丢弃或以其他方式忽略那些被抑制的 事件。事件抑制规则可以例如规定要抑制多于阈值数量的特定事件类型或 组件类型的事件。此类规则也是灵活的并可以适合特定分布式计算系统及 其功能的需要。

事件池关闭规则是用于根据关闭后的事件池中的未抑制事件和由事件 到达规则识别的警报来识别警报的可配置预定规则。也就是说,事件池关 闭规则根据关闭后的事件池中的一个或多个或甚至所有未抑制事件来识别 新的警报。事件池关闭规则还根据事件到达规则所识别的警报或事件到达 规则所识别的警报和关闭后的事件池中的一个或多个未抑制事件的组合来 识别警报。

图6的方法还包括由事件分析器根据事件到达规则和分配到事件池的 事件识别(410)一个或多个警报(214)。由事件分析器根据事件到达规 则和分配到事件池的事件识别(410)一个或多个警报(214)可通过以下 方式实现:在将事件分配到事件池时根据该事件的一个或多个属性识别警 报。由事件分析器根据事件到达规则和分配到事件池的事件识别(410)一 个或多个警报(214)可通过以下方式实现:将事件的属性与事件到达规则 相比较以及作为比较的结果识别一个或多个警报。此类属性可包括从中接 收事件的组件的类型、产生事件的组件的类型、产生事件的组件的标识、 产生或接收事件的时间、事件中报告的错误以及本领域的技术人员将想到 的许多其他内容。

图6的方法还包括由事件分析器根据事件池操作规则关闭(412)事件 池(212)。由事件分析器根据事件池操作规则关闭(412)事件池(212) 可通过以下方式实现:判定满足事件池操作规则规定的停止将新事件分配 到事件池的条件并根据这些事件池操作规则识别包括在关闭后的事件池中 的特定事件。

关闭事件池可以通过判定事件池的初始时段以及在初始时段的基础上 延长的用于事件池中接收的事件的任何特定时段已过期来实现。在这种情 况下,如果在事件池的初始时段以及在初始时段的基础上延长的用于事件 池中接收的事件的任何特定时段过期之前未接收到任何新事件,则关闭池。

关闭事件池还可通过判定事件池的最长时间已过期来实现。在这种情 况下,无论在事件池的最长时间过期之后接收多少新事件,池都将被关闭。 在此类实施例中,事件池的最长时间防止事件池包括的事件数多于根据本 发明的实施例实现相关警报传送所需的事件数。

图6的方法还包括由事件分析器根据事件抑制规则判定(414)是否抑 制关闭后的事件池(212)中的一个或多个事件。由事件分析器根据事件抑 制规则判定(414)是否抑制关闭后的事件池(212)中的一个或多个事件 可通过根据关闭后的池中的一个或多个事件的属性判定是否删除、丢弃或 以其他方式忽略关闭后的池中的一个或多个事件来实现。

图6的方法包括由事件分析器根据事件池关闭规则和分配到事件池的 任何未抑制事件识别(416)一个或多个附加警报(417)。由事件分析器 根据事件池关闭规则和分配到事件池的任何未抑制事件识别(416)一个或 多个附加警报(417)可通过在将事件分配到事件池时根据事件的一个或多 个属性识别警报来实现。由事件分析器根据事件池关闭规则和分配到事件 池的任何未抑制事件识别(416)一个或多个附加警报(417)可通过选择 事件池的未抑制事件、将事件池的未抑制事件的属性与池关闭规则相比较, 以及作为比较结果识别一个或多个附加警报来实现。此类属性可包括从中 接收一个或多个未抑制事件的组件的类型、产生未抑制事件的组件的类型、 产生未抑制事件的组件的标识、产生或接收事件的时间、事件报告的一个 或多个错误、池中的事件数以及本领域的技术人员将想到的许多其他内容。

图6的方法包括由事件分析器将事件分析器所识别的所有警报发送 (418)给警报分析器。由事件分析器将事件分析器所识别的所有警报(214) 发送(418)给警报分析器可通过将包含警报的消息从事件分析器发送给警 报分析器来实现。此类消息可以跨网络,通过共享存储器或以本领域的技 术人员将想到的其他方式从事件分析器发送给警报分析器。

图6的方法包括由警报分析器将所识别的警报分配(420)到警报池 (224)。根据图6的方法的警报池具有预定初始时段,并且在图6的实例 中,由警报分析器将所识别的警报分配(420)到警报池(224)包括针对 分配到警报池的每个警报,将预定初始时段延长分配给该警报的特定时段。 由警报分析器将所识别的警报分配(420)到警报池(224)还可根据警报 的属性来实现。此类属性可包括其中发生事件以产生用于识别警报的事件 的组件的标识或类型、警报ID、警报类型以及本领域的技术人员将想到的 其他属性。

图6的方法包括由警报分析器根据警报分析规则(222)和警报池中的 警报判定(422)是否抑制任何警报。由警报分析器根据警报分析规则(222) 和警报池中的警报判定(422)是否抑制任何警报可根据警报的一个或多个 属性来实现。此类属性可包括其中发生事件以产生用于识别警报的事件的 组件的标识或类型、警报ID、警报类型以及本领域的技术人员将想到的其 他属性。在此类实施例中,由警报分析器根据警报分析规则(222)和警报 池中的警报判定(422)是否抑制任何警报可通过将警报池中警报的属性与 警报分析规则相比较以及作为比较结果而根据事件分析规则识别一个或多 个要抑制的警报来实现。

图6的方法包括将未抑制的警报传输(420)到分布式处理系统的一个 或多个组件。将未抑制的警报传输(420)到分布式处理系统的一个或多个 组件可通过将包含警报的消息发送到分布式处理系统的一个或多个组件来 实现。在许多情况下,警报可以作为消息发送给系统管理员,提醒系统管 理员分布式处理系统中发生一个或多个事件。

如上所述,警报分析规则可以根据事件选择附加警报或抑制警报。在 此类实施例中,判定是否抑制任何警报包括选择事件以及根据所选事件判 定是否抑制任何警报。因此,图6的方法还包括由警报分析器根据警报分 析规则(222)、警报池(224)中的警报以及任何所选事件识别(426)一 个或多个附加警报,并且在图6的方法中,传输(428)未抑制的警报还包 括将任何附加警报传输(430)到分布式处理系统的一个或多个组件。

如上所述,根据本发明的实施例的相关警报传送包括管理一个或多个 事故池,所述事故包括事件、警报或本领域的技术人员将想到的其他事故。 为了进一步说明,图7是示出根据本发明的实施例在分布式处理系统中管 理事故池以进行事件和警报分析的示例性方法的流程图。图7的方法包括 由事故分析器从事故队列接收(702)来自分布式处理系统的一个或多个组 件的多个事故(704)。图7的事故可以实现为事件并且事故池可以实现为 事件池。图7的事故还可以实现为警报并且事故池可以实现为警报池。

由事故分析器从事故队列接收(702)来自分布式处理系统的一个或多 个组件的多个事故(704)可通过如上所述由事件分析器从事件队列接收事 件来实现。可以从分布式处理系统的一个或多个组件发送此类事件。由事 故分析器从事故队列接收(702)来自分布式处理系统的一个或多个组件的 多个事故(704)还可通过如上所述由警报分析器从警报队列接收警报来实 现。可以如上所述由事件分析器产生此类警报。

图7的方法包括由事故分析器创建(706)事故池(708),所述池具 有预定初始时段。图7的方法中的由事故分析器创建(706)事故池(708) 可通过创建包含事件或警报的数据结构并针对该数据结构建立将事件、警 报或本领域的技术人员将想到的其他事故包括在该数据结构内的初始时段 来实现。

图7的方法还包括由事故分析器将每个接收的事故分配(710)到池。 由事故分析器将每个接收的事故分配(710)到池可根据事故的属性来实现。 将每个接收的事故分配(710)到池例如可以通过根据诸如产生事件的组件、 事件类型、警报类型、报告事件的组件、报告或产生在产生警报时所依据 的事件的组件以及本领域的技术人员将想到的其他属性之类的属性选择事 件、警报或其他事故来实现。

图7的方法还包括由事故分析器为每个事故分配(712)包含在池(708) 中的预定最短时间(714)。包含在池中的预定最短时间(714)通常短于 该池的初始时段,以便在关闭池时,将首个到达的事故包括在事故池中。 预定最短时间可根据本领域的技术人员将想到的事故的属性而变化。允许 最短时间随事故的属性而变化为根据本发明的实施例在各种形式的分布式 处理系统中管理池提供了灵活性。

图7的方法包括由事故分析器针对一个或多个事故将池(708)的预定 初始时段延长(716)分配给该事故的特定时段。在预定初始时段的基础上 延长的特定时段依赖于诸如事故类型、事故标识、产生或传输事故的上下 文以及本领域的技术人员将想到的其他内容之类的事故属性。

图7的方法还包括由事故分析器判定(718)是否满足关闭池(708) 的条件。由事故分析器判定(718)是否满足关闭池(708)的条件可通过 判定是否已经过池的最长时间来实现。针对池建立的最长时间通常依赖于 分布式处理系统的诸如分布式处理系统的大小、分布式处理系统的组件、 分布式处理系统的计算要求以及本领域的技术人员将想到的其他内容之类 的因素。通常,所建立的最长时间足够长以允许将足够的事故累积到池中 以便进行有意义的事件或警报分析,但是最长时间也足够短,使得不会因 事故的绝对数量导致分析无法进行并允许及时地报告警报。

由事故分析器判定(718)是否满足关闭池(708)的条件可通过判定 在将另一事故分配到池之前是否已经过预定初始时段以及与任何分配到池 的事故关联的任何时间延长来实现。在此类实施例中,通常在池的最长时 间之前已经过池的预定初始时段以及所有时间延长,从而在池的最长时间 之前关闭池。

如果满足关闭池的条件,则图7的方法还包括针对池中的每个事故判 定(720)事故是否已在池(708)中达到其包含在池中的预定最短时间(714)。 针对池中的每个事故判定(720)事故是否已在池(708)中达到其包含在 池中的预定最短时间(714)可通过将每个事故驻留在池中的时长与包含在 池中的最短时间相比较来实现。

如果事故已在池中达到其预定最短时间,则图7的方法包括将该事故 包括(722)在关闭后的池中。将事故包括(722)在关闭后的池中可通过 将事故保留在关闭后的池中以进行事件分析、警报分析或本领域的技术人 员将想到的其他事故分析来实现。

如果事故未在池中达到其预定最短时间,则图7的方法包括从关闭后 的池驱逐(724)该事故并将该事故包括在下一池中。从关闭后的池驱逐 (724)事故并将事故包括在下一池中可通过创建下一池并将事故移至下一 池来实现。创建下一池并将事故移至下一池可包括为下一池建立至少与要 移至该下一池的事件的最短时间一样长的预定时长。

为了进一步说明,图8是示出根据本发明的实施例在分布式处理系统 中管理事故池以进行事件和警报分析的附加方法的流程图。图8的方法与 图7的方法的类似之处在于,图8的方法包括由事故分析器从事故队列接 收(702)来自分布式处理系统的一个或多个组件的多个事故(704);由 事故分析器创建(706)事故池(708),所述池具有预定初始时段;由事 故分析器将每个接收的事故分配(710)到池;由事故分析器为每个事故分 配(712)包含在池中的预定最短时间;由事故分析器针对一个或多个事故 将池(708)的预定初始时段延长(716)分配给该事故的特定时段;由事 故分析器判定(718)是否满足关闭池的条件;以及如果满足关闭池的条件, 则针对池中的每个事故判定(720)事故是否已在池中达到其包含在池中的 预定最短时间;以及如果事故已在池中达到其预定最短时间,则将事故包 括(722)在关闭后的池中;以及如果事故未在池中达到其预定最短时间, 则从关闭后的池驱逐(724)该事故并将该事故包括在下一池中。

图8的方法与图7的方法的不同之处在于,在图8的方法中,一个或 多个事故(704)为事件,并且图8的方法还包括根据分配到池(708)的 一个或多个事件识别(716)一个或多个警报。根据分配到池(708)的一 个或多个事件识别(716)一个或多个警报可通过如上所述的根据事件到达 规则识别警报、如上所述的根据池关闭规则识别附加警报,以及本领域的 技术人员将想到的其他方式来实现。

在图8的方法中,驱逐(724)事故并将事故包括在下一池中还包括驱 逐(802)至少一个事件、将驱逐的事件包括(804)在下一池中,以及将 根据驱逐的事件识别的任何警报与关闭后的池相关联(806)。驱逐(724) 事故并将事故包括在下一池中还包括驱逐(802)至少一个事件,将驱逐的 事件包括(804)在下一池中可通过创建下一池并将事故移至下一池来实现。

将根据驱逐的事件识别的任何警报与关闭后的池相关联(806)可通过 使用关闭后的池保留根据事件到达规则识别的任何警报以由警报分析器进 行警报分析来实现。在此类实施例中,虽然驱逐了事件并将事件包括在下 一池中,但是根据该事件识别的任何警报都使用关闭后的池进行保留以进 行警报分析。

为了进一步说明,图9是示出根据本发明的实施例在分布式处理系统 中管理事故池以进行事件和警报分析的附加方法的流程图。图9的方法与 图7和图8的方法的类似之处在于,图9的方法包括由事故分析器从事故 队列接收(702)来自分布式处理系统的一个或多个组件的多个事故(704); 由事故分析器创建(706)事故池(708),所述池具有预定初始时段;由 事故分析器将每个接收的事故分配(710)到池;由事故分析器为每个事故 分配(712)包含在池中的预定最短时间;由事故分析器针对一个或多个事 故将池(708)的预定初始时段延长(716)分配给该事故的特定时段;由 事故分析器判定(718)是否满足关闭池的条件;以及如果满足关闭池的条 件,则针对池中的每个事故判定(720)事故是否已在池中达到其包含在池 中的预定最短时间;以及如果事故已在池中达到其预定最短时间,则将事 故包括(722)在关闭后的池中;以及如果事故未在池中达到其预定最短时 间,则从关闭后的池驱逐(724)该事故并将该事故包括在下一池中。

图9的方法与图7的方法的不同之处在于:在图9的方法中,一个或 多个事故(704)为事件(202),并且图9的方法还包括根据分配到池(708) 的一个或多个事件识别(716)一个或多个警报。根据分配到池(708)的 一个或多个事件识别(716)一个或多个警报可通过如上所述的根据事件到 达规则识别警报、如上所述的根据池关闭规则识别附加警报,以及本领域 的技术人员将想到的其他方式来实现。

在图9的方法中,驱逐(724)事故并将事故包括在下一池中还包括驱 逐(902)至少一个事件、将驱逐的事件包括(904)在下一池中,以及将 根据驱逐的事件识别的任何警报与关闭后的池相关联(906)。驱逐(724) 事故并将事故包括在下一池中还包括驱逐(902)至少一个事件,将驱逐的 事件包括(904)在下一池中可通过创建下一池并将事故移至下一池来实现。

将根据驱逐的事件识别的任何警报与下一池相关联(906)可通过将根 据事件到达规则识别的任何警报与由警报分析器进行警报分析的关闭后的 池取消关联并将这些警报与下一池关联来实现。在此类实施例中,驱逐事 件并将事件包括在下一池中,并且还将根据该事件识别的任何警报与下一 池进行关联以使用下一池进行警报分析。

在某些实施例中,可以根据其他警报来识别警报。因此,在此类实施 例中,根据图9的方法的将根据驱逐的事件识别的任何警报与下一池相关 联还可通过使关闭后的池中依赖于现在与下一池关联的所识别警报的所有 警报或事件无效来实现。也就是说,在关闭后的池中使根据现在与下一池 关联的警报识别的警报无效。使此类警报无效消除了关闭后的池中此类警 报对现在与下一池关联的警报的依赖性。

本领域的技术人员将理解,本发明的各方面可以实现为系统、方法或 计算机程序产品。因此,本发明的各方面可以采取完全硬件实施例、完全 软件实施例(包括固件、驻留软件、微代码等)或组合了在此通常被称为 “电路”、“模块”或“系统”的软件和硬件方面的实施例的形式。此外, 本发明的各方面可以采取体现在一个或多个计算机可读介质(在介质中具 有计算机可读程序代码)中的计算机程序产品的形式。

可以使用一个或多个计算机可读介质的任意组合。所述计算机可读介 质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介 质例如可以是(但不限于)电、磁、光、电磁、红外线或半导体系统、装 置或设备或它们的任何适当组合。计算机可读存储介质的更具体的实例(非 穷举列表)可以包括以下项:具有一条或多条线的电连接、便携式计算机 软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦写 可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器 (CD-ROM)、光存储设备、磁存储设备或它们的任何适当组合。在本文 档的上下文中,计算机可读存储介质可以是任何能够包含或存储由指令执 行系统、装置或设备使用或与所述指令执行系统、装置或设备结合的程序 的有形介质。

计算机可读信号介质可以包括其中包含计算机可读程序代码(例如, 在基带中或作为载波的一部分)的传播数据信号。此类传播信号可以采取 多种形式中的任何形式,包括但不限于电磁、光或它们的任何适当组合。 计算机可读信号介质可以是任何并非计算机可读存储介质以及可以传送、 传播或传输由指令执行系统、装置或设备使用或与所述指令执行系统、装 置或设备结合的程序的计算机可读介质。

可以使用任何适当的介质(包括但不限于无线、有线、光缆、RF等或 它们的任何适当组合)来传输计算机可读介质中包含的程序代码。

用于执行本发明的各方面的操作的计算机程序代码可以使用一种或多 种编程语言的任意组合来编写,所述编程语言包括诸如Java、Smalltalk、 C++或类似语言之类的面向对象的编程语言或者诸如“C”编程语言或类似 的编程语言之类的常规过程编程语言。所述程序代码可以完全地在用户计 算机上执行、部分地在用户计算机上执行、作为独立的软件包、部分地在 用户计算机上并部分地在远程计算机上执行,或者完全在远程计算机或服 务器上执行。在后者的情况中,所述远程计算机可以通过包括局域网 (LAN)或广域网(WAN)的任何类型网络与用户的计算机相连,也可以 与外部计算机进行连接(例如,使用因特网服务提供商通过因特网连接)。

下面参考根据本发明的各实施例的方法、装置(系统)和计算机程序 产品的流程图和/或方块图对本发明的各方面进行描述。将理解,所述流程 图和/或方块图的每个方块以及所述流程图和/或方块图中的方块的组合可 以由计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算 机、专用计算机或其他可编程数据处理装置的处理器以产生机器,以便通 过所述计算机或其他可编程数据处理装置的处理器执行的指令产生用于实 现在一个或多个流程图和/或方块图方块中指定的功能/操作的装置。

这些计算机程序指令也可以被存储在可引导计算机、其他可编程数据 处理装置或其他设备以特定方式执行功能的计算机可读介质中,以便存储 在所述计算机可读介质中的指令产生一件包括实现在所述一个或多个流程 图和/或方块图方块中指定的功能/操作的指令的制品。

所述计算机程序指令还可被加载到计算机、其他可编程数据处理装置 或其他设备,以导致在所述计算机、其他可编程装置或其他设备上执行一 系列操作步骤以产生计算机实现的过程,从而在所述计算机或其他可编程 装置上执行的指令提供用于实现在一个或多个流程图和/或方块图方块中 指定的功能/操作的过程。

附图中的流程图和方块图示出了根据本发明的各实施例的系统、方法 和计算机程序产品的可能实施方式的架构、功能和操作。在此方面,所述 流程图或方块图中的每个方块都可以表示代码的模块、段或部分,所述代 码包括用于实现指定的逻辑功能的一个或多个可执行指令。还应指出,在 某些备选实施方式中,在方块中说明的功能可以不按图中说明的顺序发生。 例如,示为连续的两个方块可以实际上被基本同时地执行,或者某些时候, 取决于所涉及的功能,可以以相反的顺序执行所述方块。还应指出,所述 方块图和/或流程图的每个方块以及所述方块图和/或流程图中的方块的组 合可以由执行指定功能或操作的基于专用硬件的系统或专用硬件和计算机 指令的组合来实现。

从上述描述将理解,可以在不偏离本发明的真实精神的情况下,对本 发明的各种实施例做出修改和更改。本说明书中的描述仅用于例示并且不 应被理解为进行限制。本发明的范围仅由以下权利要求的语言来限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号