首页> 中国专利> 以不取得事件信息的IT装置为对象的根本原因分析方法、装置及程序

以不取得事件信息的IT装置为对象的根本原因分析方法、装置及程序

摘要

本发明提供一种以不取得事件信息的IT装置为对象的根本原因分析方法、装置及程序。在操作管理服务器中,将事件信息取得对象的信息处理装置作为事件取得对象装置登录到结构信息中,并从在操作管理服务器中所存储的多个事件信息中确定与预先所存储的规则相符合的事件信息,确定该事件信息关联的网络服务的服务器装置,显示在生成事件信息的客户机信息处理装置中所发生的该事件的主要原因是与在服务器装置中所发生的网络服务相关的事件。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-04-01

    授权

    授权

  • 2011-04-06

    实质审查的生效 IPC(主分类):G06F11/30 申请日:20090126

    实质审查的生效

  • 2011-02-23

    公开

    公开

说明书

技术领域

本申请说明中公开的技术涉及对包含服务器计算机、网络装置、存储装置的信息处理系统的操作进行管理的操作管理方法、装置、系统、程序、包含程序的介质以及程序的分发装置。

背景技术

近年来,IT系统(IT是Information Technology的略称。以下有时将IT系统称为信息处理系统)通过经由网络连接各种IT装置(以后称为信息处理装置)而变得复杂化、大规模化,故障经由网络对各种IT装置造成影响。作为用于确定这些故障的部位及原因的根本原因分析技术,在专利文献1中公开了一种使用从IT装置通知故障内容的事件信息来分析故障部位和原因的事件相关技术。另外,事件相关技术也可以说是利用故障时从计算机发送来的事件的相关性来推测根本原因的技术。

另外,在非专利文献2中公开了如下技术:把该技术和故障时的事件的组合与推测的根本原因组成对并进行规则化,由此使用基于专家系统的推论引擎来迅速地查明根本原因。

专利文献1:美国专利第6249755号说明书

非专利文献1:“Rete:A Fast Algorithm for the Many Pattern/Many Object Pattern Match Problem”,ARTIFICIAL INTELLIGENCE Vol.19,no.1,1982,pp.17-37

发明内容

进行操作管理所需要的处理的操作管理服务器无法取得连接在网络上的所有的IT装置的事件,因此操作管理服务器局限于接收(或者取得)事件信息的IT装置,使用根本原因分析技术来显示分析结果。

但是,该分析技术是以能够从连接在网络上的所有IT装置取得事件信息为前提的。结果是当在操作管理服务器不取得事件信息的IT装置中发生事件(例如故障)、正在取得事件信息的IT装置受到该故障的影响时,由于发生故障IT装置不是分析对象,所以无法应用规则,不能查明故障的根本原因。

本发明提供一种分析事件的装置、系统、方法、程序以及存储介质,该事件发生在由多个信息处理装置、画面输出装置以及具有处理器和存储器的操作管理服务器构成的信息处理系统中的、所述多个信息处理装置中。

根据本发明的一个实施方式,关于所述操作管理服务器,为了所述多个信息处理装置中的每一个信息处理装置作为客户机来使用网络服务,而将作为访问对象的所述多个信息处理装置中的一部分信息处理装置即服务器装置的识别信息存储到所述存储器具有的结构信息中,将作为所述操作管理服务器取得事件信息的对象的多个事件取得对象装置登录到所述存储器具有的结构信息中,该多个事件取得对象装置是所述多个信息处理装置中的一部分,当检测到在所述多个信息处理装置中发生的包含与所述网络服务相关联的第一事件类别的事件和包含不同于与所述网络服务相关联的所述第一事件类别的第二事件类别的事件时,将表示因与所述第二事件类别对应的事件发生而可能导致与所述第一事件类别对应的事件发生的相关分析规则信息存储到所述存储器中,将从所述多个事件取得对象装置收集到的多个所述事件信息存储到所述存储器中,根据所述相关分析规则信息,从存储于所述存储器的多个所述事件信息中确定包含所述第一事件类别的第一事件信息,根据所述结构信息来确定:作为已发送了所述第一事件信息的事件取得对象装置中之一的第一事件取得对象装置、以及与所述第一事件类别对应的所述网络服务中的所述第一事件取得对象装置的服务器装置即故障主要原因装置,根据所述相关分析规则信息和所述结构信息,当所述故障主要原因装置不是所述多个事件取得对象装置时,向所述画面输出装置发送用于确定所述第一事件取得对象装置、所述第一事件类别、所述故障主要原因装置以及所述第二事件类别的信息,由此,使所述画面输出装置显示:关于在所述第一事件取得对象装置中所发生的与所述第一事件信息对应的事件,推定为在所述故障主要原因装置中发生所述第二事件类别的事件是主要原因。

另外,所述相关分析规则信息包含拓扑条件信息,该拓扑条件信息表示在发生了所述第一事件类别的作为所述多个信息处理装置中之一的第一信息处理装置和发生了所述第二事件类别的作为所述多个信息处理装置中之一的第二信息处理装置之间的拓扑条件,所述主要原因确定步骤也可以根据所述拓扑条件信息来确定所述故障主要原因装置。

另外,也可以根据所述相关分析规则信息和所述结构信息,来确定作为所述多个事件取得对象装置的服务器装置的、不包含在所述多个事件取得对象装置中的、作为所述多个信息处理装置中一部分的事件关联信息处理装置,对是否能够从所述事件关联信息处理装置中取得事件信息进行调查,在根据所述调查结果能够从所述事件关联信息处理装置中取得事件信息时,向所述画面输出装置发送用于确定所述事件关联信息处理装置的信息,由此使所述画面输出装置显示能够从所述事件关联信息处理装置中取得事件信息。

另外,所述事件信息取得可否调查步骤也可以是基于:所述操作管理服务器根据预定的步骤对作为所述多个信息处理装置、具有在事先作为调查范围所设定的IP地址的范围中包含的IP地址的信息处理装置进行访问而得的结果。

另外,所述故障主要原因装置是具有控制器、并提供逻辑卷的存储装置,所述网络服务是根据块访问形式的协议来提供所述逻辑卷的服务,所述第一事件类别是所述存储装置发生故障,所述第一事件类别也可以是向所述逻辑卷的访问失败。

另外,也可以根据所述相关分析规则信息和所述结构信息,在所述故障主要原因装置是所述多个事件取得对象装置中之一时,从多个所述事件信息中确定包含所述第二事件类别、且所述故障主要原因装置为取得源的第二事件信息,并向所述画面输出装置发送用于确定所述第一事件取得对象装置、所述第一事件信息、所述故障主要原因装置以及所述第二事件信息的信息,由此,使所述画面输出装置显示:关于与在所述第一事件取得对象装置中所发生的所述第一事件信息对应的事件,发生与在所述故障主要原因装置中所发生的所述第二事件信息对应的事件是主要原因。

另外,根据本发明的另一个实施例,通过操作管理服务器,将事件信息取得对象的信息处理装置作为事件取得对象装置登录到结构信息中,从在操作管理服务器中所存储的多个事件信息中确定与事先所述存储的规则相符合的事件信息,确定与该事件信息相关联的网络服务的服务器装置,并显示推定为在生成事件信息的客户机信息处理装置中所发生的该事件的主要原因是在服务器装置中所发生的与网络服务相关的事件。

根据本发明,在不取得事件信息的IT装置中发生了事件时也能够显示分析结果。

附图说明

图1表示本发明的操作管理系统的整体结构图。

图2示意地表示本发明中的一个实施方式的故障分析的全体处理流程。

图3示意地表示以本发明为对象的IT系统的代表结构例中的一个。

图4示意地表示在本发明的操作管理系统中所使用的相关分析规则信息。

图5示意地表示通过图4所示的相关分析规则信息指定为应用对象的拓扑。

图6示意地表示对成为规则的应用目标的IT装置的列表进行管理的表状数据结构的一个例子、即规则应用目标管理表。

图7是本发明的一个实施方式的相关分析规则信息的应用信息的生成处理流程。

图8示意地表示通过成为本发明的第一实施方式中的IP-SAN的客户机的计算机所取得的IP-SAN存储装置的连接信息。

图9示意地表示本发明的第一实施方式中的与通过结构管理保存的管理对象IT装置的IP-SAN存储装置相关的结构信息。

图10是本发明的第一实施方式中的向用户提议将非管理IT装置包含在管理对象中的画面显示例。

图11示意地表示本发明的第一实施方式中的用于管理非管理IT装置的表状数据结构的一个例子、即非管理IT装置管理表。

图12示意地表示本发明的第一实施方式中的保存规则的应用目标IT装置的列表的规则应用目标管理表。

图13示意地表示通过成为本发明的第一实施方式中的FC-SAN的客户机的计算机所取得的FC-SAN存储装置的连接信息。

图14示意地表示本发明的第一实施方式中的与通过结构管理保存的管理对象IT装置的FC-SAN存储装置相关的信息。

图15示意地表示本发明的第一实施方式中的能够在成为文件服务器的计算机中取得的与文件服务器相关的识别信息和公开名。

图16示意地表示本发明的第一实施方式中的故障分析结果的画面显示处理流程。

图17示意地表示本发明的第一实施方式中的、非管理IT装置为故障原因时的故障分析结果数据的一个例子。

图18示意地表示本发明的第一实施方式中的、非管理IT装置为故障原因时的故障分析结果的画面显示的结构例。

图19示意地表示本发明的第一实施方式中的、非管理IT装置为故障原因时的故障分析结果的画面显示

图20示意地表示本发明的第二实施方式中的故障分析的全体处理流程。

图21是本发明的一个实施方式的相关分析规则信息的应用信息的生成处理流程。

符号说明:

N0、操作管理服务器;N1~N3、计算机;N4、网络(NW)交换器;N5、存储装置;O1、计算机;O2、NW交换器;O3、存储装置;M1、画面输出装置

具体实施方式

下面对本发明的实施方式进行说明。

(实施例1)

图1是表示用于实施本发明的信息处理系统的一个结构的概要图。

信息处理系统由操作管理系统和操作管理服务器构成。操作管理系统将构成IT系统的计算机、网络交换器(NW交换器)以及存储装置作为管理对象,通过操作管理服务器N0来监视/管理这些管理对象。

本发明的操作管理服务器N0具备:事件接收部C0,其接收管理对象IT装置中的状态变化、故障信息、通知信息等事件信息;规则引擎C1,其根据接收到的事件信息,根据事先所定义的规则R0进行故障分析;结构管理C3,其管理管理对象IT装置的结构信息;以及画面显示部C2,其将为了操作管理这些装置而需要的信息输出到画面。

另外,在操作管理系统中有根据画面显示部的控制和输出数据、将用于操作管理的信息显示到画面上的装置即画面输出装置M1,该画面输出装置M1与操作管理服务器N0连接。另外,作为画面输出装置M1首先考虑与操作管理服务器连接的显示器装置,但只要能够将分析结果信息显示给操作管理系统的管理者,也可以由其它装置来代替。作为画面输出装置M1的其它例子有:是作为画面输出装置接收操作管理服务器N0发送的电子邮件并能够显示的便携式终端;或者是根据操作管理服务器N0发送的分析结果将信息提供信息给管理者、还接受来自管理者的输入并发送给操作管理服务器N0的带有显示器的计算机。

规则引擎C1由规则应用部C11、规则存储器C13以及事件分析处理部C12构成。规则应用部C11读取用于事件相关分析的分析规则信息R0(以后有时称为相关分析规则信息)、从结构管理C3中取得结构信息T0、进行用于将规则应用到IT系统的IT装置中的处理;规则存储器C13是用于管理规则应用目标管理表C130、并进行规则的分析处理的工作存储器,该规则应用目标管理表C130管理应用信息,该应用信息是用于在规则应用部中将规则应用到IT装置中的信息;事件分析处理部C12接受通过事件接收部C0接收到的事件信息、并进行事件的相关分析。另外,规则应用目标管理表C130只要存储在操作管理服务器N0的存储器中即可,即使不存在于规则存储器C13中也可以。

另外,相关分析规则信息可以通过操作管理服务器N0的管理者生成/存储,也可以通过在后述的本发明的程序中包含相关分析规则信息,存储到存储器中,或者也可以通过本发明的程序的初始化处理,将相关分析规则信息存储到存储器中。

另外,作为构成操作管理服务器N0的硬件,有处理器、存储器(包含以半导体存储器及HDD为代表的可擦写存储装置)、网络端口。各硬件通过总线等内部网络连接。另外,首先考虑将事件接收部C0、规则引擎C1、画面显示部C2以及结构管理C3存储在操作管理服务器N0的存储器中、作为通过处理器执行的程序来实现,但也可以通过硬件来实现这些功能的一部分或者全部。另外,在以后的说明中,将包含事件接收部C0、规则引擎C1、画面显示部C2及结构管理C3的程序称为事件分析程序。

另外,将相关分析规则信息R0、结构信息T0、规则应用目标管理表C130存储在操作管理服务器N0的存储器中。另外,结构信息T0包含后面说明的IP-SAN存储装置的连接信息(图8)、与IP-SAN存储装置相关的信息(图9)、FC-SAN存储装置的连接信息(图13)、与FC-SAN存储装置相关的信息(图14)以及与文件服务器相关的识别信息和公开名(图15)中的至少一个信息。另外,关于后面说明的非管理IT装置管理表(图11),也作为包含在结构信息中的内容进行说明,但如果存储在操作管理服务器N0的存储器中的话,则也可以存储为结构信息T0以外的信息。

另外,关于相关分析规则信息R0、结构信息T0、规则应用目标管理表C130、IP-SAN存储装置的连接信息、与IP-SAN存储装置相关的信息、FC-SAN存储装置的连接信息、与FC-SAN存储装置相关的信息、与文件服务器相关的识别信息和公开名、以及非管理IT装置管理表,只要包含后面说明的信息即可,而不必为文本文件或表、队列结构等特定的格式、数据结构。由于在以后的说明和权利要求中明确记载作为更加一般性的信息,因此有时将相关分析规则信息R0、结构信息T0、规则应用目标管理表C130、IP-SAN存储装置的连接信息、FC-SAN存储装置的连接信息、与IP-SAN存储装置相关的信息、与FC-SAN存储装置相关的信息、与文件服务器相关的识别信息和公开名、以及非管理IT装置管理表分别称为相关分析规则信息、结构信息、规则应用目标管理信息、IP-SAN存储装置的连接信息、FC-SAN存储装置的连接信息、与IP-SAN存储装置相关的信息、与FC-SAN存储装置相关的信息、与文件服务器相关的识别和公开名信息、以及非管理IT装置管理信息。

另外,虽然未图示,但是操作管理服务器将从作为管理对象的各种IT装置接收的事件信息作为事件表目(event entry)存储到在存储器内所定义的事件数据库中。另外,事件数据库可以为任何形式的数据结构,只要包含一个以上的事件表目即可。

另外,事件信息包含事件内容,但是也可以包含事件发生时间。另外,事件数据库也可以根据所决定的条件将过去的事件信息作为履历保留。另外,当包含在事件数据库中并存储在存储器中时,操作管理服务器的程序(特别是结构管理C3)也可以把作为事件信息取得对象的IT装置的识别信息、和通过操作管理服务器而得的事件信息接收时间关联起来一起进行包含。另外,事件内容至少要包含事件的类别,根据情况也可以包含用于确定该事件发生的IT装置内的硬件以及软件的信息。

另外,作为事件的类别,例如考虑了以下的类别,但是也可以存在这些之外的类别。

(A)该IT装置的工作状态为预定的状态(例如其中包含发生硬件故障或软件故障)

(B)健康诊断结果为预定的结果(例如其中包含一定时间没有健康诊断应答的情况)

(C)处理速度、或者作为构成IT装置的组件的处理器或存储器、HDD等的消费资源量已与预定的条件相符合(例如其中包含HDD的剩余容量低于10%的情况)

(D)IT装置接收到满足预定的条件的网络访问(例如,其中包含:IT装置接收到的请求超过了预定的次数、接收到预定次数的被请求的DoS攻击和被识别的网络数据包、从所规定的IT装置以外的IT装置接收到请求等情况)

另外,考虑通过如下方法向存储器存储事件分析程序:从存储有该程序的DVD-ROM或CD-ROM等介质安装或者拷贝的方法,或者从能够与操作管理服务器N0通信的程序分发服务器接收该程序(或者能够在存储器上生成该程序的信息)的方法。但也可以是这些之外的方法。另外,关于向操作管理服务器N0存储程序,也可以是事先存储后使其分配给操作管理服务器N0的方式。

通过以上说明的操作管理服务器N0来分析信息处理系统故障的根本原因。

另外,在操作管理系统中,事先指定管理对象IT装置,将事件信息作为相关分析的分析对象从该IT装置接收需要的信息。如此,在操作管理系统中,确定进行接收的IT装置是因为如果对与网络连接的所有IT装置进行管理,则为了管理所需要的管理服务器的处理器、存储器、硬盘等存储装置等的消费量就变得庞大,实际上难以进行监视,所以通过缩小管理对象来避免上述问题。另外,如果管理工具是商用的,则基本上存在通过管理的IT装置的种类或台数等限制许可数量的情况。因此在IT系统中,为了分析事件信息存在:操作管理服务器N0取得事件信息或者被允许取得的IT装置(以后,有时表现为被监视的IT装置、或被管理的IT装置或管理IT装置或管理内IT装置或事件取得对象装置。另外,同样的表现对作为IT装置的实际形态的计算机、交换器、路由器、存储装置也适用)、以及操作管理服务器N0不取得事件信息或者被限制取得的IT装置(以后有时表现为未被监视的IT装置、或未被管理的IT装置或非管理的IT装置或非管理IT装置或事件关联信息处理装置来表示。另外,同样的表现对作为IT装置的实际形态的计算机、交换器、路由器、存储装置也适用)。

在操作管理服务器N0中,关于未被监视/管理的IT装置,又被分类为:在操作管理服务器N0中一度被发现存在、或被确认、或被管理的IT装置;以及在操作管理服务器N0中一次也没被发现存在、或被确认、或被管理的IT装置。关于通过操作管理服务器N0一度被管理过的IT装置,或发现、或确认过的IT装置,虽然无法说与被监视/管理的IT装置等同,但是也有将通过该发现或者确认而取得的结构信息例如IT装置的IP地址、或主计算机名、或FQDN(Fully Qualified Domain Name)等保存在内部并进行管理的。在本发明中,定义为非管理对象的IT装置包含:操作管理服务器N0不具有对应的结构信息的非管理对象的IT装置;以及已经将对应的结构信息中的一部分或全部结构信息存储在操作管理服务器N0中的非管理对象的IT装置。

关于作为操作管理系统的非管理对象的情况,有:管理对象内的IT装置使用如DNS服务器那样提供给全球的服务的情况;以及由于防火墙、访问权限的问题、网络结构、访问手段的缺陷等原因,操作管理系统无法充分进行用于管理的信息的收集的情况。

另外,本发明将网络上存在的多个IT装置之间的相关分析作为对象。但是,即使是由于原本具有相关性的多个装置为主要原因引起的事件同时发生时,在各装置的时钟中也会发生偏差,并且事件信息转发的时间也发生偏差,因此,操作管理服务器N0分析作为分析对象的事件信息,是对在程序开发者所预定的时间宽度(期间)或者在管理者所规定的期间内所发生的或所接收的事件信息进行分析。另外,即使产生了某种主要原因,有时也会发生与该主要原因相关的事件产生偏差的情况(例如Web服务或DNS服务等经由高速缓冲存储处理从服务器计算机接受预定的网络服务的情况),因此,需要以期间为对象的分析,而不是特定的时间。

另外,作为事件,期望优选的是在某种程度上动态地发生的事项。另外,更加优选的是:发生预定的主要原因从而成为主要原因的IT装置中的事件发生(或操作管理服务器接收)的时间与受该主要原因的影响而在另外的IT装置中的事件发生(或操作管理服务器接收)的时间差为在所述期间内的事件的主要原因。

关于作为另一方面的结构信息所考虑的信息,优选构成IT装置的硬件的种类及个数、或为了与该装置通信所必要的通信识别信息或名称这样的信息,虽然能够通过一部分IT装置的管理者进行变更,但是优选准静态的信息。

图2表示基于上述结构的本发明中的一个实施方式的概要的处理的流程。

在S1中,规则引擎C1事先读取相关分析规则信息R0,从结构管理C3中取得管理对象的结构信息T0,再从T0中检索规则群R0的应用目标IT装置的识别信息,然后存储到规则应用目标管理表C130中。S1的处理是其后进行的由事件引起的故障分析处理的准备,只要在分析处理之前进行即可。在作为实施方式之一的第一实施方式中,在操作开始前进行分析处理,事先将规则应用目标管理表C130保存在规则存储器C13内。

在S2中,通过事件接收部C0等待接收从操作管理系统内的管理对象IT装置发出的事件。

S3是与操作管理系统的运行操作相关的、用于确认是否已指示停止处理的步骤,是用于进行操作停止的步骤。

在S4中,判断是否已通过事件接收部C0接收到了事件。当已接收到时,在S5中将通过事件接收部C0接收到的事件输入到事件分析处理部C12,然后根据规则应用目标管理表C130求出相应的规则,并根据该规则确定故障原因。

在S5中,将所确定的故障原因输出到画面显示部C14。画面显示部C14根据所接受的分析结果输出数据发送分析信息,由此将操作管理所需要的画面输出/显示到画面输出装置M1。

另外,作为S2及S4的处理的代替,也可以将接收到的事件信息临时存储在事件数据库中。

本发明的一个效果是:在该概要的处理流程中,通过修改规则应用部的处理,就能够对非管理对象的IT装置的故障原因进行分析,而不用大幅度地改变结构或其后的处理流程。

图3是表示本发明的实施方式所设想的IT系统的一个结构的概要图。图3的IT系统由如下装置构成:作为操作管理对象的操作管理系统,其由管理服务器N0进行操作管理的计算机N10、计算机N11、计算机N12、作为网络交换器的IP交换器N21和FC交换器N31、以及存储装置N40和存储装置N41构成;作为管理服务器N0不进行管理的非管理对象的IT装置的存储装置U2和计算机U5;以及经由路由器N20与网络G0连接的存储装置U1、计算机U3和计算机U4。另外,在此所述的计算机、交换器、路由器、存储装置等IT装置的个数只是一个例子,在操作管理系统中至少包含具有提供网络服务的服务器功能的IT装置和具有接受提供该网络服务的客户机功能的IT装置即可。

非管理对象的IT装置的存储装置U1是具备IP-SAN接口的存储装置,对管理对象计算机N10提供逻辑卷。另外,非管理对象的存储装置U2是具备FC-SAN接口的存储装置,经由管理对象FC交换器N31,对管理对象计算机N13提供逻辑卷。非管理对象的IT装置的计算机U3或计算机U5是文件服务器,分别对管理对象计算机N10、N11两者公开文件系统,但计算机U3属于与操作管理系统不同的网络区段(network segment),与计算机U3相关的详细的信息不能从网络上取得。

另一方面,计算机U5的文件服务器与操作管理系统属于同样的网络区段,是能够通过操作管理系统自动地发现存在的计算机,是虽然操作时被发现但没有成为管理对象的IT装置。另外,非管理对象的IT装置的计算机U4是DNS服务器,对图3的IT系统的所有的IT装置应用名称解决功能。

在此,为了理解,在阐述第一实施方式前,说明如何对管理对象IT装置应用事件相关技术的规则。

图4是暗示对于图1所示的IT系统,存储装置的控制器故障是根本原因的规则的例子。如此用于确定故障分析的根本原因的规则大多根据事件相关性,以if-then形式将预测为发生的事件的组合与成为根本原因的故障作为一对来表示。在if-then形式的规则表现中,列出“如果if中所述的条件成立,则then部分为真”这样的意思的规则。

在实施例中,与专家系统等一般性的规则一样,用if-then的形式来记述规则,与成为规则的应用对象的IT装置相关的信息是if条件部分中预先定义的信息。另外,规则的记述形式本身也可以不是if-then形式,作为能够确定成为应用规则的对象的IT装置的任何的连接/关系信息,事先定义拓扑即可。

另外,实际上存储各规则的信息是规则表目。相关分析规则信息包含一个以上的规则表目。另外,如果更加抽象化,也可以说该规则表目包含以下的信息:

(A)表示包含了符合该规则的事件类别的条件的条件表目。如上所述,该条件表目中可以将拓扑包含为条件。

(B)在符合了该条件时,表示成为原因的事件、以及与该事件相关的IT装置或IT装置的硬件/软件的部位的原因表目。

作为第一实施例,如图4所示那样事先定义了如下规则:使用了iSCSI的IP-SAN的存储装置的控制器故障为根本原因的规则R1;使用了Fibre Channel的FC-SAN的存储装置的控制器故障为根本原因的规则R2;文件服务器故障为根本原因的规则R3;以及网络无法到达DNS服务器为根本原因的规则R4。另外,在图6中表示了作为针对规则保存应用该规则的IT装置的信息的规则应用目标管理表。规则应用目标管理表是由栏C101和栏C102构成的信息,不需要是数据库上的图表,其中栏C101是指示该规则的识别信息的栏、栏C102是应用目标IT装置的列表的栏,其存储应用该规则的对象IT装置的识别信息。另外,本表状的数据结构可以通过对表进行标准化来分割为多个表状的数据结构进行管理。

图5表示了对于图3所示的规则R1~R4,应用各规则的拓扑的模式。图5中的(1)表示:表示规则R1的IF部暗示的连接/关系信息的拓扑,表示计算机的Computer具有iScsiInitiator,经由表示IP交换器的IpSwitch与表示存储装置的Storage的iScsiTarget连接。iScsiTarget是用于识别iScsiInitiator的连接目的地的iSCSI名,对计算机具有的连接目的地的iScsiTarget、以及与存储装置具有的iScsi的端口的iSCSI名一致的计算机和存储装置的组合应用规则R1。在图3所示的IT系统中,规则R1的应用目标IT装置为如图6的行L101和L102所示的装置。

另外,关于图5中的(2)也同样,表示:如规则R2的IF部暗示的那样,计算机具备FcHba,FcHba经由FcSwitch与存储装置的PcPort连接。此时,作为具有连接关系的装置,将FcHba具有的连接目的地端口WWN(WWN:WorldWide Name)和与FcPortWWN一致的装置作为规则R2的应用对象,其中FcPortWWN为存储装置的Fibre Channel的端口即FcPort的WWN。在图3的IT系统中,作为这些计算机和存储装置的组合,规则R2的应用目标的IT装置为图6的行L103所示的装置。

关于图5中(3),规则R3的IF部表示文件服务器-客户机的拓扑。具有表示安装有文件服务器的文件系统的信息ImportedFileShare的计算机T31和具有表示对外部公开文件系统的信息ExportedFileShare的计算机T33经由IP交换器T32各自是客户机-文件服务器的关系。此时,在ImportedFileShareT311中,作为与安装源的文件服务器相关的信息,具有文件服务器的识别信息(IP地址或FQDN(Fully Qualified Domain Name)等)和所公开的文件系统的公开名,在ExportedFileShareT331中具有所公开的文件系统的场所和公开名(也称为共享名)。

将通过ImportedFileShare所指的文件服务器的识别信息表示的计算机、且该计算机具有ExportedFileShare的信息、ExportedFileShare的公开名与计算机T31的ImportedFileShare所指的公开名一致的计算机的对作为文件客户机-文件服务器的拓扑应用规则R3。因此,在图3的IT系统中,作为满足其的组合,规则R3的应用目标IT装置为图6的行L104所示的装置。

关于图5中的(4),是规则R4所暗示的DNS服务器和客户机的拓扑,提供解决名称服务器的DNS服务器的计算机T42和通过DNS服务器解决IP地址和FQDN的名称的客户机计算机T41成为一对,存储在图6所示的应用目标管理表中。

针对与记述为这样规则的连接或关系有关的拓扑信息的结构,能够事先通过系统被定义,并能根据规则描述而被唯一地确定。

关于针对规则的应用目标IT装置,具有图6的应用目标管理表,由此能够通过在事件发生时参照该表,判断事件与哪个规则相关联,从而选择应该应用的规则。以上是针对管理对象IT装置的规则的应用方法。

图7及图21是关于图2的规则应用部C11中的步骤S1,将本发明的一个实施方式进行细分后的流程图。根据该处理流程,假设图3的IT系统和图4的规则R1~R4来说明第一实施方式。另外,图7及图21的处理全部是在规则应用部中进行的。另外,操作管理系统事先对曾经发现过的IT装置进行存储,作为能够判断为已经发现的IT装置的前提。或者,操作管理系统在不具有自动发现IT系统内的IT装置的功能时,或者,即使具有自动发现的功能、却不具有对所发现的IT装置进行存储的功能时,作为不存在已发现的IT装置,进行图7及图21的处理。

(关于一般的流程的说明及应用了规则R1的情况)

在S101中,判断是否存在要读取到相关分析规则信息R0中的规则、即不是已读取的规则。判断的结果是,如果存在要读取的规则(“是”),则迁移到S102。否则(“否”时),结束处理。由于要读取的规则存在R1~R4,所以在此为“是”、迁移到S102。

在S102中,读取一个规则,为了表明已读取,例如加上标识,或者作为已读取的规则进行存储。在实施方式中,读取规则R1,将规则R1作为已读取规则进行存储,然后迁移到S103。

在S103中,求出与规则中所记述的拓扑信息对应的IT装置的检索条件,然后迁移到S4。在实施方式中,作为规则R1的拓扑信息,具有iScsiInitiator的计算机、具有通过iScsiTarget识别的iSCSI的端口的存储装置、以及与这些相连接的IP交换器成为应用规则R1的IT装置的检索条件。检索条件是事先针对规则的描述而定义的。

在S104中,从管理对象IT装置的结构信息中检索拓扑信息中的、客户机端的IT装置。另外,关于结构信息的检索,如果管理结构信息的是数据库,则对数据库进行检索,如果是文件,则对文件进行检索,而作为不管检索对象的存储介质或装置等。在实施方式中,在规则R1的拓扑中,从结构信息中检索表示客户机的具有iScsiInitiator的计算机。在本实施例中,如果计算机N10或计算机N11具有iScsiInitiator,则通过检索,发现计算机N10或计算机N11的识别信息。

由于对于多个计算机的情况执行S106以后的处理,因此在步骤S105中判断在通过检索所发现的IT装置中是否有未选择的IT装置。在本实施例中,计算机N10或计算机N11为未选择的IT装置,因此前进到S106。

在S106中,从未选择的IT装置中选择一个,作为已选择。在本实施方式中,选择计算机N10,并将计算机N10作为已选择,前进到S107。

在107中,取得与在S106中所选择的IT装置在拓扑上相对的服务器一侧的IT装置的信息。在此,作为服务器一侧的IT装置的信息有:用于识别服务器一侧的IT装置的信息(IP地址、或者主计算机名、FQDN等)、与提供的服务有关的信息(文件服务器中的公开文件系统的公开名(也称为共享名)、或者用于识别存储装置的磁盘卷的LUN号码、或者连接目的地的iSCSI名、或者FC Port的WWN)。在本实施例中,取得图8所示的连接目的地的iSCSI名即ConnectedIscsiTarget作为与计算机N10相对的服务器一侧的存储装置的信息。

在S108中,判断在与通过S107所取得的服务器一侧的IT装置相关的信息中是否存在对与该信息对应的IT装置没有进行检索的,当存在(“是”)时,迁移到S109,当不存在时(“否”),迁移到S105。在本实施例中,如图8所示,至少存在3个未检索的信息(“是”),因此迁移到S109。

另外,在此,若对图8中包含的信息进行说明,则该信息中具有用于表示IT装置(更加具体地讲为计算机)的识别信息和该IT装置为连接目的地的存储装置的iSCSI中的识别信息。

在S109中,选择一个通过S107所取得的服务器一侧的IT装置的信息中的、未检索的信息。根据该信息从管理对象的结构信息中检索服务器一侧的IT装置。在本实施例中,从管理对象的结构信息中检索存储装置,该存储装置在iScsiTarget中具有从计算机N10所取得的如图8所示的ConnectedIscsiTarget的行L201表示的iSCSI名。

在S110中,当S109的检索结果是不存在相当于管理对象IT装置的装置(“否”)时,迁移到S111。另一方面,当存在相当于管理对象IT装置(“是”)时,成为与通常的规则应用处理同样的处理,迁移到S121。在本实施例中,与管理对象存储装置的iScsiTarget有关的结构信息为图9所示的信息。此时,如图9所示那样,在管理对象中不存在具有与图8的L201行的ConnectedIscsiTarget一致的iScsiTarget的存储装置,因此迁移到S111。

另外,在此对图9中所包含的信息进行说明,该信息中具有用于表示存储装置的识别信息、和该存储装置具有的iSCSI中的识别信息。

另外,在结构信息T0中包含表示针对已经发现的一个以上的IT装置中的每一个IT装置该装置是否为事件取得对象(即该装置是否为被监视的装置,换言之,是许可还是抑制该装置取得事件)的事件取得可否信息,通过参照该数据,进行S110的判断。

在S111中,判断是否为已经在操作管理系统中发现过的IT装置。即,在此判断是否为在操作管理系统中曾经被发现存在、或者被确认过、或者被管理过的IT装置、并且为部分地操作管理系统具有静态结构信息的IT装置。在本实施例中,没有任何具有与图8的L201行的ConnectedIscsiTarget一致的iScsiTarget的存储装置有关的结构信息、作为不是已发现资源的装置(“否”),前进到S112,。

另外,关于S111的判断,有通过在结构信息中是否存在与该装置相关的信息(例如,事件取得可否信息)进行判别的方法。

在S112中,尝试从非管理的IT装置中发现具有与图8的L201行的ConnectedIscsiTarget一致的iScsiTarget的存储装置。作为S112的有无非管理IT装置的检索方法的一个例子,有如下方法:针对从结构信息中取得、或与成为通过用户所输入的对象的资源对应的IP地址或FODN等通信识别符,或者从结构信息中取得、或对与包含成为用户所输入的对象的资源的网络区段相对应的IP地址即网络地址内的地址IP地址、或FQDN等通信识别符,发送寻求与成为对象的资源相关的服务提供的请求,等待有无应答来确认存在成为对象的资源。在本实施例中,尝试从图3所示的IT系统中发现。

在S113中,判断通过S112所尝试的发现是否已成功。当已成功(“是”)时,迁移到S14。如果没有成功(“否”),则迁移到S116。在本实施例中,图3所示的存储装置U3作为相应的存储装置而被发现,迁移到S114。

在S114中,判断是否能够将在S113中发现的IT装置作为操作管理系统的管理对象。关于是否能够作为管理对象的判断,通过是否能够从对象IT装置中取得为了该操作管理系统进行监视/管理而所需要的信息来判断。关于为了监视/管理所需要的信息,针对每个操作管理系统有各种信息,但是作为共通的信息是:用于识别该IT装置的信息,例如IP地址、或WWN(World Wide Name),或任何的唯一的识别信息(号码)、装置名(主计算机名)、FQDN等至少一个以上的信息。

另外,期待也能够在某种程度上取得与构成该IT装置的硬件的种类或个数相关的一个以上的信息。在本发明中,操作管理服务器N0具有预定的判断基准,根据该判断基准进行该判断。在本实施例中,作为与存储装置U3有关的信息,该存储装置具备iSCSI端口、能够取得iScsiTarget的信息作为该iSCSI端口的iSCSI名,并作为判断为能够成为管理对象的装置,前进到S115。另外,因为在后续的处理中有将该装置作为管理对象的情况,因此,也可以在本步骤中,除进行确认能够从该IT装置中接收事件信息的处理外,仅在能够确认时,前进到S115。

在S115中,对用户提示是否将已在S113中发现的IT装置作为管理对象。在本实施例中,提示:作为计算机N1的存储装置服务器,发现了存储装置U3,以及是否将存储装置U3归为管理对象。提示画面为图10。

在S116中,操作管理服务器N0(尤其是规则引擎)接收来自管理画面输出装置的输入。

在S117中,判断用户是否将所发现的IT装置作为管理对象,作为管理对象(“是”)时,前进到S118,否则(“否”)前进到S119。在本实施例中,假设用户没有将存储装置U3作为管理对象,因此前进到S119。

在S118中,针对用户进行了包含在管理对象中的判断的IT装置取得信息,作为管理对象IT装置将信息存储到结构管理中。在本实施例中,在该时刻还没有来到这些分叉点。

在S119中,将成为与客户机相对的服务器作为非管理IT装置,在非管理IT装置管理表中存储关于能够取得的信息,进行管理,然后前进到S120。在本实施例中,关于存储装置U3,作为识别装置的信息,设为FQDN和存储装置的IP端口的iSCSI名即iScsiTarget能够取得的信息,并将其存储到图11的非管理IT装置表TL3中。

另外,若在此处对图11进行说明,则在非管理IT装置表TL3中,关于所发现的非管理IT装置的每一个,包含以下的信息:

(A)非管理IT装置的识别信息;

(B)作为非管理IT装置的类别的C401;

(C)作为非管理IT装置的通信识别信息的C402;

(D)作为为了访问非管理IT装置的服务所需要的识别信息的C403。

在S120中,对非管理IT装置的识别信息通过附加能够明白该IT装置为非管理的标志,如图12所示存储到规则应用目标管理表TL1中。在本实施例中,根据与存储装置U3有关的非管理IT装置管理表的信息,将识别信息存储到规则应用目标管理表TL1中。存储后,关于是否存在与所选择的客户机一侧相对的服务器一侧的IT装置有关的检索信息,返回到S8。

在本实施例中,如果返回到S108,则判断与在S107中所取得的服务器一侧的存储装置有关的检索信息中是否存在未检索的信息,但因为关于与计算机N10有关的服务器一侧的存储装置有关的检索信息存在图8的L202行,因此迁移到S109。

如果迁移到S109,则通过结构管理检索与L202对应的存储装置。在实施例中,如图9所示,存储与L202对应的存储装置,因此可知对应L202的IT装置是管理对象,因此,在S110中判断为管理对象IT装置,迁移到S120。在S120中,作为管理对象IT装置,将存储装置N40和计算机N10的列表作为规则R1的应用目标IT装置存储到图11的规则应用目标管理表的L101中。

通过以上的步骤,能够应用规则R1包括对计算机N10提供逻辑卷的非管理对象的存储装置U1。

接下来,使用图11的规则应用目标管理表,作为图2的S6的一个例子,即在非管理的存储装置U1中发生了故障时,对将所述存储装置U1作为故障的根本原因进行画面显示的处理进行说明。

从存储装置U1发生控制器的故障事件,一旦在图1的事件分析处理部C12中,当基于图11的规则应用目标管理表根据规则的事件相关性确定了故障的原因部位时,则将该分析结果的信息发送到画面显示部C2。在画面显示部C2中,根据图16的流程来判断根本原因的IT装置是否为管理对象,并将适当的画面显示在画面显示装置M1中。

在图16的步骤601~603中,在画面显示部C2中,从规则引擎C1中取得表示图17所示的规则引擎中的故障分析的结果的故障分析结果数据D1。另外,规则引擎C1(特别是事件处理分析部C 12)进行通过图2的S4及图4和图5所说明的处理。

故障分析结果数据D1由包含与故障原因IT装置有关的信息的故障原因IT装置信息、和与操作管理系统所接受到的管理对象IT装置的事件有关的信息即接收事件列表的数据构成。故障原因IT装置信息D11包含表示故障原因IT装置的信息、和与故障位置的部位有关的信息。与故障位置的部位有关的信息与能够从作为非管理对象的IT装置的故障原因IT装置中取得怎样程度的故障信息有关。当根本无法取得故障信息时,如图17所示那样为不明。接收事件列表,在关于该故障所定义的规则中,包含:作为与有关联的接收事件有关的信息的、作为与接收事件的发送源有关的信息的接收事件发送源;以及表示与事件的内容有关的信息的事件类别。

在S604中,根据所取得的故障分析结果数据D11的故障原因IT装置的信息判断是管理对象还是非管理对象。在本实施例中,因为是非管理对象的IT装置,所以前进到S605。

在S605中,根据故障分析结果数据D11的故障原因IT装置的信息来检索图11的非管理IT装置管理表,取得与该非管理IT装置有关的信息,前进到S606。在本实施例中,关于存储装置U1,从图11的L401中取得。

在S606中,包含通过S605所取得的信息,将发生的故障的根本原因为非管理的IT装置是原因显示到画面上。关于此时的画面的结构例,如图18所示那样,将包含了如下信息的窗口或对话框等显示画面输出到画面输出装置M1:传达非管理IT装置为故障的根本原因的消息;对于故障原因进行分析而得的结果即故障分析结果;以及操作管理系统对于所发生的故障正在进行检测的故障信息,例如正在接收的事件等。关于作为本实施例的非管理IT装置的存储装置U1的故障为根本原因的例子中的显示画面例为如图19所示那样。例如是包含如下内容的画面显示:知道故障原因IT装置为非管理对象的信息,该IT装置的类别是什么、例如是IP-SAN存储装置,作为IT装置的识别信息、例如IP地址为192.168.100.15。

通过以上的步骤,能够在非管理对象IT装置的存储装置U1中发生故障时,对于由非管理对象所引起如规则R1那样的IP-SAN存储装置的故障情况也能够应用,能够在画面上显示根本原因是非管理对象的IP-SAN存储装置。

(关于规则R2的处理流程)

关于规则R2,根据以图3的IT系统为对象的实施例对流程进行说明。

在S101中,因为有规则R2,所以前进到S102,在S102中读取规则R2,并给R2附加已读取的标志。在S103中,关于规则R2中所记述的拓扑信息,作为图4中的(2)的FC-SAN拓扑,将在客户机一侧具有Fibre Channel的Host Bus Adapter即FcHbaT211的计算机T21经由FC交换器T22与在服务器一侧具有Fibre Channel端口即FcPortT231的存储装置T23连接的拓扑定为检索条件。

在S104中,作为客户机一侧的IT装置,设为发现具有FcHba的计算机即计算机N13。

在S105中,因为计算机N13为未选择的IT装置,所以前进到S106。

在S107中,如图13所示,从计算机N13收集表示FCPort的WWN的ConnectedFcPortWWN C502,该FCPort是连接目的地服务器一侧的存储装置的FibreChannel端口。

另外,当说明图13的FC-SAN存储装置的连接信息时,作为与每个IT装置对应的信息包含连接目的地存储装置具有的FibreChannel的识别信息。

在S108中,关于与计算机N13中的连接目的地的存储装置有关的检索信息即ConnectedFcPortWWN,是未检索的,因此前进到S109。

在S109中,使用行L501的C502的值作为通过计算机N13所取得的ConnectedFcPortWWN,在结构管理中检索在FCPort的WWN中具有该WWN的存储装置。

在S110中,因为S109检索的结果是如图14所示在管理对象的结构信息中不存在具有将图13的行L501的C502的值作为FCPort的WWN的存储装置,因此前进到S111。

另外,在此对图14中包含的信息进行说明,在该信息中具有:用于表示存储装置的识别信息、和该存储装置具有的FibreChannel中的通信识别信息。

在S111中,因为在已发现的存储装置中,发现了具有将图13的行L501的C502的值作为FCPort的WWN的存储装置U2,所以前进到S115。

在S115中,显示提议将已发现的存储装置U2包含在管理内的画面。虽然图10是规则R1中的画面显示例,但是显示画面的结构基本相同,只是将消息的内容替换为实际的IT装置的内容。

在S116中,从管理者接收存储装置U2的识别信息和将该装置作为管理对象的指示信息。

在S117中,确认用户是否已包含在管理对象中,因为在本实施例中为已包含在管理对象中,所以前进到S118。

在S118中,关于作为管理对象新追加的存储装置U2,收集作为管理对象IT装置需要取得的信息。作为管理对象取得的信息为事件信息和结构管理信息。

在S121中,将存储装置U2作为管理对象IT装置,与计算机N14一起作为规则R2的应用目标IT装置,登录到规则应用目标管理表中。在该种情况的例子中,登录到由图12所示的规则的栏C101、和存储成为该规则的应用目标的IT装置列表的栏C102构成的表状的数据结构中。

通过如上所述,关于规则R2,能够通过现有的规则库的事件相关性进行作为非管理对象的IT装置的FC-SAN存储装置的故障分析。

另外,根据故障分析的结果数据,关于当作为非管理对象的IT装置的FC-SAN存储装置为故障的根本原因时输出画面显示的处理,与规则R1的非管理对象的IP-SAN存储装置为故障的根本原因时进行画面显示的处理一样在图16的步骤进行。

通过上述的处理步骤,在非管理对象的IT装置的存储装置U2中发生了故障时,对于由非管理对象引起如规则R2的FC-SAN存储装置的故障,也能够应用规则R2,并能够在画面上显示根本原因是非管理对象的FC-SAN存储装置。

(关于规则R3的处理流程)

关于规则R3,根据以图3的IT系统为对象的实施例对流程进行说明。

在S101中,因为有规则R3,所以前进到S102,在S102中读取规则R3,并给R103附加已读取的标志。在S103中,关于规则R3中所记述的拓扑信息,作为图4中的(3)的文件服务器/客户机的拓扑,将在客户机一侧具有表示安装有已公开的文件系统的ImportedFileShareT311的计算机T31经由IP交换器T32与在服务器一侧具有ExportedFileShareT331的计算机T33连接的拓扑定为检索条件,该ExportedFileShareT331表示具有在其它的计算机中公开的文件系统。

在S104中,作为图4中的(3)的拓扑的客户机一侧的IT装置,设为发现图3的计算机N10。

在S105中,作为检索到的客户机一侧的IT装置有计算机N10,因为是未选择,所以前进到S106。

在S106中,选择图3的计算机N10作为未选择的客户机一侧的IT装置,并设定为已选择。

在S107中,取得表示安装了哪个文件服务器的公开文件系统的ImportedFileShare的信息作为计算机的检索信息,该计算机作为图4中的(3)的拓扑的服务器一侧的IT装置、与计算机N10相对。作为管理从客户机一侧取得的、与文件服务器有关的信息的表,通过包含图15所示的客户机一侧的计算机的栏C701、与栏C701对应的文件服务器有关的识别信息的栏C702、以及与文件服务器的公开名有关的栏C703的数据结构,例如通过表等进行管理。另外,从客户机取得的与文件服务器有关的信息可以作为结构信息事先通过图15的表取得完成,也可以在S7的处理中从客户机一侧的IT装置取得。即,取得的时刻在S107的处理完成之前进行即可。

另外,在此对图15中包含的信息进行说明,在该信息中针对每个文件服务器包含以下的信息:

(A)作为文件服务器的IT装置的识别信息;

(B)作为一个以上文件服务器的识别信息和公开名。

在S108中,通过S107所取得的与客户机一侧的文件服务器有关的信息为图15的L701,因为是未检索,所以前进到S9。

在S109中,检索具有图15的行L701的文件服务器的识别信息的栏C702的值,即检索具有称为exportfs.domain2.com的FQDN的IT装置。

在S110中,因为在管理对象的结构信息T0中不存在具有称为exportfs.domain2.com的FQDN的计算机,所以前进到S111。

在S111中,因为在已发现资源中不存在具有称为exportfs.domain2.com的FQDN的计算机,所以前进到S112。

在S112中,尝试发现称为exportfs.domain2.com的计算机。关于发现,询问DNS服务器来解决IP地址,然后通过ping对是否存在该IP地址进行确认,再通过telnet、或ssh、或Windows(注册商标)的远程连接等来尝试访问。在本实施例中,成功返回针对exportfs.domain2.com对应的IP地址的ping,因此能够确认存在该IP地址,但是,因为没有该服务器的认证信息,所以其他的访问失败,无法登录,前进到S114。

在S114中,虽然所发现的exportfs.domain2.com的计算机返回通过ping的应答,但无法取得其以外的信息,无法成为管理对象,因此前进到S119。

在S119中,将exportfs.domain2.com的计算机登录到图11的非管理IT装置管理表中。具体来讲,如图10的L403所示,存储文件服务器识别信息和服务识别信息中在客户机一侧所取得的信息。

在S120中,生成针对由客户机一侧的计算机N10和exportfs.domain2.com的计算机U组成的对的规则应用信息。具体来讲,如图12的L107所示,针对规则R3,将计算机N10和作为非管理IT装置的计算机U3登录到应用目标IT装置列表中。

通过如上所述,也能够对作为计算机N10的文件服务器的非管理的IT装置即计算机U3进行故障分析。

同样,通过S101~S104的步骤,说明关于规则R3、作为客户机一侧的IT装置发现了计算机N11时的实施方式的处理流程。

通过S105~S107的步骤,作为与计算机N11相对的文件服务器取得如图15的L703的行所示的文件服务器的信息。在S109中,因为没有在管理对象IT装置中发现图15的行L703所示的文件服务器,所以前进到S111。在S111中,因为在已发现的资源中存在具有图15的行L703所示的IP地址的计算机U5,所以前进到S115。

在S115中,显示提议将计算机U5包含在管理对象中的画面,通过S116接收用户将计算机U5作为管理对象的指示作为用户输入。

在S117中,因为接收到了S116用户将计算机U5作为管理对象的指示,所以前进到S118。

在S118中,在作为已发现资源而保存的IT装置的识别信息、用于访问的信息以外、还取得包含计算机U5的连接装置的结构信息、工作状态以及性能信息的监视信息作为将计算机U5作为管理对象的信息,存储到结构管理C3的管理对象的结构信息T0中。

在S121中,作为图12的行L108那样的数据结构存储到规则存储器中,以便能够对作为管理内IT装置把计算机N11作为客户机、把计算机U5作为文件服务器的拓扑应用规则R3。

通过上述的处理,能够根据图2的流程对已发现的IT装置、且为非管理对象的文件服务器的计算机U5进行故障分析,能够通过在画面显示部C2中进行图16的流程,将故障原因输出到画面显示装置M1中。

(关于规则R4的处理流程)

关于R4,根据以图3的IT系统为对象的实施例对流程进行说明。

关于规则R4,作为客户机一侧的IT装置,能够通过S101~S104的步骤发现计算机N10。作为针对计算机N10的DNS服务器的检索信息,能够通过S105~S107的步骤从计算机N10取得DNS服务器的IP地址192.168.100.1。通过S108~S110的步骤,使用所取得的IP地址192.168.100.1来确认在结构管理C3的管理对象的结构信息T0中不存在DNS服务器,然后前进到S111。在S111中判断DNS服务器不是已发现IT装置,然后前进到S112,在S112中尝试从实际IT系统对IP地址192.168.100.1的节点的访问。虽然访问的结果是确认通过ping能够到达网络,但是因为不具有认证信息,所以无法登录,在S114中判断为无法作为管理对象,前进到S119。在S119中,将IP地址192.168.100.1的计算机作为非管理对象IT装置,如图11的L404所示那样作为DNS服务器,通过识别信息U4来存储/管理信息,然后前进到S120。在S120中,将客户机的计算机N10和DNS服务器即非管理IT装置的计算机U4作为规则R4的应用目标IT装置列表,如图12的行L109那样进行存储。

通过以上的步骤,能够根据现有的规则的事件相关性进行作为非管理的DNS服务器的计算机U4的故障分析,能够确定非管理的DNS服务器是故障原因。

关于针对图3中的其它IT装置的规则R4的应用,也同样能够通过针对作为非管理的DNS服务器的计算机U4生成应用信息来进行。

另外,能够与其它的规则的实施例一样、通过在画面显示部C2中进行图16的流程,将作为非管理的IT装置的DNS服务器是故障的根本原因显示在画面上。

(实施例2)

关于本发明的第二实施方式,通过如图20所示那样,将生成规则应用部C11中的应用信息的步骤S4b放在事件接收的步骤S3b之后、且在事件分析部C12中的事件分析处理的步骤S5b之前的步骤来进行在第一实施方式中、如图2所示的故障分析的全体处理流程的处理步骤。

该第二实施方式和第一实施方式的区别仅仅是生成规则的应用信息的时刻不同。

如上述那样,即使改变规则的应用信息的时刻来实施本发明,也能够将非管理对象的IT装置为故障的根本原因装置显示到画面上,而不会损害该发明的效果。

以上描述的程序,其用于实现根据本申请说明书的实施例1和实施例2的、与多个信息处理装置和画面输出装置连接且具有处理器和存储器的操作管理服务器中的、事件的分析,该事件发生在所述多个信息处理装置中,该程序具有下述处理的一部分或者全部:

(a)结构信息存储处理,为了所述多个信息处理装置中的每一个信息处理装置作为客户机来使用网络服务,而将作为访问对象的所述多个信息处理装置中的一部分信息处理装置即服务器装置的识别信息存储到所述存储器具有的结构信息中;

(b)登录处理,将作为所述操作管理服务器取得事件信息的对象的多个事件取得对象装置登录到所述存储器具有的结构信息中,该多个事件取得对象装置是所述多个信息处理装置中的一部分;

(c)规则存储处理,当检测到在所述多个信息处理装置中发生的包含与所述网络服务相关联的第一事件类别的事件和包含不同于与所述网络服务相关联的所述第一事件类别的第二事件类别的事件时,将表示因与所述第二事件类别对应的事件发生而可能导致与所述第一事件类别对应的事件发生的相关分析规则信息存储到所述存储器中;

(d)事件存储处理,将从所述多个事件取得对象装置收集到的多个所述事件信息存储到所述存储器中;

(e)事件信息确定处理,根据所述相关分析规则信息,从存储于所述存储器的多个所述事件信息中确定包含所述第一事件类别的第一事件信息;

(f)主要原因确定处理,根据所述结构信息来确定:作为已发送了所述第一事件信息的事件取得对象装置中之一的第一事件取得对象装置、以及与所述第一事件类别对应的所述网络服务中的所述第一事件取得对象装置的服务器装置即故障主要原因装置;

(g)分析结果发送处理,根据所述相关分析规则信息和所述结构信息,当所述故障主要原因装置不是所述多个事件取得对象装置时,向所述画面输出装置发送用于确定所述第一事件取得对象装置、所述第一事件类别、所述故障主要原因装置以及所述第二事件类别的信息,由此,使所述画面输出装置显示:关于在所述第一事件取得对象装置中所发生的与所述第一事件信息对应的事件,推定为在所述故障主要原因装置中发生所述第二事件类别的事件是主要原因。

另外,所述相关分析规则信息包含拓扑条件信息,该拓扑条件信息表示在发生了所述第一事件类别的作为所述多个信息处理装置中之一的第一信息处理装置和发生了所述第二事件类别的作为所述多个信息处理装置中之一的第二信息处理装置之间的拓扑条件,所述主要原因确定步骤也可以根据所述拓扑条件信息来确定所述故障主要原因装置。因为通过这样的处理能够将发生了事件的信息处理装置限定在实际上正在使用的信息处理装置中并由此提示推测,所以对操作管理服务器的使用者来讲便利性更高。

另外,操作管理服务器也可以具有以下的处理。

(h)关联装置确定处理,根据所述相关分析规则信息和所述结构信息,来确定作为所述多个事件取得对象装置的服务器装置的、不包含在所述多个事件取得对象装置中的、作为所述多个信息处理装置中一部分的事件关联信息处理装置;

(i)事件信息取得可否调查处理,对是否能够从所述事件关联信息处理装置中取得事件信息进行调查;

(j)事件信息取得对象追加提议处理,在根据所述调查结果能够从所述事件关联信息处理装置中取得事件信息时,向所述画面输出装置发送用于确定所述事件关联信息处理装置的信息,由此使所述画面输出装置显示能够从所述事件关联信息处理装置中取得事件信息。

这样的处理,通过信息处理装置的管理者或者管理方法的变更,能够从操作管理服务器中需要重新监视事件或者能够监视事件的时刻开始,迅速地催促登录到操作管理服务器,而不忘记登录。

另外,所述事件信息取得可否调查处理也可以是基于:所述操作管理服务器根据预定的步骤对作为所述多个信息处理装置、具有在事先作为调查范围所设定的IP地址的范围中包含的IP地址的信息处理装置进行访问而得的结果。有时为了防止对信息处理装置(特别是经由网络进行访问的服务器计算机)非法访问或者非法攻击,而监视来自该装置外部的访问的情况,有时也会把通过监视访问将通过该调查处理进行访问的情况视为非法访问或非法攻击。因此,通过确定明显不是事件监视对象的信息处理装置的IP地址、或者可能成为事件监视对象的信息处理装置的IP地址的范围,能够抑制这样的被误认为非法访问或非法攻击的通信。

另外,所述故障主要原因装置是具有控制器、提供逻辑卷的存储装置,所述网络服务是根据块访问形式的协议(例如有FibreChannel、iSCSI)来提供所述逻辑卷的服务,所述第一事件类别可以是所述存储装置发生故障,所述第一事件类别也可以是像所述逻辑卷的访问失败。

另外,所述故障主要原因装置是将DNS作为网络服务来提供的计算机,所述第一事件类别可以是DNS请求失败,所述第一事件类别也可以是DNS服务器通信中断。

另外,所述故障主要原因装置是具有从所述多个信息处理装置中的至少一个信息处理装置接收数据的NIC、向所述多个信息处理装置中的至少一个信息处理装置提供所存储的文件的文件服务器计算机,所述网络服务是将所述文件服务器计算机所存储的文件共享的网络文件共享服务,所述第一事件类别可以是所述文件服务器发生故障(例如NIC发生故障、文件服务器具有的处理器执行的软件发生问题、发生其它文件服务器的通信功能停止的故障),所述第一事件类别也可以是对由所述网络文件共享服务所提供的文件的访问失败。

另外,也可以根据所述相关分析规则信息和所述结构信息,在所述故障主要原因装置是所述多个事件取得对象装置中之一时,从多个所述事件信息中确定包含所述第二事件类别、且所述故障主要原因装置为取得源的第二事件信息,并向所述画面输出装置发送用于确定所述第一事件取得对象装置、所述第一事件信息、所述故障主要原因装置以及所述第二事件信息的信息,由此,使所述画面输出装置显示:关于与在所述第一事件取得对象装置中所发生的所述第一事件信息对应的事件,发生与在所述故障主要原因装置中所发生的所述第二事件信息对应的事件是主要原因。

另外,所述第一信息处理装置是计算机,所述第二信息处理装置是存储装置,所述拓扑条件信息也可以包含:表示连接所述计算机和所述存储装置的拓扑连接关系的、与所述计算机对应的通信识别信息和与所述存储装置对应的通信识别信息的组合。另外,将iSCSI名、IP地址、以及FibreChannel中的WWN中的至少一个作为这些通信识别信息。

另外,所述第一信息处理装置是计算机,所述第二信息处理装置是通过文件共享服务向所述多个信息处理装置提供所存储的文件的文件服务器计算机,所述拓扑条件信息也可以包含:表示连接所述计算机和所述文件服务器计算机的拓扑连接关系的、与所述计算机对应的通信识别信息和与所述文件服务器计算机对应的通信识别信息或者公开所述文件的输出名的组合。

另外,所述第一信息处理装置是计算机,所述第二信息处理装置是作为网络共享服务对所述多个信息处理装置提供DNS的DNS服务器计算机,所述拓扑条件信息也可以包含:表示连接所述计算机和所述DNS服务器计算机的拓扑连接关系的、与所述计算机对应的通信识别信息和与所述DNS服务器计算机对应的通信识别信息的组合。另外,与所述计算机对应的通信识别信息和与所述DNS服务器计算机对应的通信识别信息是IP地址或FQDN。

并且,所述操作管理服务器可以由一个以上的计算机构成。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号