首页> 中国专利> 基于历史对可疑组件排优先级

基于历史对可疑组件排优先级

摘要

一种用于服务于计算机化的系统的方法包括:检测所述计算机化的系统中的给定类型的故障,以及响应于所述故障使用自动化维护程序生成校正动作列表。检索所述计算机化的系统中的给定类型的一个或多个先前故障的记录,指示出响应于所述先前故障所采取的至少一个先前的校正动作。所述方法响应于所述记录使用所述自动化维护程序对所述校正动作列表排优先级,以便调整所述列表中的至少一个先前的校正动作的优先级。把来自所述自动化维护程序的排优先级的列表提供给修复功能,用于在服务于所述计算机化的系统时使用。

著录项

  • 公开/公告号CN101107594A

    专利类型发明专利

  • 公开/公告日2008-01-16

    原文格式PDF

  • 申请/专利权人 国际商业机器公司;

    申请/专利号CN200680002465.4

  • 发明设计人 O·尼桑-梅辛;A·兹洛特尼克;

    申请日2006-01-12

  • 分类号G06F11/07;

  • 代理机构北京市中咨律师事务所;

  • 代理人于静

  • 地址 美国纽约

  • 入库时间 2023-12-17 19:41:21

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-12-27

    未缴年费专利权终止 IPC(主分类):G06F11/07 授权公告日:20091111 终止日期:20190112 申请日:20060112

    专利权的终止

  • 2009-11-11

    授权

    授权

  • 2008-03-05

    实质审查的生效

    实质审查的生效

  • 2008-01-16

    公开

    公开

说明书

技术领域

本发明一般涉及计算机系统,并特别涉及用于计算机系统中的故障诊断和维护的方法和系统。

背景技术

包含多个子系统和组件的复杂系统的开发呈现出在可靠性和可维护性上的重要难题。结果,已经提出了用于检测、诊断和校正这种系统中的故障的多种方法和系统。用于自动化自诊断系统的应用的范围从计算机业到工业机器再到航天应用。

例如,美国专利6,003,081描述了一种用于自动生成从远程客户端到服务器的修复请求的方法,其中客户端识别故障部分,并传送错误通知和故障部分的标识到服务器,在此将该专利的公开引入作为参考。类似地,美国专利5,774,645描述了一种用于在包含多个单元的复杂系统中识别故障的设备,在此将该专利的公开引入作为参考。所述设备具有监视复杂单元的系统的集中式处理站,所述复杂单元把故障提示发布给中央处理站。

某些故障监视系统利用来自先前的故障事件的历史信息。例如,美国专利6,415,395描述了一种用于处理来自一个或多个机器的修复数据和故障日志数据以促进对故障机器的分析的系统和方法,其被具体应用于机车行业,在此将该专利的公开引入作为参考。类似地,美国专利6,622,264描述了一种关于机车工业的过程,其用于分析来自机器的故障日志数据以及基于新的故障日志数据与之前的故障日志数据的比较而生成修复建议,在此将该专利的公开引入作为参考。

关于计算机系统,美国专利4,654,852描述了一种数据处理系统,其在其子系统之一中诊断问题,并显示指引操作者执行某些动作的信息,在此将该专利的公开引入作为参考。所述信息基于子系统配置、先前的测试结果以及操作者输入。美国专利4,922,491描述了一种自动检测和分析计算机外围子系统中的异常事件的方法,在此将该专利的公开引入作为参考。数据库被搜索以确定当前异常事件是否涉及已经记录的问题。如果发现匹配,则把包含针对子系统用户和针对修复技师的多种信息的服务警告消息传送到宿主系统。

发明内容

服务于计算机化的系统的成本是对于系统的整体操作成本的主要贡献者。对于包括许多子单元和组件的大型的和复杂的计算机系统来说,这尤其是真实的。想要减少检测、诊断和校正这种计算机化的系统中的故障时涉及的成本。成本减少可以由自动维护系统来实现。自动维护的使用以若干方式来帮助减少维护成本:

·检测故障组件所需的时间被减少。

·能够把较大部分的维护功能委派给本地人员,诸如本地系统管理者,从而减少外部维护和支持服务的成本。

·自动系统可容易地依赖于历史数据来做出决定,从而增加成功概率。

本发明的实施例解决了自动维护系统不能分离故障并识别单个故障组件的情形。取而代之的是,系统生成被怀疑导致故障的若干组件的列表。对于技师来说,此列表典型地被呈现为用于校正故障的建议校正动作的列表。所公开的实施例提供了用于通过基于关于过去修复的历史数据对校正动作列表排优先级而提高成功故障校正的概率的方法。典型地,最近已经执行过的校正动作被移动到所述列表末端,从而当故障出现时向技师提示尝试不同动作。

因此,根据本发明实施例提供了一种用于服务于计算机化的系统的方法,包括:检测所述计算机化的系统中的给定类型的故障;响应于所述故障使用自动化维护程序生成校正动作列表;检索所述计算机化的系统中的给定类型的一个或多个先前故障的记录,以及指示出响应于所述先前故障所采取的至少一个先前的校正动作;响应于所述记录使用所述自动化维护程序对所述校正动作列表排优先级,以便调整所述列表中的至少一个先前的校正动作的优先级;以及把来自所述自动化维护程序的排优先级的列表提供给修复功能,用于在服务于所述计算机化的系统时使用。

在一实施例中,所述计算机化的系统包括数据存储系统。

在另一实施例中,检测故障包括接收自动故障警告。

在又一实施例中,检索记录包括:确定至少一个先前的校正动作的时间,并且对列表排优先级包括响应于所述时间对所述列表排序。

在另一公开的实施例中,对所述列表排序包括:确定最新执行的动作,并将所述最新执行的动作移动到所述列表末端。

可替换地,对所述列表排序包括:以时间的升序对所述列表重新排序。另外可替换地,对所述列表排序包括:响应于所述至少一个先前的校正动作的时间以及先前故障的概率的度量来确定优先级。

在再一实施例中,确定优先级包括:比较在所述计算机化的系统的组件上执行的至少一个先前的校正动作的时间以及所述组件的故障间平均时间(MTBF)。

在另一实施例中,对所述列表排序包括:通过比较在所述计算机化的系统的组件上执行的至少一个先前的校正动作的时间以及所述组件的特性故障时间来确定是否改变优先级。

在又一实施例中,生成校正动作列表包括:列出将由所述修复功能替换的一个或多个可疑组件。此外或可替换地,所述方法包括自动检测由所述修复功能替换的组件,以便生成所述记录。

在另一实施例中,提供排优先级的列表包括:把所述排优先级的列表呈现给修复人员。

根据本发明实施例还提供了一种在服务于计算机化的系统时使用的装置,所述装置包括维护处理器,所述维护处理器被安排:接收所述计算机化的系统中的给定类型的故障的指示,响应于所述故障生成校正动作列表,检索所述计算机化的系统中的给定类型的一个或多个先前故障的记录以及指示出响应于所述先前故障所采取的至少一个先前的校正动作,响应于所述记录对所述校正动作列表排优先级以便调整所述列表中的至少一个先前的校正动作的优先级,以及把排优先级的列表提供给修复功能用于在服务于所述计算机化的系统时使用。

此外,根据本发明实施例提供了一种在服务于计算机化的系统时使用的计算机软件产品,所述产品包括其中存储了程序指令的计算机可读媒介,所述指令当由计算机读取时使得计算机:接收所述计算机化的系统中的给定类型的故障的指示,响应于所述故障生成校正动作列表,检索所述计算机化的系统中的给定类型的一个或多个先前故障的记录以及指示出响应于所述先前故障所采取的至少一个先前的校正动作,响应于所述记录对所述校正动作列表排优先级以便调整所述列表中的至少一个先前的校正动作的优先级,以及把排优先级的列表提供给修复功能用于在服务于所述计算机化的系统时使用。

附图说明

现在将仅通过示例描述本发明,其中:

图1是根据本发明实施例的计算机化的系统的示意性图示说明;以及

图2是示例性说明根据本发明实施例的用于诊断和服务于计算机化的系统的方法的流程图。

具体实施方式

图1是根据本发明实施例的计算机化的系统20的示意性图示说明。系统20包括主机30,主机30包括多种硬件单元,诸如计算机平台32、存储单元34、通信单元36、以及其它多种多样的硬件组件。线缆40将多种硬件单元互连。维护处理器38执行与维护相关的任务,如将在下文详细描述的。附加的外围计算设备(诸如操作者控制台42)也可以是所述计算机化的系统的一部分。在本发明的不同实施例中,所述计算机化的系统可以被分配来执行任何计算任务,诸如数据存储、数据处理或本领域中已知的任何其它计算任务。

技师44负责所述计算机化的系统的一级维护。技师可以响应于故障而替换主机30中的一个或多个硬件单元。技师可使用操作者控制台42来访问系统信息、接收故障警告和报告、以及执行其它服务、修复和维护任务。可替换地或附加地,系统20中的某些或所有服务和修复功能可以例如由机器人自动执行。维护处理器38监视计算机化的系统的操作并自动检测和记录故障。此外,维护处理器38记录主机30的所有硬件单元的身份,并自动检测技师何时替换硬件单元。

一旦维护处理器已检测到故障,则它试图定位该故障并识别一个或多个故障组件。成功的标识向技师指引故障原因,从而减少服务时间。但是,在许多情形中,由于计算机化的系统的复杂性,维护处理器无法响应于故障把单个故障组件分离出来。例如,在大型数据存储系统中,由跨若干逻辑存储卷的间歇性读或写故障的模式所表征的故障可能由于无数种原因,诸如故障物理存储单元、故障线缆或者另一单元中的故障控制模块。

在这类情况下,维护处理器典型地生成故障的可能原因和可以用来修复故障的校正动作(诸如替换一个或多个组件)的简短列表。所述列表可以例如使用专家系统软件来生成,所述专家系统软件典型地根据某种标准给列表排优先级,所述标准诸如每个校正动作将修复故障的可能性。此列表被呈现给技师44,技师44接着从列表中选择适当的校正动作。例如,技师可执行以下任一动作:

·仅替换列表上的第一项目。

·仅替换库存中可用的项目,同时定购其它项目。

·仅替换低成本项目。

·如果故障很严重并且这些部件不贵且迅速可用,则替换整个列表的组件。

维护处理器38例如通过检测到在系统总线上出现了新的序列号而记录下某些硬件组件已经被技师替换的事实。

最常见地,技师将自然地替换列表上的第一项,或者前几项中之一。本发明的实施例提供了一种方法,其通过把维护处理器38给技师44的校正动作列表重新排序并排优先级以便避免重复最近执行过但证实为不成功的动作,以提高成功校正故障的概率。

典型地,维护处理器38包括通用计算机,所述通用计算机用软件编程来执行在此描述的功能。例如,软件可以用电子形式在网络上被下载到计算机,或者可替换地软件可以在诸如CD-ROM的有形媒体上供应给计算机。维护处理器38可包括独立单元,或者可替换地维护处理器38可与其它计算设备集成,或者维护处理器38的功能在单个计算机平台上与计算机化的系统20的其它功能共享,如本领域中所知的。尽管出于清楚的目的在此将维护处理器38描述为单独实体,但是可替换地可以由主机30中的一个或多个计算机平台在由所述这些平台执行的其它任务之间执行维护处理器38的功能。

图2是示例性说明根据本发明实施例的用于诊断和服务于计算机化的系统的方法的流程图。出于清楚和方便的目的,参考如上所述的计算机化的系统20描述了本方法。但是,本发明的原理可类似地应用于许多其它类型的复杂系统的计算机辅助诊断和修复,如本领域技术人员将理解的。

当在故障检测步骤50中维护处理器38检测到计算机化的系统20中的故障时,图2的方法开始。维护处理器试图把故障分离到特定组件,并在列表生成步骤52中生成可能的校正动作的列表。典型地,每个校正动作包括替换系统20中的一个或多个组件,但是在列表中也可以包括其它类的校正动作。在历史检查步骤54,维护处理器检查是否存在在此特定的计算机化的系统20中已经出现过的类似故障事件的近期记录。如果不存在这样的先前记录,则维护处理器在终止步骤56输出预定的校正动作列表并终止。典型地,在此情形中,根据预定标准给列表排等级,所述预定标准诸如对过去故障的统计分析,以便按照校正动作的先验的成功可能性、执行简易性、和/或替换组件的成本来给校正动作排等级。在此步骤可使用本领域中已知的自动化故障诊断方法,诸如在背景技术中描述的那些方法。

另一方面,如果维护处理器38找到在计算机化的系统20中一个或多个类似的近期故障的先前记录,则在列表检索步骤58中维护处理器38检索响应于先前故障所生成的校正动作列表。在替换检查步骤60,维护处理器接着检查响应于先前故障采取过哪个或哪些校正动作(典型地是哪些先前的可疑组件实际上被替换)。同时,维护处理器记下过去的每次替换出现的日期和时间。

在列表重新排序步骤62,基于先前替换的知识,维护处理器对当前的校正动作列表重新排序。在一实施例中,维护处理器把当前列表上最新执行过的动作移动到列表末端,从而向其分配低优先级。下一最新执行过的动作可被放置到倒数第二。在此上下文中,如果从维护动作开始后经过的时间小于或约等于所述组件的特性故障时间(诸如故障间平均时间——MTBF),则该维护动作被认为是“最近”。在比此特性时间长得多的时间之前执行的动作典型地被忽略。维护处理器在终止步骤56输出重新排序的校正动作列表并终止。

在另一实施例中,维护处理器在步骤62基于从每个动作的先前执行之后经过的时间,以优先级的降序对当前列表完全重新排序。换句话说,最新执行的动作被移动到列表末端,第二最新执行的动作成为倒数第二,依此类推。在重新排序的列表开头的动作被假定是最可能用于执行的候选。这样,维护处理器提示技师避免重复下述校正动作,其在最近被采用过且明显不成功,如故障的重现所证实的。

在又一实施例中,在步骤62可以通过考虑先验的组件故障的概率的度量(诸如所述组件的MTBF)来对列表重新排序。例如,考虑可能由盘故障或交换机故障导致的故障。出于示例目的,假定交换机比盘可靠得多。因此,该故障由盘故障所导致的概率为99%,而由交换机故障所导致的概率仅为1%。在此情形中,关于对校正动作列表重新排序的决定基于组件被替换的时间以及重复故障的条件概率(例如基于MTBF)。结果,替换盘的校正动作可以接收到比替换交换机更高的优先级,即使不久前盘已经被替换过。

将会理解,通过示例阐述了上述实施例,并且本发明不限于在上文中已经具体示出和描述的内容。而是,本发明的范围包括上文所述的各种特征的组合和子组合,以及所述各种特征的变体和修改,它们对于本领域技术人员来说在阅读了前述描述后将会想到,并且它们未在现有技术中公开。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号