首页> 中国专利> 企业设备的强健硬件故障管理系统、方法及架构

企业设备的强健硬件故障管理系统、方法及架构

摘要

公开了一种为企业设备提供强健硬件故障管理的强健硬件故障管理系统、方法及架构。在一个示例中,识别需要强健硬件故障管理的每个所述企业设备中的硬件设备及关联的硬件模块。进一步,确定与每个硬件模块关联的错误结构,并为所确定的错误结构分配唯一标识符。此外,在集中存储库中对所述错误结构建模。另外,将每个建模的错误结构与规则关联,用于检测硬件故障。而且,使用关联的规则标识符,将所述每个建模的错误结构的规则存储在所述集中存储库中。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-07-21

    授权

    授权

  • 2016-10-12

    专利申请权的转移 IPC(主分类):G06F11/07 登记生效日:20160919 变更前: 变更后: 申请日:20121008

    专利申请权、专利权的转移

  • 2015-07-15

    实质审查的生效 IPC(主分类):G06F11/07 申请日:20121008

    实质审查的生效

  • 2015-06-17

    公开

    公开

说明书

背景技术

在今天的企业网络系统中,业务可靠性、可用性以及可服务性(RAS)特征是任 何关键任务服务器的标志。通常,通过强健(robust)故障管理解决方案来实现RAS 特征。这种故障管理解决方案对于提高企业网络系统中的企业设备的可用性和可服务 性是至关重要的。

但是,大多数现有的故障管理解决方案在没有软件和固件更新的情况下,不能动 态更新用于检测新的故障症状的企业设备。这种更新频繁地需要服务或系统停机时间。 当前,在不同的word文档中、excel表中或使用编程语言捕获分析规则。进一步,由 于每个企业设备定义其自己的分析规则和硬件组件的事件通知数据,因此没有管理分 析规则的标准方式。而且,捕获分析规则的非标准方法会导致误解,产生不完整和不 正确的分析。随着企业设备数量的增加,任何故障症状的不正确的分析或不必要的事 件通知会对可用性、客户体验以及支持成本具有巨大影响。随着硬件组件的不断创新 以及制造工艺的提升,基于过去的经验的分析规则对新的企业设备可能不合适,并且 需要基于新检测的故障模式不断细化。

此外,现有的故障管理代码库对企业设备的每种类别是不同,使得实际上很难管 理和利用代码中嵌入的硬件分析规则和事件。通过现有的硬件设计,对企业设备进行 的任何更新都会产生对代码的新版本以及在客户处的多个软件和固件升级的需要。这 会极大地增加支持成本以及降低全程客户体验(TCE)。

附图说明

现在将参照附图详细描述本发明的示例,其中:

图1示出企业设备的强健硬件故障管理系统的示例性框图;

图2示出企业设备的强健硬件故障管理系统的另一示例性框图;以及

图3示出比如图1和图2中示出的用于为企业设备提供强健硬件故障管理的 方法的示例流程图。

本文描述的附图仅用于说明的目的,并且目的不在于以任何方式限制本公开 的范围。

具体实施方式

公开了一种企业设备的强健硬件故障管理系统、方法和架构。在本技术方案 的示例的以下详细描述中,参考形成其一部分的附图,并且其中,通过说明的方 式示出了特定的示例,可在该特定的示例中实施本技术方案。充分描述的示例使 得本领域的技术人员能够实施本技术方案,并且将理解,在不超出本技术方案的 范围的情况下,可利用其它示例,以及可做出各种改变。因此,以下详细描述不 应被理解为限制的意思,并且由所附的权利要求限定本发明主题的范围。

术语“规则”、“分析规则”以及“硬件分析规则”在整个文件中可互换地 使用。

图1示出企业设备102的强健硬件故障管理系统的示例性框图100。示例性企 业设备包括服务器、存储设备、网络设备,等等。如图1中所示,强健硬件故障 管理系统包括企业设备102、数据中心104以及互联网/内联网106。进一步,企业 设备102包括管理处理器108。此外,管理处理器108包括存储器110。另外,存 储器110包括强健硬件故障管理模块112。而且,强健硬件故障管理模块112包括 远程支持接口114、事件生成模块116、规则数据存储库接口118、基于规则的硬 件错误分析引擎120、平台专用规则存储库122、错误日志管理模块124以及平台 专用固件抽象层126。还有,数据中心104包括远程支持模块128、用户接口130、 集中存储库132以及规则管理模块134。

进一步,企业设备102通过互联网/内联网106连接至数据中心104。此外, 平台专用固件抽象层126联接至错误日志管理模块124。另外,错误日志管理模块 124联接至基于规则的硬件错误分析引擎120。而且,基于规则的硬件错误分析引 擎120联接至平台专用规则存储库122和事件生成模块116。还有,事件生成模块 116联接至远程支持接口114。进一步,远程支持接口114联接至规则数据存储库 接口118。此外,规则数据存储库接口118联接至平台专用规则存储库122。另外, 远程支持模块128联接至用户接口130。而且,用户接口130联接至规则管理模块 134和集中存储库132。还有,规则管理模块134联接至集中存储库132。

在操作中,规则管理模块134识别企业设备102中的硬件设备和关联的硬件 模块。进一步,规则管理模块134通过包含硬件控制和状态寄存器的唯一类型值 以及与每个硬件模块关联的其它有关信息,确定错误结构,并且为确定的错误结 构分配唯一标识符。此外,规则管理模块134在集中存储库132中对错误结构建 模。另外,规则管理模块134将规则与每个建模的错误结构关联,用于检测硬件 故障。而且,规则管理模块134使用关联的规则标识符将每个建模的错误结构的 规则存储在集中存储库132中。在一个示例中,基于发布企业设备102后观察到 的故障模式,集中存储库132存储硬件分析规则和关联的事件,并且支持硬件分 析规则的动态更新。

还是在操作中,在连接至集中存储库132时,强健硬件故障管理模块112通 过从集中存储库132获得建模的错误结构的规则,在平台专用规则存储库122中 动态更新/存储每个建模的错误结构的规则。在一个示例中,使用远程支持接口114 下载可用于企业设备102的规则。可替代地,客户或支持工程师可在管理处理器 108上运行命令,以通过新的控制状态寄存器(CSR)/模型专用寄存器(MSR) 设置,从指定的存储区域下载规则。进一步,规则数据存储库接口118支持认证 的应用程序和用户,以在平台专用规则存储库122中动态更新规则和事件,而不 需要固件更新。

进一步在操作中,在与硬件模块关联的硬件错误发生时,强健硬件故障管理 模块112接收二进制或平台专用格式的与该硬件模块关联的错误结构。具体地, 在硬件错误发生时,平台专用固件抽象层126接收二进制或平台专用格式的错误 结构,并读取日志以及发送到错误日志管理模块124。另外,强健硬件故障管理模 块112将二进制或平台专用格式的错误结构解码成标准格式。具体地,错误日志 管理模块124将二进制或平台专用格式的错误结构解码成标准格式,并为解码的 错误结构分配唯一类型值。在一个示例性实现方式中,错误日志管理模块124将 二进制或平台专用格式的错误结构解码成‘名字/值(name/value)’对的通用数据结 构,具有包含与硬件设备关联的CSR/MSR名字的‘名字(name)’字段和包含CSR 当前值的‘值(value)’字段。在将二进制或平台专用格式的错误结构转换成标准格 式时,错误日志管理模块124可选择对错误结构增加关于硬件设备的额外信息, 比如序列号、零件号,等等。进一步,错误日志管理模块124向基于规则的硬件 错误分析引擎120发送解码的错误结构。

而且,强健硬件故障管理模块112将解码的错误结构类型值与平台专用规则 存储库122中存储的建模的错误结构进行比较。在一个示例性实现方式中,基于 规则的硬件错误分析引擎120从平台专用规则存储库122中获取适用于接收到的 错误结构的规则,并触发分析操作。例如,基于规则的硬件错误分析引擎120将 解码的错误结构类型值与获取的规则进行比较。基于规则的硬件错误分析引擎120 支持阈值、抑制以及使用内部错误数据库中存储的历史错误的模式匹配。此平台 独立的、轻量级的以及便携的基于规则的硬件错误分析引擎120允许解决方案组 件的重用,由此,使标准故障管理解决方案能够跨多个企业设备。还有,强健硬 件故障管理模块112在找到匹配时或基于比较的结果,生成错误事件和/或警告, 并发起规则中定义的一个或多个动作。具体地,事件生成模块116在找到匹配时 或基于比较的结果,生成错误事件和/或警告,并发起规则中定义的一个或多个动 作。

现在参照图2,图2是企业设备202的强健硬件故障管理系统的另一示例性框 图202。如图2中所示,该强健硬件故障管理系统包括企业设备202、数据中心104 以及互联网/内联网106。进一步,企业设备202包括管理处理器204和存储器206。 此外,存储器206包括操作系统(OS)208。另外,OS 208包括内核210。而且, 内核210包括强健硬件故障管理模块112。还有,强健硬件故障管理模块112包括 远程支持接口114、事件生成模块116、规则数据存储库接口118、基于规则的硬 件错误分析引擎120、平台专用规则存储库122、错误日志管理模块124以及平台 专用固件抽象层126。进一步,数据中心104包括远程支持模块128、用户接口130、 集中存储库132以及规则管理模块134。

还有,企业设备202通过互联网/内联网106连接至数据中心104。进一步, 管理处理器204联接至存储器206。此外,平台专用固件抽象层126联接至错误日 志管理模块124。另外,错误日志管理模块124联接至基于规则的硬件错误分析引 擎120。而且,基于规则的硬件错误分析引擎120联接至平台专用规则存储库122 和事件生成模块116。还有,事件生成模块116联接至远程支持接口114。进一步, 远程支持接口114联接至规则数据存储库接口118。此外,规则数据存储库接口 118联接至平台专用规则存储库122。另外,远程支持模块128联接至用户接口130。 而且,用户接口130联接至规则管理模块134和集中存储库132。还有,规则管理 模块134联接至集中存储库132。

在操作中,规则管理模块134识别需要强健硬件故障管理的企业设备202中 的硬件设备和关联的硬件模块。进一步,规则管理模块134通过包含硬件控制和 状态寄存器的唯一类型值和与每个硬件模块关联的其它有关信息,确定错误结构, 并为确定的错误结构分配唯一标识符。此外,规则管理模块134在集中存储库132 中对错误结构建模。另外,规则管理模块134将规则与每个建模的错误结构关联, 用于检测硬件故障。而且,规则管理模块134使用关联的规则标识符将每个建模 的错误结构的规则存储在集中存储库132中。

进一步,在连接至集中存储库132时,强健硬件故障管理模块112通过从集 中存储库132获得建模的错误结构的规则,在平台专用规则库122中动态更新/存 储每个建模的错误结构的规则。在一个示例中,使用远程支持接口114下载可用 于企业设备202的多个规则。可替代地,客户或支持工程师可在OS 208上运行命 令,以通过新的CSR/MSR设置,从指定的存储区域下载硬件分析规则。进一步, 规则数据存储库接口118支持认证的应用程序和用户,以在平台专用规则库122 中动态更新规则和事件,而不需要固件更新。

此外,在与硬件模块关联的硬件错误发生时,强健硬件故障管理模块112接 收二进制或平台专用格式的与该硬件模块关联的错误结构。另外,强健硬件故障 管理模块112将该错误结构从二进制或平台专用格式解码成标准格式,并为解码 的错误结构分配唯一类型值。而且,强健硬件故障管理模块112将解码的错误结 构类型值与平台专用规则存储库122中存储的建模的错误结构的规则进行比较。 还有,强健硬件故障管理模块112在找出匹配时或基于比较的结果,生成错误事 件和/或警告,并发起规则中定义的一个或多个动作。这参照图1被更详细的解释 了。

现在参照图3,图3是示出用于为企业设备(比如图1和图2中所示的那些) 提供强健硬件故障管理的示例流程图300。在框302处,识别需要强健硬件故障管 理的每个企业设备中的硬件设备和关联的硬件模块。示例性企业设备包括服务器、 存储设备、网络设备,等等。例如,硬件设备包括处理器、存储器、芯片组、主 机总线适配器(HBA),等等。示例性硬件模块包括高速缓存、存储控制器、动 态随机存取存储器(DRAM)、静态随机存取存储器(SRAM),等等。在框304 处,通过唯一类型值,确定与每个硬件模块关联的错误结构,并为确定的错误结 构分配唯一标识符。在框306处,在集中存储库中,对错误结构建模。在框308 处,将规则与每个建模的错误结构关联,用于检测硬件故障。例如,下面示出一 种规则:

<Error Structure Type=MEMORY_ERROR,Platform ID=ABCD">

Rule ID=1,RULE CONDITION{MEMORY_ERROR.errstatus<OPERATOR> 'VALUE'WITH THRESHOLD=10,THRESHOLD_WINDOW=1440(in  minutes),SUPRESSION_WINDOW=1440(in minutes)ON DEVICEJD= MEMORY_ERROR.PhysicalLocation}ACTION{generate_event(1440);

platform_specific_action(Action UUID)}

在该示例中,为MEMORY_ERROR(双列直插内存模块(DIMM)错误)类 型的错误结构定义规则,并为字符串“ABCD”识别的平台类型定义规则。 <OPERATOR>采用比如,EQUAL、BITAND、BITOR等的值,并且规则的条件部 分包括多个字段:由<OPERATOR>:值构成。THRESHOLD_WINDOW以及 SUPRESSION_WINDOW值用于由DEVICE_ID识别的企业设备。DEVICE_ID识 别企业设备实例,运行时,在该企业设备上(例如,企业设备的物理位置)应用 分析规则。动作(ACTION)用于生成支持事件,并使用唯一动作UUID进行平台 专用自治愈动作(例如,故障组件的停用)。

例如,硬件故障的分析基于规则语言,该规则语言支持子规则的使用并允许 子规则组合成单一规则,且进一步允许聚集的错误结构的分析。进一步,该规则 语言捕获硬件错误的分析、自治愈等需要的CSR/MSR字段和可用的运算符(AND、 OR,等等)、平台专用标识符、阈值以及平台专用自治愈动作。可通过增加用作 功能标识符的新的关键词容易地扩展该规则语言。解析规则的基于规则的硬件错 误分析引擎(例如,图1和2的基于规则的硬件错误分析引擎120)查找使用功能 标识符注册的插件模块,并调用合适的处理程序。这使得硬件分析规则语言可扩 展,并且能够基于平台需求定制化。在框310处,使用关联的规则标识符,将每 个建模的错误结构的规则存储在集中存储库中。例如,使用唯一标识符识别每个 规则,并使用唯一标识符识别存储在集中存储库中的每个错误结构。

在框312处,连接至集中存储库时,通过从该集中存储库获得建模的错误结 构的规则,在位于每个企业设备的关联的平台专用规则存储库中动态更新/存储每 个建模的错误结构的规则。在框314处,在发生与硬件模块关联的硬件错误时, 接收二进制或平台专用格式的与该硬件模块关联的错误结构。在框306处,将二 进制或平台专用格式的错误结构解码成标准格式,并为解码的错误结构分配唯一 类型值。这参照图1被更详细的解释了。在框318处,将解码的错误结构类型值 与存储在该平台专用规则存储库中的建模的错误结构的规则进行比较。在框320 处,在找出匹配时或基于比较的结果,生成错误事件和/或警告,并发起规则中定 义的一个或多个动作。

在一个示例中,一种产品包括非瞬态计算机可读存储介质,其上具有指令, 在由计算平台执行该指令时,引起上面提到的方法的执行。前面描述的方法可以 是实现指令集的计算机可读介质的形式,在由机器执行该指令集时,使得该机器 执行本文公开的任意方法。应理解,本文讨论的各种示例可能不是同样的示例, 且可分组到本文未明确公开的各种其他的示例。

另外,应理解,本文公开的各种操作、过程和方法可以以兼容计算机系统的 机器可读介质和/或机器可访问介质实现,并且可以以任意顺序执行(例如,包括 使用实现各种操作的手段)。因此,说明书和附图将视为说明性的而不是限制的 意思。

在各种示例中,图1-3中描述的系统和方法提出了一种使用企业设备的规则提 供强健硬件故障管理的技术。该技术有助于管理及利用跨不同的企业设备的规则。 该技术还有助于使共享的硬件组件的错误分析算法标准化。进一步,规则语言有 助于简化现有的故障管理解决方案,并且便携及具有影响力的通用分析引擎有助 于跨多个企业设备的解决方案组件的重新使用。此外,规则的动态更新有助于增 加/修改故障管理能力,而不用任何固件升级。

尽管本文已描述了某些方法、装置和生产的产品,本专利的覆盖范围不限于 此。相反,无论是在字面上还是在等同原则下,本专利覆盖完全落在所附权利要 求的范围中的所有方法、装置和生产的产品。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号