首页> 中国专利> 一种服务器硬件故障的诊断方法、诊断装置及诊断设备

一种服务器硬件故障的诊断方法、诊断装置及诊断设备

摘要

本发明公开了一种服务器硬件故障的诊断方法,从多项电源的角度出发,根据各多项电源控制芯片的可读取报错信息进行判断,若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错,则确定服务器部件出现故障;若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障,从而可以高效地定位服务器硬件故障原因,大幅度提高运维人员解决问题的效率。本发明还公开了一种服务器硬件故障的诊断装置、诊断设备及计算机可读存储介质,具有上述有益效果。

著录项

  • 公开/公告号CN112286709B

    专利类型发明专利

  • 公开/公告日2022-07-08

    原文格式PDF

  • 申请/专利权人 苏州浪潮智能科技有限公司;

    申请/专利号CN202011181637.7

  • 发明设计人 于云杰;韩红瑞;

    申请日2020-10-29

  • 分类号G06F11/07(2006.01);

  • 代理机构北京集佳知识产权代理有限公司 11227;

  • 代理人史翠

  • 地址 215100 江苏省苏州市吴中区吴中经济开发区郭巷街道官浦路1号9幢

  • 入库时间 2022-08-23 13:59:51

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-08

    授权

    发明专利权授予

说明书

技术领域

本发明涉及服务器监控技术领域,特别是涉及一种服务器硬件故障的诊断方法、诊断装置、诊断设备及计算机可读存储介质。

背景技术

近年随着信息技术的快速发展,数据处理量出现爆发式增长,数据中心的业务量急剧增加。数据中心的服务器数量也随之增加,近年来大型数据中心的服务器数量逐步达到了数万乃至十万台的量级,如何高效的运营维护这些服务器正常的工作以及当服务器出现问题时如何迅速定位问题快速维修是一个亟待解决的问题。然而,现有的服务器硬件故障定位方案通常是在服务器出现故障时,通过拆开机箱进行线下量测、分析的方式来定位故障,不仅浪费了大量人力,还导致服务器较长时间的中断运行。

发明内容

本发明的目的是提供一种服务器硬件故障的诊断方法、诊断装置、诊断设备及计算机可读存储介质,用于快速、自动化地定位服务器硬件的故障,节约人力成本。

为解决上述技术问题,本发明提供一种服务器硬件故障的诊断方法,包括:

获取各多项电源控制芯片的可读取报错信息;

若与服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型均为报错,则确定所述服务器部件出现故障;

若与所述服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障。

可选的,所述可读取报错信息的类型具体包括:电源欠压保护信息、输出项错误信息、输入欠压保护信息、输入过压保护信息、输出欠压保护信息、输出过压保护信息、输出过流保护信息、输出短路保护信息、过温保护信息和过温报警信息。

可选的,所述若与服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型均为报错,则确定所述服务器部件出现故障,具体为:

若与服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型均为报错,则根据与所述可读取报错信息的类型均为报错对应的所述多项电源控制芯片的地址确定出现故障的服务器部件。

可选的,还包括:

输出与服务器硬件故障类型对应的服务器硬件故障报警信号。

可选的,所述获取各多项电源控制芯片的可读取报错信息,具体为:

通过轮询的方式读取各所述多项电源控制芯片的可读取报错信息。

可选的,所述获取各多项电源控制芯片的可读取报错信息,具体为:

当接收到的复杂可编程逻辑器读取的电源正常信号为异常断电信号时,读取与所述异常断电信号对应的服务器部件处的各所述多项电源控制芯片的可读取报错信息。

可选的,所述诊断方法应用于基板管理控制器。

为解决上述技术问题,本发明还提供一种服务器硬件故障的诊断装置,包括:

获取单元,用于获取各多项电源控制芯片的可读取报错信息;

判断单元,用于在与服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型均为报错时,则确定所述服务器部件出现故障;在与所述服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障。

为解决上述技术问题,本发明还提供一种服务器硬件故障的诊断设备,包括:

存储器,用于存储指令,所述指令包括上述任意一项所述服务器硬件故障的诊断方法的步骤;

处理器,用于执行所述指令。

为解决上述技术问题,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述服务器硬件故障的诊断方法的步骤。

本发明所提供的服务器硬件故障的诊断方法,从多项电源的角度出发,根据各多项电源控制芯片的可读取报错信息进行判断,若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错,则确定服务器部件出现故障;若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障,从而可以高效地定位服务器硬件故障原因,大幅度提高运维人员解决问题的效率。

本发明还提供一种服务器硬件故障的诊断装置、诊断设备及计算机可读存储介质,具有上述有益效果,在此不再赘述。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为基板管理控制器对多项电源的监控拓扑图;

图2为本发明实施例提供的一种服务器硬件故障的诊断方法的流程图;

图3为本发明实施例提供的一种服务器硬件故障的诊断装置的结构示意图;

图4为本发明实施例提供的一种服务器硬件故障的诊断设备的结构示意图。

具体实施方式

本发明的核心是提供一种服务器硬件故障的诊断方法、诊断装置、诊断设备及计算机可读存储介质,用于快速、自动化地定位服务器硬件的故障,节约人力成本。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为基板管理控制器对多项电源的监控拓扑图;图2为本发明实施例提供的一种服务器硬件故障的诊断方法的流程图。

服务器系统的主要部件包括电源供应单元(Power supply unit,PSU)、CPU、内存、图形处理器(Graphics Processing Unit,GPU)、硬盘、磁盘阵列(Redundant Arrays ofIndependent Disks,RAID)等,而这些服务器部件都搭载在服务器主板上运行。服务器主板为固设有连接器、PCI-E线缆、电源转换器、时钟芯片、SMT贴片等的PCB板。这些服务器部件及服务器主板都是本发明实施例提供的服务器硬件故障的诊断方法的诊断对象。

如图1所示,通用2路服务器的一般配置为1个服务器主板、2个CPU、32个内存、24个硬盘,每个服务器部件由多个电源供电。基板管理控制器(BMC)首先对各服务器部件的多项电源的地址进行配置,并对这些地址进行实时轮询读取信息。

如图2所示,发明实施例提供的服务器硬件故障的诊断方法包括:

S201:获取各多项电源控制芯片的可读取报错信息。

S202:若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错,则确定服务器部件出现故障。

S203:若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障。

在具体实施中,为节约CPU资源,且由于基板管理控制器(Baseboard ManagementController,BMC)本身具有轮询各多项电源控制芯片的功能,在本发明实施例提供的服务器硬件故障的诊断方法可以应用于基板管理控制器。

表1本发明实施例提供的一种多项电源可读取报错信息列表

多项电源控制芯片为针对多项电源设置的状态监控芯片,基板管理控制器通过轮询的方式从各多项电源控制芯片处读取到多项电源的运行信息。以XDPE14284型号的多项电源控制芯片为例,一种多项电源可读取报错信息列表如表1所示,可以看到,可读取报错信息的类型具体包括:电源欠压保护信息、输出项错误信息、输入欠压保护信息、输入过压保护信息、输出欠压保护信息、输出过压保护信息、输出过流保护信息、输出短路保护信息、过温保护信息和过温报警信息等。

在现有技术中,基板管理控制器在读取多项电源的运行状态后,只是传输给上一级的CPU而不做任何处理。而在本发明实施例提供的服务器硬件故障的诊断方法中,利用多项电源的运行状态信息来定位服务器硬件故障,充分利用了这些信息。

对于步骤S201来说,可以利用基板管理控制器原本通过轮询的方式读取各多项电源控制芯片的可读取报错信息的方式来获取各多项电源控制芯片的可读取报错信息,即由基板管理控制器在轮询到每个多项电源控制芯片的可读取报错信息后,检查是否为报错状态,以此进行故障定位。

为快速定位服务器硬件故障,步骤S201还可以通过当接收到的复杂可编程逻辑器(Complex Programming logic device,CPLD)读取的电源正常(Power Good,PG)信号为异常断电信号时,读取与异常断电信号对应的服务器部件处的各多项电源控制芯片的可读取报错信息。当服务器异常掉电或关机时,复杂可编程逻辑器读取异常断电的电源的PG信号,然后将中断信号发送给基板管理控制器,基板管理控制器读取对应的多项电源控制芯片的可读取报错信息(例如表1所示),根据设定好的判断逻辑判断故障是否为服务器主板故障或服务器部件故障。

具体判断机制如步骤S202和步骤S203所示,当与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错,则确定服务器部件出现故障。当与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障。例如,假设图1所示的CPU0电源有四个,则当四个电源对应的多项电源控制芯片的可读取报错信息均为报错时,则认为CPU0出现故障,需要说明的是,此时并不代表服务器主板没有出现故障;若四个电源对应的多项电源控制芯片的可读取报错信息中仅有单项为报错时,则认为是服务器主板出现故障,CPU0未出现故障。当出现某个服务器部对应的各多项电源控制芯片的可读取报错信息的类型均为报错的情况时,则需要综合多个服务器部件对应的多项电源控制芯片来判断服务器主板是否故障。

而当出现步骤S202的状况,即与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错使,确定服务器部件出现故障,具体为:

若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错,则根据与可读取报错信息的类型均为报错对应的多项电源控制芯片的地址确定出现故障的服务器部件。

如表1所示,当与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错时,根据基板管理控制器预先为各项电源设定的地址,查找与可读取报错信息的类型均为报错对应的多项电源控制芯片的地址确定出现故障的服务器部件。例如当CPU0的多项电源(0x40、0x41、0x42、0x43)对应的多项电源控制芯片的可读取报错信息均为报错时,从可读取报错信息记载的电源地址(0x40、0x41、0x42、0x43)即可确定CPU0出现故障。

本发明实施例提供的服务器硬件故障的诊断方法,从多项电源的角度出发,根据各多项电源控制芯片的可读取报错信息进行判断,若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错,则确定服务器部件出现故障;若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障,从而可以高效地定位服务器硬件故障原因,大幅度提高运维人员解决问题的效率。

在上述实施例的基础上,本发明实施例提供的服务器硬件故障的诊断方法还包括:

输出与服务器硬件故障类型对应的服务器硬件故障报警信号。

在具体实施中,基板管理控制器可以将出现故障的服务器部件的情况或是服务器主板的情况发送至CPU,或是基板管理控制器控制对应的报警指示灯亮起,以提示运维人员服务器硬件故障类型。

上文详述了服务器硬件故障的诊断方法对应的各个实施例,在此基础上,本发明还公开了与上述方法对应的服务器硬件故障的诊断装置、设备及计算机可读存储介质。

图3为本发明实施例提供的一种服务器硬件故障的诊断装置的结构示意图。

如图3所示,本发明实施例提供的服务器硬件故障的诊断装置包括:

获取单元301,用于获取各多项电源控制芯片的可读取报错信息;

判断单元302,用于在与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错时,则确定服务器部件出现故障;在与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障。

进一步的,本发明实施例提供的服务器硬件故障的诊断装置还可以包括:

输出单元,用于输出与服务器硬件故障类型对应的服务器硬件故障报警信号。

由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。

图4为本发明实施例提供的一种服务器硬件故障的诊断设备的结构示意图。

如图4所示,本发明实施例提供的服务器硬件故障的诊断设备包括:

存储器410,用于存储指令,所述指令包括上述任意一项实施例所述的服务器硬件故障的诊断方法的步骤;

处理器420,用于执行所述指令。

其中,处理器420可以包括一个或多个处理核心,比如3核心处理器、8核心处理器等。处理器420可以采用数字信号处理DSP(Digital Signal Processing)、现场可编程门阵列FPGA(Field-Programmable Gate Array)、可编程逻辑阵列PLA(Programmable LogicArray)中的至少一种硬件形式来实现。处理器420也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器CPU(CentralProcessing Unit);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器420可以集成有图像处理器GPU(Graphics Processing Unit),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器420还可以包括人工智能AI(Artificial Intelligence)处理器,该AI处理器用于处理有关机器学习的计算操作。

存储器410可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器410还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器410至少用于存储以下计算机程序411,其中,该计算机程序411被处理器420加载并执行之后,能够实现前述任一实施例公开的服务器硬件故障的诊断方法中的相关步骤。另外,存储器410所存储的资源还可以包括操作系统412和数据413等,存储方式可以是短暂存储或者永久存储。其中,操作系统412可以为Windows。数据413可以包括但不限于上述方法所涉及到的数据。

在一些实施例中,服务器硬件故障的诊断设备还可包括有显示屏430、电源440、通信接口450、输入输出接口460、传感器470以及通信总线480。

本领域技术人员可以理解,图4中示出的结构并不构成对服务器硬件故障的诊断设备的限定,可以包括比图示更多或更少的组件。

本申请实施例提供的服务器硬件故障的诊断设备,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如上所述的服务器硬件故障的诊断方法,效果同上。

需要说明的是,以上所描述的装置、设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本发明各个实施例所述方法的全部或部分步骤。

为此,本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如服务器硬件故障的诊断方法的步骤。

该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器ROM(Read-OnlyMemory)、随机存取存储器RAM(Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例中提供的计算机可读存储介质所包含的计算机程序能够在被处理器执行时实现如上所述的服务器硬件故障的诊断方法的步骤,效果同上。

以上对本发明所提供的一种服务器硬件故障的诊断方法、诊断装置、诊断设备及计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号