首页> 中国专利> 高性能计算集群系统故障预测方法和装置

高性能计算集群系统故障预测方法和装置

摘要

本发明公开了一种高性能计算集群系统故障预测方法和装置。故障预测方法包括:获取集群系统中各服务节点的芯片工况和电源输出功率,根据所述芯片工况和电源输出功率分析各服务节点的工作状态,在服务节点的工作状态为非正常时,执行预先设定的维护策略。本发明通过获取各服务节点的芯片工况和电源输出功率来分析服务节点的工作状态,当服务节点为非正常状态时执行预先设定的维护策略,不仅可以准确地预测高性能计算集群系统可能出现的故障,而且通过执行相应的维护方案在一定程度上避免了发生故障的可能,因而有效地降低了高性能计算集群系统的故障率,有效地提高了集群系统的整体利用率。

著录项

  • 公开/公告号CN105159815A

    专利类型发明专利

  • 公开/公告日2015-12-16

    原文格式PDF

  • 申请/专利权人 浪潮(北京)电子信息产业有限公司;

    申请/专利号CN201510557804.6

  • 发明设计人 马四腾;

    申请日2015-09-02

  • 分类号G06F11/30;

  • 代理机构北京安信方达知识产权代理有限公司;

  • 代理人解婷婷

  • 地址 100085 北京市海淀区上地信息路2号2-1号C栋1层

  • 入库时间 2023-12-18 12:59:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-06-19

    授权

    授权

  • 2016-01-13

    实质审查的生效 IPC(主分类):G06F11/30 申请日:20150902

    实质审查的生效

  • 2015-12-16

    公开

    公开

说明书

技术领域

本发明涉及计算机技术领域,特别涉及一种高性能计算集群系统故障预 测方法和装置。

背景技术

当前,随着计算机技术的发展和越来越广泛的应用,越来越多的依赖于 计算机技术的应用系统走进了我们的工作和生活。尽管单台计算机的性能和 可靠性越来越好,但还是有很多现实的要求是单台计算机难以达到的,需要 高性能计算集群系统作为后台支撑。

高性能计算集群系统作为一个整体系统,不仅对运算速率有较高的要 求,而且对系统稳定性的要求更加严格。一个高性能计算任务,往往要耗费 数小时、数天甚至数月才能完成。如此巨大的计算任务,如果计算过程中设 备出现故障,就可能面临重算的窘境,造成时间、经费的浪费。因此,如何 有效降低高性能计算集群系统的故障率,是高性能计算集群系统迫切需要解 决的比较重要的问题。

发明内容

为了解决上述技术问题,本发明提供一种高性能计算集群系统故障预测 方法和装置,以有效降低高性能计算集群系统的故障率。

为了达到本发明目的,本发明提供了一种高性能计算集群系统故障预测 方法,包括:

获取集群系统中各服务节点的芯片工况和电源输出功率,所述芯片工况 包括芯片温度、风扇转速以及芯片温度与风扇转速的对应关系,所述芯片温 度与风扇转速的对应关系是指:基板管理控制器BMC中定义的风扇转速根 据芯片温度进行调整的对应关系;

根据所述芯片工况和电源输出功率分析各服务节点的工作状态;

在服务节点的工作状态为非正常时,执行预先设定的维护策略。

进一步地,所述根据所述芯片工况和电源输出功率分析各服务节点的工 作状态具体为:

预先设置第一和第二对应阈值范围、第一和第二温度阈值范围、第一和 第二转速阈值范围以及第一和第二功率阈值范围;当服务节点的芯片温度与 风扇转速的对应关系不符合BMC定义且处于第一对应阈值范围内时,或当 服务节点的芯片温度处于第一温度阈值范围内时,或当服务节点的风扇转速 处于第一转速阈值范围内时,或当服务节点的电源输出功率处于第一功率阈 值范围内时,判定服务节点处于亚健康状态;当服务节点的芯片温度与风扇 转速的对应关系不符合BMC定义且处于第二对应阈值范围内时,或当服务 节点的芯片温度处于第二温度阈值范围内时,或当服务节点的风扇转速处于 第二转速阈值范围内时,或当服务节点的电源输出功率处于第二功率阈值范 围内时,判定服务节点处于异常状态。

进一步地,所述在服务节点的工作状态为非正常时执行预先设定的维护 策略具体为:

在服务节点的工作状态为亚健康状态时,执行任务调度;在服务节点的 工作状态为异常状态时,执行维护处理。

进一步地,所述执行任务调度具体为:向高性能计算集群系统的任务调 度器发送亚健康预警信息,任务调度器调整任务调度队列,在任务调度队列 中减少或删除分配给所述服务节点的任务;所述执行维护处理具体为:向高 性能计算集群系统的系统管理控制器发送异常预警信息,系统管理控制器调 整计算资源分配,将所述服务节点上的计算资源移除,并使所述服务节点进 入维护模式进行维护,维护完成后重置状态。

进一步地,所述执行任务调度还包括:发送亚健康预警信息时启动计时 器计时,如果在设定的时间内,服务节点没有恢复到正常状态,则执行维护 处理;所述执行维护处理还包括:发送异常预警信息时启动计时器计时,如 果在设定的时间内,服务节点仍为异常状态,则发送告警信号。

为了达到本发明目的,本发明还提供了一种高性能计算集群系统故障预 测装置,包括:

获取参数模块,用于获取集群系统中各服务节点的芯片工况和电源输出 功率,所述芯片工况包括芯片温度、风扇转速以及芯片温度与风扇转速的对 应关系,所述芯片温度与风扇转速的对应关系是指:基板管理控制器BMC 中定义的风扇转速根据芯片温度进行调整的对应关系;

分析状态模块,用于根据所述芯片工况和电源输出功率分析各服务节点 的工作状态;

执行策略模块,用于在服务节点的工作状态为非正常时,执行预先设定 的维护策略。

进一步地,所述分析状态模块具体用于,预先设置第一和第二对应阈值 范围、第一和第二温度阈值范围、第一和第二转速阈值范围以及第一和第二 功率阈值范围;当服务节点的芯片温度与风扇转速的对应关系不符合BMC 定义且处于第一对应阈值范围内时,或当服务节点的芯片温度处于第一温度 阈值范围内时,或当服务节点的风扇转速处于第一转速阈值范围内时,或当 服务节点的电源输出功率处于第一功率阈值范围内时,判定服务节点处于亚 健康状态;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义 且处于第二对应阈值范围内时,或当服务节点的芯片温度处于第二温度阈值 范围内时,或当服务节点的风扇转速处于第二转速阈值范围内时,或当服务 节点的电源输出功率处于第二功率阈值范围内时,判定服务节点处于异常状 态。

进一步地,所述执行策略模块包括任务调度单元和维护处理单元,其 中,

任务调度单元,用于在服务节点的工作状态为亚健康状态时,对所述服 务节点执行任务调度;

维护处理单元,用于在服务节点的工作状态为异常状态时,对所述服务 节点执行维护处理。

进一步地,所述对所述服务节点执行任务调度具体为:向高性能计算集 群系统的任务调度器发送亚健康预警信息,任务调度器调整任务调度队列, 在任务调度队列中减少或删除分配给所述服务节点的任务;所述对所述服务 节点执行维护处理具体为:向高性能计算集群系统的系统管理控制器发送异 常预警信息,系统管理控制器调整计算资源分配,将所述服务节点上的计算 资源移除,并使所述服务节点进入维护模式进行维护,维护完成后重置状 态。

进一步地,所述执行任务调度还包括:发送亚健康预警信息时启动计时 器计时,如果在设定的时间内,服务节点没有恢复到正常状态,则对所述服 务节点执行维护处理;所述执行维护处理还包括:发送异常预警信息时启动 计时器计时,如果在设定的时间内,服务节点仍为异常状态,则发送告警信 号。

本发明提供了一种高性能计算集群系统故障预测方法和装置,通过获取 各服务节点的芯片工况和电源输出功率来分析服务节点的工作状态,当服务 节点为非正常状态时执行预先设定的维护策略,不仅可以准确地预测高性能 计算集群系统可能出现的故障,而且通过执行相应的维护方案在一定程度上 避免了发生故障的可能,因而有效地降低了高性能计算集群系统的故障率, 有效地提高了集群系统的整体利用率。本发明故障预测方法具有简单、有 效、易于实施、适用性广等特点。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说 明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优 点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获 得。

附图说明

附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部 分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明 技术方案的限制。

图1为本发明高性能计算集群系统故障预测方法的处理流程图;

图2为本发明高性能计算集群系统故障预测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图 对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申 请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机 系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下, 可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明高性能计算集群系统故障预测方法的处理流程图。如图1 所示,本发明高性能计算集群系统故障预测方法包括:

步骤1、获取集群系统中各服务节点的芯片工况和电源输出功率。

现有高性能计算集群系统中的服务节点基本上都具有基板管理控制器 BMC(BaseboardManagementController),BMC通过管理总线实时监测服 务节点中各部件的运行参数。实际使用中,本发明获取芯片工况和电源输出 功率两参数可以通过集群系统中各服务节点的BMC来获取。本发明中,芯 片包括CPU或加速卡芯片,芯片工况包括芯片温度、风扇转速以及芯片温 度与风扇转速的对应关系,其中芯片温度与风扇转速的对应关系是指: BMC中定义的风扇转速根据芯片温度进行调整的对应关系。例如,CPU或 加速卡芯片升高5°,风扇转速调高1档位,档位的概念是BMC中定义的, 该对应关系会根据服务节点不同而不同,具有独立性。获取芯片工况和电源 输出功率后,将这些参数顺序记录下来。实际使用中,可以通过设置日、 周、月等时间段,展示这些参数曲线。

步骤2、根据所述芯片工况和电源输出功率,分析服务节点的工作状 态。

对于高性能计算集群系统中的服务节点,芯片工况和电源输出功率可以 很好地反映计算类服务节点的工作状态。例如,每个服务节点的芯片温度、 风扇转速和电源输出功率均有一个正常工作参数范围,超出正常工作参数范 围就属于异常,当风扇转速不符合BMC中定义的当前CPU温度所处档位的 转速,档位过高或过低也属于异常。又如,在同一时间段内,同一角色的服 务节点处理相同的任务或处于相同的状态时(服务节点的不同状态需要结合 作业调度软件获取),某个服务节点CPU或加速卡芯片的温度高于除自己外 其它服务节点的平均值,或某个服务节点的风扇转速高于除自己外其它服务 节点的平均值,该服务节点就属于异常。例如,10台服务节点运行同一任 务时,BMC监测到1-9号服务节点加速卡芯片平均温度为69°,而10号服务 节点加速卡芯片的温度为75°,那么认为10号服务节点出现异常。同理,在 同一时间段内,同一角色的服务节点处理相同的任务或处于相同的状态时, 某个服务节点的电源输出功率高于除自己外其它服务节点的平均值,可以判 定该服务节点处于异常状态。再如,一般服务节点的功耗是可以计算的,如 果电源输出功率持续高于计算值,也可以判定该服务节点处于异常状态。

本发明中,通过预先设置对应阈值范围、温度阈值范围、转速阈值范围 和功率阈值范围的方式,来分析服务节点的工作状态。具体地说,预先设置 第一对应阈值范围和第二对应阈值范围,第二对应阈值范围大于第一对应阈 值范围;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且 处于第一对应阈值范围内时,判定服务节点处于亚健康状态;当服务节点的 芯片温度与风扇转速的对应关系不符合BMC定义且处于第二对应阈值范围 内时,判定服务节点处于异常状态。预先设置第一温度阈值范围和第二温度 阈值范围,第二温度阈值范围大于第一温度阈值范围;当服务节点的芯片温 度处于第一温度阈值范围内时,判定服务节点处于亚健康状态;当服务节点 的芯片温度处于第二温度阈值范围内时,判定服务节点处于异常状态。预先 设置第一转速阈值范围和第二转速阈值范围,第二转速阈值范围大于第一转 速阈值范围;当服务节点的风扇转速处于第一转速阈值范围内时,判定服务 节点处于亚健康状态;当服务节点的风扇转速处于第二转速阈值范围内时, 判定服务节点处于异常状态。预先设置第一功率阈值范围和第二功率阈值范 围,第二功率阈值范围大于第一功率阈值范围;当服务节点的电源输出功率 处于第一功率阈值范围内时,判定服务节点处于亚健康状态;当服务节点的 电源输出功率处于第二功率阈值范围内时,判定服务节点处于异常状态。其 中,上述第一阈值范围和第二阈值范围可以由生产厂家提供,也可以通过测 试得出。

实际使用中,可以对高性能计算集群系统中的服务节点进行分类,分类 原则可以依据各服务节点在集群中的角色。例如,可以将服务节点划分为 CPU计算节点、加速卡计算节点和胖节点。本发明进行分类的目的,主要 是考虑到服务节点的角色不同,使用情况会有较大不同。通常,与CPU计 算节点相比,加速卡计算节点的电源输出功率较大,风扇转速和芯片温度较 高。通过对服务节点进行分类,不仅可以为不同类别的服务节点设置不同的 阈值范围,而且可以为不同类别的服务节点设置不同维护策略,采用不同的 调整手段。

步骤3、在服务节点的工作状态为非正常时,执行预先设定的维护策 略。

为了有效地预测高性能计算集群系统可能出现的故障,本发明将服务节 点的工作状态分为正常状态和非正常状态,非正常状态又细分为亚健康状态 和异常状态。对于正常状态的服务节点,不需要调整服务器。对于非正常状 态的服务节点,则需要采用相应的维护策略,以避免可能出现的故障,降低 服务节点的故障率。本发明维护策略主要包括任务调度和维护处理,当服务 节点的工作状态为亚健康状态时,执行任务调度,当服务节点的工作状态为 异常状态时,执行维护处理。

当服务节点的工作状态为亚健康状态时,向高性能计算集群系统的任务 调度器发送亚健康预警信息,任务调度器收到亚健康预警信息后,调整任务 调度队列,在任务调度队列中减少分配给该服务节点的任务,或者将分配给 该服务节点的任务删除,直接跳过该服务节点不分配任务。

当服务节点的工作状态为异常状态时,向高性能计算集群系统的系统管 理控制器发送异常预警信息,系统管理控制器收到异常预警信息后,调整计 算资源分配,将该服务节点上的计算资源转移到备用服务节点或其它服务节 点上,计算资源转移后,使该服务节点进入维护模式(测试模式)进行维护, 维护完成后重置状态。其中,调整任务调度队列、从服务节点上转移计算资 源、服务节点进入维护模式以及进行维护等均采用现有技术手段,这里不再 赘述。

实际使用中,本发明还设置有计时器,根据计时器的计时情况执行相应 的维护策略。当判断服务节点的工作状态为亚健康状态,发送亚健康预警信 息时,立即启动计时器计时,如果在设定的时间内,服务节点的工作状态没 有从亚健康状态恢复到正常状态,说明调整任务的维护策略失败,则判定该 服务节点的工作状态为异常状态,执行维护处理。如果服务节点的工作状态 由亚健康状态恢复到正常状态,则向高性能计算集群系统的任务调度器发送 亚健康恢复信息,任务调度器收到亚健康恢复信息后,调整任务调度队列, 在任务调度队列中逐渐增加分配给该服务节点的任务。

当判断服务节点的工作状态为异常状态,发送异常预警信息时,立即启 动计时器计时,如果在设定的时间内,服务节点的工作状态仍为异常状态, 说明维护处理的维护策略失败,则发送告警信号,指示维修人员进行故障处 理。

本发明提供了一种高性能计算集群系统故障预测方法,通过获取各服务 节点的芯片工况和电源输出功率来分析服务节点的工作状态,当服务节点为 非正常状态时执行预先设定的维护策略,不仅可以准确地预测高性能计算集 群系统可能出现的故障,而且通过执行相应的维护方案在一定程度上避免了 发生故障的可能,因而有效地降低了高性能计算集群系统的故障率,有效地 提高了集群系统的整体利用率。本发明故障预测方法具有简单、有效、易于 实施、适用性广等特点。

在本发明高性能计算集群系统故障预测方法技术方案基础上,本发明还 提供了一种高性能计算集群系统故障预测装置。图2为本发明高性能计算集 群系统故障预测装置的结构示意图,如图2所示,本发明故障预测装置的主 体结构包括获取参数模块、分析状态模块和执行策略模块,其中,

获取参数模块,用于获取集群系统中各服务节点的芯片工况和电源输出 功率,并将所述芯片工况和电源输出功率发送给分析状态模块,所述芯片工 况包括芯片温度、风扇转速以及芯片温度与风扇转速的对应关系,所述芯片 温度与风扇转速的对应关系是指:基板管理控制器BMC中定义的风扇转速 根据芯片温度进行调整的对应关系。

分析状态模块,与所述获取参数模块连接,用于接收所述芯片工况和电 源输出功率,根据所述芯片工况和电源输出功率分析各服务节点的工作状 态,并将各服务节点的工作状态发送给执行策略模块。

执行策略模块,与所述分析状态模块连接,用于接收所述各服务节点的 工作状态,在服务节点的工作状态为非正常时,执行预先设定的维护策略。

进一步地,所述分析状态模块具体为,预先设置第一和第二对应阈值范 围,第一和第二温度阈值范围,第一和第二转速阈值范围,以及第一和第二 功率阈值范围;当服务节点的芯片温度与风扇转速的对应关系不符合BMC 定义且处于第一对应阈值范围内时,或当服务节点的芯片温度处于第一温度 阈值范围内时,或当服务节点的风扇转速处于第一转速阈值范围内时,或当 服务节点的电源输出功率处于第一功率阈值范围内时,判定服务节点处于亚 健康状态;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义 且处于第二对应阈值范围内时,或当服务节点的芯片温度处于第二温度阈值 范围内时,或当服务节点的风扇转速处于第二转速阈值范围内时,或当服务 节点的电源输出功率处于第二功率阈值范围内时,判定服务节点处于异常状 态。

进一步地,所述执行策略模块具体包括任务调度单元和维护处理单元, 其中,

任务调度单元,与所述分析状态模块连接,用于接收到服务节点的工作 状态为亚健康状态时,对所述服务节点执行任务调度;

维护处理单元,与所述分析状态模块连接,用于接收到服务节点的工作 状态为异常状态时,对所述服务节点执行维护处理。

其中,所述执行任务调度具体为:向高性能计算集群系统的任务调度器 发送亚健康预警信息,任务调度器调整任务调度队列,在任务调度队列中减 少或删除分配给所述服务节点的任务。进一步地,所述执行任务调度还包 括:发送亚健康预警信息时启动计时器计时,如果在设定的时间内,服务节 点没有恢复到正常状态,则对所述服务节点执行维护处理。

其中,所述执行维护处理具体为:向高性能计算集群系统的系统管理控 制器发送异常预警信息,系统管理控制器调整计算资源分配,将所述服务节 点上的计算资源移除,并使所述服务节点进入维护模式进行维护,维护完成 后重置状态。进一步地,所述执行维护处理还包括:发送异常预警信息时启 动计时器计时,如果在设定的时间内,服务节点仍为异常状态,则发送告警 信号。

虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明 而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人 员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细 节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利 要求书所界定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号