首页> 中国专利> 一种计算机集群的健康状态检查和修复方法及存储介质

一种计算机集群的健康状态检查和修复方法及存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了计算机集群的健康状态检查和修复方法及存储介质，该方法包括：检查所述计算机集群中各服务器的运行状态，确定在线服务器；检查所述在线服务器的磁盘分区，并修复检查出的所述在线服务器的异常磁盘分区；根据预设的配置文件，检查所述在线服务器的各系统服务，并修复检查出的所述在线服务器的异常系统服务；检查所述在线服务器的内存使用状态，并修复检查出的所述在线服务器的异常内存；检查所述在线服务器的软件环境，并修复检查出的所述在线服务器的异常软件环境。本发明在检查出节点服务器的异常时，及时在线修复异常，无需人工干预，节省人工成本的同时，提高了检测修复的效率，经过本发明的计算机集群的健康状态得到显著的提升。

著录项

公开/公告号CN112445677A

专利类型发明专利
公开/公告日2021-03-05

原文格式PDF
申请/专利权人中国石油化工股份有限公司;中国石油化工股份有限公司石油物探技术研究院;
展开▼

申请/专利号CN201910833319.5
发明设计人李进;王胜春;余青露;
展开▼

申请日2019-09-04
分类号G06F11/30(20060101);
代理机构11372 北京聿宏知识产权代理有限公司;
代理人吴大建;张杰
地址 100728 北京市朝阳区朝阳门北大街22号
入库时间 2023-06-19 10:06:57

说明书

技术领域

本发明涉及检查计算集群运行状态的技术，尤其涉及一种计算机集群的健康状态检查和修复方法及存储介质。

背景技术

20世纪70年代，第三次地球物理计算机变革导致交互处理与批量处理被集成起来在UNIX工作站和并行计算机上运行。直到现在，大型油气勘探开发公司，石油物探服务公司、地球物理研究机构都购置了针对大型商业软件的硬件资源集群，包括应用软件的部署，网络存储的使用，以及网络交换机的规划等资源环境的搭建，这些资源的服务主要基于各业务系统的正常运营运维。基于对集群资源的正常运行，满足各项业务的需求开展，最终形成了以地震资料处理解释为主体支撑业务发展的地球物理数据中心。

在从事地球物理领域的科研生产中，为保证集群系统安全正常运行以及业务平稳运行的需求，需要对集群节点的各个服务状态运行情况进行检查检测，这些服务状态在每个节点中时时发生着变化，无法自行修复，需要进行人工干预，系统管理员对这些信息进行查看和分析，会耗费大量的时间，不能实时的发现有效数据，而且这种需求在不断扩大。

在进行地球物理领域的科研生产活动中，由于科研应用手段的不断发展和提升、相关软件数据越来越复杂庞大，数据中心设备不断扩容，业务运行周期不断加大，特别是集群资源，一旦业务运行不正常，运维人员需要对用户的整个集群资源进行检查和修复。为了能够保障业务的正常运行，提升集群的使用效率，要对集群中的每一个节点中的网络，内存，磁盘、软件环境、用户环境进行一一检查。随着集群资源的需求不断加大，集群资源的业务也在不断的扩容，给运维人员带来了很大的运维管理成本，以及排除故障的能力，往往得需要根据经验不断的进行挖掘，耗费很大的时间才能够得出结论。

因此，亟需一种高效，省时，稳定的计算机集群的健康状态的检查程序，以提高业务正常运行的效率，提升集群的整体健康性和使用率。

发明内容

针对现有技术中存在的问题，为了对计算机集群的运行状态进行监控检查，发现节点服务器的系统运行中存在的问题并解决问题，本发明提供了一种计算机集群的健康状态检查和修复方法，包括以下步骤：

针对服务器状态：检查所述计算机集群中各服务器的运行状态，确定在线服务器；

针对磁盘分区：检查所述在线服务器的磁盘分区，并修复检查出的所述在线服务器的异常磁盘分区；

针对系统服务：根据预设的配置文件，检查所述在线服务器的各系统服务，并修复检查出的所述在线服务器的异常系统服务；

针对内存状态：检查所述在线服务器的内存使用状态，并修复检查出的所述在线服务器的异常内存；

针对软件环境：检查所述在线服务器的软件环境，并修复检查出的所述在线服务器的异常软件环境。

优选的，所述针对服务器状态的步骤具体包括：

S11：通过连接测试命令，判断所述计算机集群中各服务器是否可成功连通；

S12：若是，判断该服务器是否可运行计算作业，若否，记录该未连通的服务器，以为后续进行人工检测修复提供依据；

S13:将可运行计算作业的服务器视为在线服务器，并记录不可运行计算作业的服务器，以为后续进行人工检测修复提供依据。

优选的，所述针对磁盘分区的步骤具体包括：

S21：检查所述在线服务器的磁盘分区的使用率；

S22：当所述磁盘分区的使用率达到第一预设阈值时，清理该在线服务器的磁盘分区。

优选的，所述系统服务包括下列各项中的至少一项：通信服务，防火墙服务，用户管理服务，时间服务，密码服务和存储服务。

优选的，所述针对系统服务的步骤具体包括：

S31：预设包含各系统服务标准配置的配置文件；

S32：检查所述在线服务器的各系统服务，根据所述配置文件，判断所述系统服务的配置是否符合所述配置文件中的标准配置；

S33：若否，则将该系统服务视为异常系统服务，并按照所述配置文件修复所述异常系统服务。

优选的，所述针对内存状态的步骤具体包括：

S41：检查所述在线服务器的内存容量和内存使用率；

S42：当所述在线服务器的内存容量与记录不符，则将该在线服务器的内存记录为异常内存，以为后续进行人工检测修复提供依据；

S43：当所述在线服务器的内存使用率达到第二预设阈值时，则将该在线服务器的内存作为异常内存，并释放该在线服务器的内存空间。

优选的，所述软件环境是指所述在线服务器中的软件目录和守护进程。

优选的，所述步骤S5具体包括：

S51：判断所述在线服务器的软件目录是否已挂载；

S52：若否，则将该在线服务器未挂载软件目录的状况视为异常软件环境，通过挂载命令，为该在线服务器挂载软件目录；

S53：判断所述在线服务器是否开启了守护进程；

S54：若否，则将该在线服务器未开启守护进程的状况视为异常软件环境，为该在线服务器开启守护进程。

优选的，将所述在线服务器记录入在线服务器列表中；

依次对所述在线服务器列表中的每个服务器进行检查和修复，其中检查和修复包括针对磁盘分区、系统服务、内存状态和软件环境的检查和修复；

当对某一服务器的检查和修复时间达到第三预设阈值时，跳过该服务器，开始对下一个服务器进行检查和修复。

本发明的另一方面，还提供了一种计算机可读的存储介质，存储有用于实现上述任意一项方法的计算机可读程序。

与现有技术相比，本发明具有如下优点或有益效果：

1、本发明不同于现有技术中针对节点服务器硬件的检测，而是针对节点服务器系统运行状态整体的监控检查和修复。对于节点服务器的检查监控全面细致，并结合了在线修复功能，经过本发明方法检查和修复的计算机集群，运行健康状况得到显著提升。

2、本发明的方法在检查出异常时，及时在线修复系统异常，在整个检查和修复过程中，无需人工干预，节省人工成本的同时，也提高了检测修复的效率，节约了维护时间。

3、本发明的方法具有良好的扩展性，并不局限于现有的针对节点服务器各方面的检测，可根据实际需求扩展检测修护范围。

附图说明

通过结合附图阅读下文示例性实施例的详细描述可更好地理解本发明的保护范围，其中所包括的附图是：

图1为本发明实施例的计算机集群的健康状态检查和修复方法的流程图；

图2为本发明实施例的针对服务器状态的检查和修复的流程图；

图3为本发明实施例的针对磁盘分区的检查和修复的流程图；

图4为本发明实施例的针对系统服务的检查和修复的流程图；

图5为本发明实施例的针对内存状态的检查和修复的流程图；

图6为本发明实施例的针对软件环境的检查和修复的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图以及实施例来详细说明本发明的实施方案，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。

本发明提供的一种计算机集群的健康状态检查和修复方法，在本实施例中，该方法应用于具有Linux操作系统的计算机集群的节点服务器。图1为本发明实施例的计算机集群的健康状态检查和修复方法的流程图，以下结合图1对本方法的每个步骤进行详细说明。如图1所示，该方法主要包括以下步骤：

S1：检查计算机集群中各服务器的运行状态，确定在线服务器。

图2为本发明实施例的针对服务器状态的检查和修复的流程图。如图2所示，步骤S1具体包括下列步骤：

S11：通过连接测试命令，判断计算机集群中各服务器是否可成功连通。

具体的，该连接测试命令为Ping命令，Ping命令加上服务器的IP地址，即可获知是否可连通该服务器。

S12：若是，判断该服务器是否可运行计算作业，若否，记录该未连通的服务器，以为后续进行人工检测修复提供依据。

经判断，如果服务器通过了Ping命令的检查，而后，再通过ssh命令判断该服务器是否可运行计算作业。这里，计算作业可理解为一个计算任务。如果ssh命令执行成功，则表明该服务器即通过了Ping命令的测试，也通过了ssh命令的测试，可被视为能够执行计算作业的在线服务器。反之，如果服务器没有通过Ping命令的检查，则将该服务器视为离线服务器，并记录该离线服务器，并将记录结果提供给维护人员，维护人员根据记录结果可进一步确认离线服务器的状况。

S13:将可运行计算作业的服务器视为在线服务器，并记录不可运行计算作业的服务器，以为后续进行人工检测修复提供依据。

具体的，将在步骤S11和步骤S12中通过了Ping命令和ssh命令测试的服务器视为在线服务器，并将在线服务器记录入在线服务器列表中，以为后续针对在线服务器的检查和修复提供依据；如果服务器仅通过了Ping命令的测试，而没有通过ssh命令的检测，则表明该服务器不可运行计算作业，并将这样的服务器视为在线不运行服务器，随后，记录该在线不运行服务器，并将记录结果提供给维护人员，维护人员根据记录结果可进一步确认在线不运行服务器的状况。

在本实施例中，针对步骤S13中提及的在线服务器列表中的每个在线服务器，依次对进行检查和修复，其中检查和修复包括针对磁盘分区、系统服务、内存状态和软件环境的检查和修复，下面将进行详细描述。

S2:检查在线服务器的磁盘分区，并修复检查出的在线服务器的异常磁盘分区。

图3为本发明实施例的针对磁盘分区的检查和修复的流程图。如图3所示，步骤S2具体包括下列步骤：

S21：检查在线服务器的磁盘分区的使用率。

首先，检查在线服务器的磁盘分区的使用率和读写速度。在本实施例中，重点检查的磁盘分区为与系统服务和应用软件相关的磁盘分区，如果包含了系统服务和应用软件的磁盘分区的使用率过高，会导致系统卡，慢，而且还很伤磁盘。根据磁盘的读写速度，可辅助判断磁盘的健康状况。

S22：当磁盘分区的使用率达到第一预设阈值时，清理该在线服务器的磁盘分区。

具体的，第一预设阈值表示可允许的磁盘分区的最大使用率，在本实施例中，第一预设阈值为磁盘总容量的80％，并可通过free命令等自动清理磁盘，以释放磁盘空间，保护磁盘。当临时盘的使用率达到一定阈值时，系统会通过rm命令删除规定期限以外的临时垃圾数据，或者通过其他形式的报警信息等，也可以自动报警以进行人工干预等，获得保护磁盘。

S3:根据预设的配置文件，检查在线服务器的各系统服务，并修复检查出的在线服务器的异常系统服务。

在进行了服务器的磁盘分区检查并修复异常后，当然，如果没有发现磁盘分区的异常状况，则直接进入本S3步骤针对系统服务的检查和修复。图4为本发明实施例的针对系统服务的检查和修复的流程图。如图4所示，步骤S3具体包括：

S31：预设包含各系统服务标准配置的配置文件。

在本实施例中，在线服务器的系统服务包括：通信服务，防火墙服务，用户管理服务，时间服务，密码服务和存储服务。包含系统服务标准配置的配置文件是指描述了该系统服务正常工作状态的文件，比如防火墙服务，其正常的工作状态为开启，因此配置文件中会规定防火墙服务的标准配置为开启。又如，针对通信服务，配置文件中可规定网络管理器(NetworkManager)开启为标准配置。

S32：检查在线服务器的各系统服务，并根据配置文件，判断各系统服务的配置是否符合配置文件中的标准配置。

例如，如果配置文件中针对防火墙服务的标准配置为开启，而检查出该在线服务器的防火墙为关闭状态，则根据配置文件中标准配置的规定，开启防火墙服务。

S33：若否，则将该系统服务视为异常系统服务，并按照配置文件修复该异常系统服务。

又如，如果配置文件中针对通信服务的标准配置为网络管理器开启，而检查出该在线服务器的网络管理器为关闭状态，则该在线服务器的通信服务将被视为异常系统服务，并按照配置文件中关于系统服务的标准配置，开启该在线服务器的网络管理器。

S4：检查在线服务器的内存使用状态，并修复检查出的在线服务器的异常内存。

在本实施例中，步骤S3针对系统服务和步骤S4针对内存状态的检查和修复可同步进行。图5为本发明实施例的针对内存状态的检查和修复的流程图。如图5所示，步骤S4具体包括：

S41：检查在线服务器的内存容量和内存使用率。

其中，内存容量是指在线服务器的内存的最大容量，通常情况下，内容容量是固定的。

S42：当在线服务器的内存容量与记录不符，则将该在线服务器的内存记录为异常内存，以为后续进行人工检测修复提供依据。

存储中记录有每块内存的容量，如果检查出的在线服务器的内存容量与记录不符，这表明该内存存在问题或发生故障，为异常内存，则记录该异常内存，以为后续进行人工检测修复提供依据。

S43：当在线服务器的内存使用率达到第二预设阈值，则将该在线服务器的内存作为异常内存，并释放该在线服务器的内存空间。

内存使用率影响系统的运行效率，如果内存使用率过高，则系统运行会变得缓慢。第二预设阈值表示可允许的内存的最大使用率，在本实施例中，将第二预设阈值设置为内存容量的90％，如果在线服务器的内存使用率达到了内存容量的90％，则将该在线服务器的内存视为异常内存，并清理内存，释放内存空间。

S5：检查在线服务器的软件环境，并修复检查出的在线服务器的异常软件环境。

在进行了上述各种针对在线服务器的检查之后，最后，针对在线服务器的软件环境进行检查和修复。图6为本发明实施例的针对软件环境的检查和修复的流程图。如图6所示，步骤S5具体包括：

S51：判断在线服务器的软件目录是否已挂载；

S52：若否，则将该在线服务器未挂载软件目录的状况视为异常软件环境，通过挂载命令，为该在线服务器挂载软件目录；

S53：判断在线服务器是否开启了守护进程；

S54：若否，则将该在线服务器未开启守护进程的状况视为异常软件环境，为该在线服务器开启守护进程。

在进行软件目录和守护进程的检查中，不必刻意区分先后顺序，在其他实施例中，也可先检查该在线服务器的守护进程，而后检查软件目录是否挂载。

另外，在本实施例中，当对某一服务器的检查和修复时间达到第三预设阈值，则跳过该服务器，开始对下一个服务器进行检查和修复。例如，在检查某一服务器的过程中，该服务器突然离线，或由于其他原因无法完成所有步骤的检查和修复，则将等待一段时间，在本实施例中，该等待时间段为第三预设阈值，如果在该段时间内无法继续针对当前服务器的检查和修复，则直接跳过该服务器，直接开始对在线服务器列表中的下一个在线服务器进行检查和修复。在本实施例中，根据设定的时间周期，可多次反复的执行本发明方法的各步骤。

本实施例的方法在检查出节点服务器的异常时，及时在线修复异常，在整个检查和修复过程中，无需人工干预，节省人工成本的同时，也提高了检测修复的效率，经过本发明的方法的计算机集群的健康状态得到显著的提升。另外，本发明并不局限于针对在线服务器磁盘分区，系统服务，内存状态和软件环境方面的检查和修复，可根据实际需求扩展检测修护范围。

与实施例一不同的是，在本实施例中，在确定了计算机集群中的在线服务器后，根据实际情况，选择性的进行实施例一中针对磁盘分区，系统服务，内存状态，软件环境的检查和修复，启动一系列检查和修复中的一项或多项。比如，可单独针对在线服务器的软件环境进行检查和修复。本实施例的方法针对计算机集群出现的不同异常状况有针对性的调整检测项目，操作灵活，适应性强。

本发明还提供一种计算机集群的健康状态检查和修复系统，包括处理器和存储器，处理器用于执行存储器中存储的用于实现上述本发明的计算机集群的健康状态检查和修复方法的计算机可读程序。在具体应用时，针对计算机集群的各节点服务器，本系统可按序检查和修复各节点服务器，提升计算机集群的整体健康度。

本发明还提供一种计算机可读的存储介质，存储有用于各节点服务器的系统程序，所述系统程序在被处理器执行时实现上述本发明的计算机集群的健康状态检查和修复方法的各步骤。在具体应用时：可将该存储介质置于云端服务器，远程进行对计算机集群的监控状况的检查和修复。

本发明不同于现有技术中针对节点服务器硬件的检测，而是针对服务器系统运行状态整体的监控检查和修复。对于服务器的检查监控全面细致，并结合了在线修复功能，经过本发明方法检查和修复的计算机集群，运行健康状况得到显著提升。

本发明的方法在检查出异常时，及时在线修复系统异常，在整个检查和修复过程中，无需人工干预，节省人工成本的同时，也提高了检测修复的效率，节约了维护时间。

本发明的方法具有良好的扩展性，并不局限于现有的针对服务器各方面的检测，可根据实际需求扩展检测修护范围。

以上实施例仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以存在许多变形。凡是本领域的普通技术人员能以本发明公开的内容直接导出或是联想到的所有变形均应被认为是本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种计算机集群的健康状态检查和修复方法及存储介质 [P] . 中国专利： CN112445677A . 2021-03-05
2. 一种基于健康检查和容器的高可用方法 [P] . 中国专利： CN112131088A . 2020-12-25
3. A METHOD OF INSPECTING AND/OR REPAIRING A COMPONENT AND A DEVICE FOR INSPECTING AND/OR REPAIRING A COMPONENT [P] . 欧洲知识产权局专利： EP2494338B1 . 2017-07-19

机译：一种检查和/或修复组件的方法以及一种检查和/或修复组件的设备
4. A METHOD OF INSPECTING AND/OR REPAIRING A COMPONENT AND A DEVICE FOR INSPECTING AND/OR REPAIRING A COMPONENT [P] . 欧洲知识产权局专利： EP2494338A1 . 2012-09-05

机译：一种检查和/或修复组件的方法以及一种用于检查和/或修复组件的设备
5. A METHOD OF INSPECTING AND/OR REPAIRING A COMPONENT AND A DEVICE FOR INSPECTING AND/OR REPAIRING A COMPONENT [P] . SG179793A1 . 2012-06-28

机译：一种检查和/或修复组件的方法以及一种用于检查和/或修复组件的设备