首页> 中国专利> 智能监控大规模数据中心集群计算节点的系统和方法

智能监控大规模数据中心集群计算节点的系统和方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

提出一种智能监控大规模数据中心集群计算节点的系统和方法，由系统中的监控节点采集计算节点的硬件微架构数据指标和运行的应用程序的进程相关的数据指标，并将所述数据指标发送到系统中的监控设备，由监控设备执行大数据分析，并将结果发送到用户端设备显示给用户。所述系统和方法能够采集计算节点微架构数据指标和运行的应用程序进程数据指标，实现智能大数据分析，自动定位发生故障的计算节点并提供故障原因。

著录项

公开/公告号CN104156296A

专利类型发明专利
公开/公告日2014-11-19

原文格式PDF
申请/专利权人浪潮(北京)电子信息产业有限公司;
展开▼

申请/专利号CN201410377856.0
发明设计人刘羽;吕文静;金莲;陈博文;于涛;
展开▼

申请日2014-08-01
分类号G06F11/30(20060101);
代理机构11262 北京安信方达知识产权代理有限公司;
代理人王丹;李丹
地址 100085 北京市海淀区上地信息路2号2-1号C栋1层
入库时间 2023-12-17 03:09:47

法律信息

法律状态公告日

法律状态信息

法律状态
2017-06-30

授权

授权
2014-12-17

实质审查的生效 IPC(主分类):G06F11/30 申请日:20140801

实质审查的生效
2014-11-19

公开

公开

说明书

技术领域

本发明涉及计算机技术领域，具体涉及一种智能监控大规模数据中心集群计算节点的系统和方法。

背景技术

随着人类社会的不断进步，科学技术的发展，人们不但对自然界的认识越来越广泛，而且对未知世界探索的需求也越来越迫切。这就使得人类撑握的信息数据的量急剧性的增长，而与此同时，这些海量的信息数据都需要及时的分析和处理。例如，一个大型天文射电望远镜阵列一秒钟就能产生100GB 以上的宇宙微波数据，这些数据都需要及时得到分析；再如，在粒子物理研究领域，一台大型强子对撞机一次对撞的数据也是以TB为单位来计量的；此外，像人类基因组工程、石油勘探、天气预报等等领域也对计算能力提出了越来越高的要求。在这种大背景下数值计算已然成为了除实验、理论分析之外的第三种极其重要的科学探索手段。正是基于这样的现实，促使了当今世界各个科技强国都在不遗余力的大力发展超级计算机。如，在2013年12月发布的世界TOP500中，排名第一的中国“天河二号(TH-2)”就已经达到了 54.9PFlops的峰值速度，共使用了16000余个计算节点。

除此之外，随着云计算、大数据、物联网等新型技术的发展，出现了越来越多的大型数据中心，云计算中心。它们动辄拥有数以万计的计算机节点。如谷歌(Google)位于美国俄勒冈州的Dalles数据中心拥有约15万台服务器节点。在这样大规模的数据中心中，计算节点的性能监控，故障定位，故障恢复，以及中心整体效率统计等等，都存在着前所未有的挑战。因此，如何高效的管理和利用一个大规模乃至超大规模的数据中心，是当今世界各国都在努力探索的一个热门领域。

长期以来，数据中心的监控管理都是靠人工半自动的方式来完成的。负责运维的人员需要实时的查看集群的运行状态，一旦出现问题，虽然有时可以定位节点位置，却往往不能准确定位故障的设备，还需要费时费力通过工作人员的经验来判断、排障；集群的用户虽然可以通过众多的作业调度软件了解自己的作业情况，却很少可以统计到作业的历史分析；再者集群的决策者往往无法直接从集群上得到有关费用支出、使用效率、人员工作效率、费效比等有关决策的信息资料，只能通过对大量数据的人工分析来决策，费时费力。此外，应用开发人员也往往无法从集群上获得优化应用软件急需的硬件微架构、系统进程、堆栈、模块错误崩溃统计等信息，需要凭经验通过大量的实验得到，即费时又费力。

发明内容

本发明提出了一种智能监控大规模数据中心集群计算节点的系统和方法，具有大型化、多功能、面向多用户群的特点。它拥有完善的智能分析和统计功能，可以为不同层次用户的决策提供数据参考依据。

所述系统，包括：安装在数据中心集群计算节点上的监控节点、与各个监控节点通信的监控设备、以及用户终端设备，其特征在于：

所述监控节点，用于通过获得计算节点的硬件控制寄存器的控制权，采集所述计算节点的硬件微架构数据指标，通过获得操作系统内核的控制权，获得与所述计算节点上运行的应用程序的进程相关的数据指标，并将所述数据指标发送到监控设备；

所述监控设备，用于接收所述数据指标，基于所述数据指标执行大数据分析，并将所述分析的结果发送到用户终端设备；

所述用户终端设备，用于接收所述结果并显示给用户。

所述方法包括：

启动安装在计算节点中的监控节点；

所述监控节点通过获得计算节点的硬件控制寄存器的控制权，采集所述计算节点的硬件微架构数据指标，通过获得操作系统内核的控制权，获得与所述计算节点上运行的应用程序的进程相关的数据指标，并将所述数据指标发送到监控设备；

所述监控设备接收所述数据指标，基于所述数据指标执行大数据分析，并将所述分析的结果发送到用户终端设备；

所述用户终端设备接收所述结果并显示给用户。

特别地，所述分析包括：根据所述数据指标定位发生故障的计算节点，以及确定故障原因。

特别地，所述硬件微架构数据指标包括CPU的实时浮点运行速度、流SIMD 指令扩展集SSE单元利用率、高级向量扩展集AVX单元利用率、向量指令向量化率、完成每条指令所需的时钟数CPI、最后一级缓存LLC命中率、内存带宽、PCI快速总线接口PCI-E设备带宽、缓存命中/未命中率中的一种或多种的组合；所述与所述计算节点上运行的应用程序的进程相关的数据指标包括进程切换次数、堆栈信息、堆内存分配情况中的一种或多种的组合。

特别地，所述数据指标为CPU的实时浮点运行速度和/或完成每条指令所需的时钟数CPI，所述分析包括：当所述数据指标在预设时间段内持续低于预设的阈值，则判断处理器发生故障，并确定故障的原因为处理器异常降频。

特别地，所述监控节点还采集由操作系统提供的CPU利用率、内存利用率、本地磁盘IO数据和/或以太网吞吐量。

特别地，其中所述计算节点的硬件控制寄存器为所述计算节点的处理器的性能监控单元PMU中的MSR控制寄存器。

本发明的有益效果是：

通过在各个计算节点的性能监控装置提取必要的系统级性能指标信息，并发送由监控管理节点来负责维护。而监控管理节点，则具有异常的识别和报警能力，同时按用户群分别挖掘所记录的历史数据，并将结果反馈给用户。同时，监控管理节点还可以按需、按时间段，对指定的监控节点提取硬件微架构特征及进程、堆栈等方面的信息。从而实现对大规模集群监控的多用户化、多功能化和智能化。

为了实现监控的实效性，各计算节点的监控端实现了每秒刷新的监控模式。同时为了减少计算节点的资源占用，各计算节点仅提取用于数据分析所必须的最小指标项，包括CPU利用率，内存利用率，本地磁盘读写以及以太网吞吐量等十数个指标。

为了实现多功能化，本智能监控系统还提供了对硬件微架构相关的指标的监控分析，如浮点运行速度，向量化率，内存带宽，IB带宽等等。但由于这部分内容在监控时对系统资源的占用相对较多，因此，它们根据用户指令按需启动。

为了实现多用户化，本智能监控系统提出了涵盖管理层、运维层、实际应用用户层和应用开发层，四个层次的分级视图。

为了实现智能化，本智能监控系统发明了一种数据挖掘的分析方法，它依据基本的性能监控数据信息，通过计算挖掘出不同层次用户最感兴趣的统计指标。

附图说明

图1是本发明提出的一种智能监控大规模数据中心集群的系统框图

图2是本发明提出的一种智能监控大规模数据中心集群的方法的流程图

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明做进一步地详细描述。

参见附图1，示出了本发明提出的一种智能监控大规模数据中心集群计算节点的系统，包括安装在数据中心集群计算节点上的监控节点、与各个监控节点连接的监控设备、以及用户终端设备。其中数据中心集群计算节点具有相应的硬件设备，例如处理器CPU、内存、硬盘、以太网络控制器等，在所述计算节点上运行操作系统以及应用软件；监控设备包括主监控节点和数据库，主监控节点与安装在上述计算节点上的各个监控节点通信，能够获得数据中心集群计算节点的硬件和软件运行数据，例如CPU利用率、内存利用率、本地磁盘IO数据、以太网吞吐量，以及针对该计算节点硬件的微架构数据指标和运行的应用程序进程级的数据指标。主监控节点将获得的上述数据写入数据库中，自动执行大数据挖掘并保存大数据挖掘后获得的结果。用户通过用户端设备从数据库中读取结果并显示。用户还可以通过用户终端设备向监控设备输入用户定义的数据挖掘程序，由监控设备提取数据中心集群节点的相应数据指标，按照用户定义的数据挖掘程序执行大数据挖掘并向用户显示结果。

参见附图2，本发明提出的一种智能监控大规模数据中心集群计算节点的方法由数据采集、大数据挖掘、分级展示、以及故障定位和报警等几个主要步骤组成。其中数据采集包括基本数据采集和高级数据采集，基本数据采集由系统自动执行，无需用户设置；高级数据采集需要按照用户意愿设置。

1.数据采集

数据采集是指在数据中心集群计算节点上安装监控节点，提取该计算节点的CPU利用率、内存利用率、本地磁盘IO数据、以太网吞吐量，以及针对该计算节点硬件的微架构数据指标和运行的应用程序进程级的数据指标。其中，针对计算节点硬件的微架构数据指标和应用程序进程级的数据指标的采集称为高级数据采集，其余指标的采集称为基本数据采集。基本数据采集为系统默认设置的步骤，无需用户干预即可执行，高级数据采集根据用户需求而设置执行。由于需要保证性能指标数据的实效性，监控节点必须满足秒级刷新的采集能力，同时必须保证极低的计算节点资源占用率。

本发明提出的数据采集方法不同于现有技术中提出的方法。在现有技术中，数据采集仅仅是收集操作系统本身提供的一些指标数据，即数据指标的采集依赖于计算节点上运行的操作系统，对于操作系统无法提供的数据指标，监控节点无法获得。而本发明所提出的数据采集方法，不仅仅能完成上述由操作系统提供的数据指标的采集，还可以采集一些硬件微架构数据指标，例如CPU的实时浮点运行速度、流SIMD指令扩展集SSE(Streaming SIMD Extensions)单元利用率、高级向量扩展集AVX(Advanced Vector Extensios) 单元利用率、向量指令向量化率、完成每条指令所需的时钟数(CPI)、最后一级缓存LLC(Last Level Cache)命中率、转换后备缓冲器TLB(Translation Lookaside Buffer)参数、内存带宽、PCI快速总线接口PCI-E(PCI Express) 设备带宽、缓存命中/未命中(cache hit/miss)率、TLB单元等等。此外，还可以采集一些应用程序进程级的数据指标，如进程切换次数、堆栈信息、堆内存分配情况等等。这些指标对于挖掘应用软件的性能、分析集群特性和定位软件级故障具有十分重要的意义。

由于需要采集硬件和进程级数据指标，因此本发明提出的监控节点通过软件客户端的方式实现。所述监控节点对基本数据的采集同现有技术提出的方法，在此不再赘述，对高级数据采集的过程具体介绍如下：

对上述硬件微架构数据指标的提取需要通过对硬件中相关寄存器的控制来实现。如，对于处理器微架构数据指标，主要是通过对处理器中的性能监控单元PMU(Performance Monitoring Unit)进行控制来实现。因此，这就要求本案的监控节点拥有最高的root权限。对PMU的控制流程介绍如下：

S1：获取计算节点的处理器的PMU中的MSR(Module Specific Register) 控制寄存器的控制权；

S2：将相关事件的编码和掩码写入已控制的MSR控制寄存器中，并设置该控制寄存器，开始对相关事件计数，例如，当采集LLC命中率数据指标时，先将LLC命中率的编码和掩码写入MSR控制寄存器中，然后设置该寄存器开始计数LLC命中数量，计数结束后读取该控制寄存器中的计数数量，统计LLC 命中率。

对系统内核级指标的提取需要对内核中相关代码的监控来实现。例如对进程切换的监控，需要监控内核中有关进程管理部分的代码中控制进程的部分。当计算节点启动，内核成功加载后即开始监控。因此，监控节点必须拥有对内核级的控制权。对系统内核级指标的提取可能会稍微影响系统的性能，因此可针对监控的场合按需提供。

2.大数据挖掘和分级展示

上述安装在计算节点中的监控节点还具有向监控设备发送数据的能力，由监控设备统一接收和管理各个监控节点。监控设备中的主监控节点负责从各个监控节点接收采集的数据指标，以及向各个监控节点发送控制命令，所述控制命令包括所述系统默认产生的基本数据采集命令，以及根据用户设置而产生的高级数据采集命令，所述各个监控节点根据所述控制命令执行相应数据指标的采集。同时主监控节点还负责将接收的所述数据指标按一定的存储格式存入数据库中，作为下一步数据挖掘的输入数据。

为了实现智能化，监控设备还具有大数据挖掘能力，它根据预设统计设置对数据库中保存的数据指标进行大数据处理，并按照预设的分级展示方案，分别为不同的用户提供数据统计和分析结果。此外，监控设备还具有用户接口，可以接收用户自定义的数据挖掘算法，并按照所述数据挖掘算法执行数据挖掘。所述预设的统计设置包括：

一、管理层用户群指标

1.生产速率(任务通量)

a.实时运行任务、应用数

b.一周(月、年)内，每天完成(失败)的任务数【列图、表】

c.一周(月、年)内，平均每天完成(失败)任务数

d.一周(月、年)内，总完成(失败)任务数

e.每任务时间

2.运维成本(能耗)(计算、存储、交换、机房【制冷】)

a.实时总功耗

b.一周(月、年)内，每天能耗(KW/h)【列图、表】

c.一周(月、年)内，平均每天能耗(KW/h)

d.一周(月、年)内，总能耗(KW/h)

e.设备折旧、机房整体折旧费用监控、及各费用单元间比值统计、单位费用作业完成量

3.资产利用效率

a.一周(月、年)内，每天集群占空比

b.一周(月、年)内，平均每天集群占空比

c.一周(月、年)内，每天集群繁忙时段(计算每小时集群占空比)

d.一周(月、年)内，平均繁忙时段(24小时时段上的年平均占空比)

e.实时在线用户数(特定授权、查看人员信息)

f.一周(月、年)内，每天在线用户数【列图、表】

g.一周(月、年)内，平均每天在线用户数

h.一周(月、年)内，每天平均用户完成任务数

i.一周(月、年)内，平均每用户完成任务数

4.设备健康度

a.实时故障节点数、故障率

b.一周(月、年)内，每天故障节点数、故障率【列图、表】

c.一周(月、年)内，平均每天故障节点数、故障率

二、集群设备管理维护人员用户群指标

1.故障报警及定位

a.实时故障节点数、故障率

b.一周(月、年)内，每天故障节点记录、故障率【列图、表】

c.一周(月、年)内，平均每节点故障次数，每节点故障率(统计易故障节点)

d.故障节点实时定位

e.故障节点实时报警

f.故障、失效节点失效类型分级：可联接、不可联接、掉电等等

g.对可联接故障准确定位故障设备：故障盘位置、掉内存(位置)等等

2.设备运行状态查看

a.集群整体实时CPU利用率、集中存储IO带宽

b.一周(月、年)内，每天集群整体平均CPU利用率、平均集中存储IO 带宽

c.一周(月、年)内，集群整体平均CPU利用率、平均集中存储IO带宽

d.可实时查看每节点运行状态：CPU、内存、本地磁盘、网络等等指标

e.可历史查询一年内所有节点每天运行姿态

f.资源瓶颈分析(CPU、存储、内存、网络【区分存储，数据交换】)

3.计费功能

a.用户机时统计

三、任务用户群指标

1.当前任务信息

a.当前任务使用的节点数、核数、占用的内存容量等等

b.可查看当前任务所使用的节点数的状态信息：CPU、内存、本地磁盘、网络等等

c.当前排队的任务数

d.当前任务排队时间

2.历史任务统计

a.该用户历史任务运行时间

b.该用户历史平均任务运行时间

c.该用户完成(失效)的历史任务数

d.任务成功率(成功任务数/失效任务数)

e.该用户历史任务使用的节点数、核数

f.该用户平均历史任务使用的节点数、核数

g.历史任务平均排队时间

四、应用软件研发人员用户群指标

1.程序(模块)使用信息统计

a.一周(月、年)内，每天处理(失效)的模块总数

b.一周(月、年)内，模块失效率

c.一周(月、年)内，模块使用热度统计、排名，及每个模块的使用次数占比

d.一周(月、年)内，失效模块热度统计、排名，及每个失效模块的失效次数占比

2.性能追踪指标

a.所有应用层面的服务(数据库、文件系统、作业调度、中间加速层、并行框架等)的负载情况

b.微架构级的信息：cache hit/miss率、TLB

c.操作系统级的信息：进程数、进程切换、堆栈、堆内存分配情况等等。

3.用户使用习惯的统计

a.交互应用的访问数据的延迟、驻留时间、I/O访问模式等

最后，将监控设备已经按上述内容挖掘的统计分析信息，按指定的用户层分别展示到用户端设备。

本发明的实施方式中的数据挖掘是按用户的类型来区分的。发明中已列出的挖掘项是充分分析了相关类型用户的具体需求和关注点后总结的。而这类指标在通常的监控里是没有的，需要人为的将数据导出分析，而本发明提出的实施方式是智能化、自动完成的。此外，本发明提出的实施方式还设计有预留的由用户自定义的数据挖掘接口，可执行用户定义的数据挖掘程序。

3.故障定位和报警

通过上述数据挖掘分析，能够获得计算节点的设备当前工作性能指标，根据所述工作性能指标可以分析设备是否发生故障以及发生故障的原因。一方面能够将错误信息通过用户端设备的智能展示模块展示给特定的用户，另一方面，可以在用户客端设备安装故障报警模块，例如安装一定的音响设备、灯光设备等，以在设备失效时发出警报信息，从而提醒维护人员快速关注故障设备，快速完成设备故障排除。

设备或应用软件的故障异常情况能够根据统计的性能数据指标来反映。为了简单易用本发明是通过分析性能数据指标的异常来定位故障的，特别是一些性能方面的故障，是无法通过惯常的方法排除的。比如，集群的散热不好，可能会导致处理器的降频运行，这个时候按正常的故障监控手段是不会报警的，但采用本发明提出的方法，由于收集有处理器微架构数据指标，可以实时的监控处理器完成的浮点运行速度、以及完成每条指令所需的时钟数CPI，所以当在被监控节点重负载时而这两项指标在一个较长的时间内持续低于预设的阈值，则由监控设备判断出故障发生并智能报警，同时也就定位了故障发生的原因，即处理器非正常降频。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 智能监控大规模数据中心集群计算节点的系统和方法 [P] . 中国专利： CN104156296B . 2017.06.30
2. 智能监控大规模数据中心集群计算节点的系统和方法 [P] . 中国专利： CN104156296A . 2014-11-19
3. METHOD FOR GENERATING DEPTH MAP, COMPUTING NODES, COMPUTING NODE CLUSTER, AND STORAGE MEDIUM [P] . WO2021083177A1 . 2021-05-06

机译：生成深度图，计算节点，计算节点集群和存储介质的方法
4. COMPUTING NODE PROCESSOR RESOURCE OPTIMIZATION METHOD, COMPUTING NODE AND SERVER CLUSTER [P] . 美国专利： US2020050498A1 . 2020-02-13

机译：计算节点处理器资源的优化方法，计算节点和服务器集群
5. METHOD FOR OPTIMISING PROCESSOR RESOURCES OF COMPUTING NODE, COMPUTING NODE, AND SERVER CLUSTER [P] . 世界知识产权组织专利： WO2018157586A1 . 2018-09-07

机译：计算节点，计算节点和服务器集群的处理器资源的优化方法