首页> 中国专利> 智能监控大规模数据中心集群计算节点的系统和方法

智能监控大规模数据中心集群计算节点的系统和方法

摘要

提出一种智能监控大规模数据中心集群计算节点的系统和方法,由系统中的监控节点采集计算节点的硬件微架构数据指标和运行的应用程序的进程相关的数据指标,并将所述数据指标发送到系统中的监控设备,由监控设备执行大数据分析,并将结果发送到用户端设备显示给用户。所述系统和方法能够采集计算节点微架构数据指标和运行的应用程序进程数据指标,实现智能大数据分析,自动定位发生故障的计算节点并提供故障原因。

著录项

  • 公开/公告号CN104156296A

    专利类型发明专利

  • 公开/公告日2014-11-19

    原文格式PDF

  • 申请/专利权人 浪潮(北京)电子信息产业有限公司;

    申请/专利号CN201410377856.0

  • 发明设计人 刘羽;吕文静;金莲;陈博文;于涛;

    申请日2014-08-01

  • 分类号G06F11/30(20060101);

  • 代理机构11262 北京安信方达知识产权代理有限公司;

  • 代理人王丹;李丹

  • 地址 100085 北京市海淀区上地信息路2号2-1号C栋1层

  • 入库时间 2023-12-17 03:09:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-06-30

    授权

    授权

  • 2014-12-17

    实质审查的生效 IPC(主分类):G06F11/30 申请日:20140801

    实质审查的生效

  • 2014-11-19

    公开

    公开

说明书

技术领域

本发明涉及计算机技术领域,具体涉及一种智能监控大规模数据中心集 群计算节点的系统和方法。

背景技术

随着人类社会的不断进步,科学技术的发展,人们不但对自然界的认识越 来越广泛,而且对未知世界探索的需求也越来越迫切。这就使得人类撑握的 信息数据的量急剧性的增长,而与此同时,这些海量的信息数据都需要及时 的分析和处理。例如,一个大型天文射电望远镜阵列一秒钟就能产生100GB 以上的宇宙微波数据,这些数据都需要及时得到分析;再如,在粒子物理研 究领域,一台大型强子对撞机一次对撞的数据也是以TB为单位来计量的;此 外,像人类基因组工程、石油勘探、天气预报等等领域也对计算能力提出了 越来越高的要求。在这种大背景下数值计算已然成为了除实验、理论分析之 外的第三种极其重要的科学探索手段。正是基于这样的现实,促使了当今世 界各个科技强国都在不遗余力的大力发展超级计算机。如,在2013年12月 发布的世界TOP500中,排名第一的中国“天河二号(TH-2)”就已经达到了 54.9PFlops的峰值速度,共使用了16000余个计算节点。

除此之外,随着云计算、大数据、物联网等新型技术的发展,出现了越来 越多的大型数据中心,云计算中心。它们动辄拥有数以万计的计算机节点。 如谷歌(Google)位于美国俄勒冈州的Dalles数据中心拥有约15万台服务器 节点。在这样大规模的数据中心中,计算节点的性能监控,故障定位,故障 恢复,以及中心整体效率统计等等,都存在着前所未有的挑战。因此,如何 高效的管理和利用一个大规模乃至超大规模的数据中心,是当今世界各国都 在努力探索的一个热门领域。

长期以来,数据中心的监控管理都是靠人工半自动的方式来完成的。负责 运维的人员需要实时的查看集群的运行状态,一旦出现问题,虽然有时可以 定位节点位置,却往往不能准确定位故障的设备,还需要费时费力通过工作 人员的经验来判断、排障;集群的用户虽然可以通过众多的作业调度软件了 解自己的作业情况,却很少可以统计到作业的历史分析;再者集群的决策者 往往无法直接从集群上得到有关费用支出、使用效率、人员工作效率、费效 比等有关决策的信息资料,只能通过对大量数据的人工分析来决策,费时费 力。此外,应用开发人员也往往无法从集群上获得优化应用软件急需的硬件 微架构、系统进程、堆栈、模块错误崩溃统计等信息,需要凭经验通过大量 的实验得到,即费时又费力。

发明内容

本发明提出了一种智能监控大规模数据中心集群计算节点的系统和方法, 具有大型化、多功能、面向多用户群的特点。它拥有完善的智能分析和统计 功能,可以为不同层次用户的决策提供数据参考依据。

所述系统,包括:安装在数据中心集群计算节点上的监控节点、与各个监 控节点通信的监控设备、以及用户终端设备,其特征在于:

所述监控节点,用于通过获得计算节点的硬件控制寄存器的控制权,采集 所述计算节点的硬件微架构数据指标,通过获得操作系统内核的控制权,获 得与所述计算节点上运行的应用程序的进程相关的数据指标,并将所述数据 指标发送到监控设备;

所述监控设备,用于接收所述数据指标,基于所述数据指标执行大数据分 析,并将所述分析的结果发送到用户终端设备;

所述用户终端设备,用于接收所述结果并显示给用户。

所述方法包括:

启动安装在计算节点中的监控节点;

所述监控节点通过获得计算节点的硬件控制寄存器的控制权,采集所述计 算节点的硬件微架构数据指标,通过获得操作系统内核的控制权,获得与所 述计算节点上运行的应用程序的进程相关的数据指标,并将所述数据指标发 送到监控设备;

所述监控设备接收所述数据指标,基于所述数据指标执行大数据分析,并 将所述分析的结果发送到用户终端设备;

所述用户终端设备接收所述结果并显示给用户。

特别地,所述分析包括:根据所述数据指标定位发生故障的计算节点,以 及确定故障原因。

特别地,所述硬件微架构数据指标包括CPU的实时浮点运行速度、流SIMD 指令扩展集SSE单元利用率、高级向量扩展集AVX单元利用率、向量指令 向量化率、完成每条指令所需的时钟数CPI、最后一级缓存LLC命中率、内 存带宽、PCI快速总线接口PCI-E设备带宽、缓存命中/未命中率中的一种或 多种的组合;所述与所述计算节点上运行的应用程序的进程相关的数据指标 包括进程切换次数、堆栈信息、堆内存分配情况中的一种或多种的组合。

特别地,所述数据指标为CPU的实时浮点运行速度和/或完成每条指令所 需的时钟数CPI,所述分析包括:当所述数据指标在预设时间段内持续低于 预设的阈值,则判断处理器发生故障,并确定故障的原因为处理器异常降频。

特别地,所述监控节点还采集由操作系统提供的CPU利用率、内存利用率、 本地磁盘IO数据和/或以太网吞吐量。

特别地,其中所述计算节点的硬件控制寄存器为所述计算节点的处理器的 性能监控单元PMU中的MSR控制寄存器。

本发明的有益效果是:

通过在各个计算节点的性能监控装置提取必要的系统级性能指标信息,并 发送由监控管理节点来负责维护。而监控管理节点,则具有异常的识别和报 警能力,同时按用户群分别挖掘所记录的历史数据,并将结果反馈给用户。 同时,监控管理节点还可以按需、按时间段,对指定的监控节点提取硬件微 架构特征及进程、堆栈等方面的信息。从而实现对大规模集群监控的多用户 化、多功能化和智能化。

为了实现监控的实效性,各计算节点的监控端实现了每秒刷新的监控模 式。同时为了减少计算节点的资源占用,各计算节点仅提取用于数据分析所 必须的最小指标项,包括CPU利用率,内存利用率,本地磁盘读写以及以太 网吞吐量等十数个指标。

为了实现多功能化,本智能监控系统还提供了对硬件微架构相关的指标的 监控分析,如浮点运行速度,向量化率,内存带宽,IB带宽等等。但由于这 部分内容在监控时对系统资源的占用相对较多,因此,它们根据用户指令按 需启动。

为了实现多用户化,本智能监控系统提出了涵盖管理层、运维层、实际应 用用户层和应用开发层,四个层次的分级视图。

为了实现智能化,本智能监控系统发明了一种数据挖掘的分析方法,它依 据基本的性能监控数据信息,通过计算挖掘出不同层次用户最感兴趣的统计 指标。

附图说明

图1是本发明提出的一种智能监控大规模数据中心集群的系统框图

图2是本发明提出的一种智能监控大规模数据中心集群的方法的流程图

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明 做进一步地详细描述。

参见附图1,示出了本发明提出的一种智能监控大规模数据中心集群计算 节点的系统,包括安装在数据中心集群计算节点上的监控节点、与各个监控 节点连接的监控设备、以及用户终端设备。其中数据中心集群计算节点具有 相应的硬件设备,例如处理器CPU、内存、硬盘、以太网络控制器等,在所 述计算节点上运行操作系统以及应用软件;监控设备包括主监控节点和数据 库,主监控节点与安装在上述计算节点上的各个监控节点通信,能够获得数 据中心集群计算节点的硬件和软件运行数据,例如CPU利用率、内存利用率、 本地磁盘IO数据、以太网吞吐量,以及针对该计算节点硬件的微架构数据指 标和运行的应用程序进程级的数据指标。主监控节点将获得的上述数据写入 数据库中,自动执行大数据挖掘并保存大数据挖掘后获得的结果。用户通过 用户端设备从数据库中读取结果并显示。用户还可以通过用户终端设备向监 控设备输入用户定义的数据挖掘程序,由监控设备提取数据中心集群节点的 相应数据指标,按照用户定义的数据挖掘程序执行大数据挖掘并向用户显示 结果。

参见附图2,本发明提出的一种智能监控大规模数据中心集群计算节点的 方法由数据采集、大数据挖掘、分级展示、以及故障定位和报警等几个主要 步骤组成。其中数据采集包括基本数据采集和高级数据采集,基本数据采集 由系统自动执行,无需用户设置;高级数据采集需要按照用户意愿设置。

1.数据采集

数据采集是指在数据中心集群计算节点上安装监控节点,提取该计算节点 的CPU利用率、内存利用率、本地磁盘IO数据、以太网吞吐量,以及针对该 计算节点硬件的微架构数据指标和运行的应用程序进程级的数据指标。其中, 针对计算节点硬件的微架构数据指标和应用程序进程级的数据指标的采集称 为高级数据采集,其余指标的采集称为基本数据采集。基本数据采集为系统 默认设置的步骤,无需用户干预即可执行,高级数据采集根据用户需求而设 置执行。由于需要保证性能指标数据的实效性,监控节点必须满足秒级刷新 的采集能力,同时必须保证极低的计算节点资源占用率。

本发明提出的数据采集方法不同于现有技术中提出的方法。在现有技术 中,数据采集仅仅是收集操作系统本身提供的一些指标数据,即数据指标的 采集依赖于计算节点上运行的操作系统,对于操作系统无法提供的数据指标, 监控节点无法获得。而本发明所提出的数据采集方法,不仅仅能完成上述由 操作系统提供的数据指标的采集,还可以采集一些硬件微架构数据指标,例 如CPU的实时浮点运行速度、流SIMD指令扩展集SSE(Streaming SIMD  Extensions)单元利用率、高级向量扩展集AVX(Advanced Vector Extensios) 单元利用率、向量指令向量化率、完成每条指令所需的时钟数(CPI)、最后 一级缓存LLC(Last Level Cache)命中率、转换后备缓冲器TLB(Translation  Lookaside Buffer)参数、内存带宽、PCI快速总线接口PCI-E(PCI Express) 设备带宽、缓存命中/未命中(cache hit/miss)率、TLB单元等等。此外, 还可以采集一些应用程序进程级的数据指标,如进程切换次数、堆栈信息、 堆内存分配情况等等。这些指标对于挖掘应用软件的性能、分析集群特性和 定位软件级故障具有十分重要的意义。

由于需要采集硬件和进程级数据指标,因此本发明提出的监控节点通过软 件客户端的方式实现。所述监控节点对基本数据的采集同现有技术提出的方 法,在此不再赘述,对高级数据采集的过程具体介绍如下:

对上述硬件微架构数据指标的提取需要通过对硬件中相关寄存器的控制 来实现。如,对于处理器微架构数据指标,主要是通过对处理器中的性能监 控单元PMU(Performance Monitoring Unit)进行控制来实现。因此,这 就要求本案的监控节点拥有最高的root权限。对PMU的控制流程介绍如下:

S1:获取计算节点的处理器的PMU中的MSR(Module Specific Register) 控制寄存器的控制权;

S2:将相关事件的编码和掩码写入已控制的MSR控制寄存器中,并设置该 控制寄存器,开始对相关事件计数,例如,当采集LLC命中率数据指标时, 先将LLC命中率的编码和掩码写入MSR控制寄存器中,然后设置该寄存器开 始计数LLC命中数量,计数结束后读取该控制寄存器中的计数数量,统计LLC 命中率。

对系统内核级指标的提取需要对内核中相关代码的监控来实现。例如对进 程切换的监控,需要监控内核中有关进程管理部分的代码中控制进程的部分。 当计算节点启动,内核成功加载后即开始监控。因此,监控节点必须拥有对 内核级的控制权。对系统内核级指标的提取可能会稍微影响系统的性能,因 此可针对监控的场合按需提供。

2.大数据挖掘和分级展示

上述安装在计算节点中的监控节点还具有向监控设备发送数据的能力,由 监控设备统一接收和管理各个监控节点。监控设备中的主监控节点负责从各 个监控节点接收采集的数据指标,以及向各个监控节点发送控制命令,所述 控制命令包括所述系统默认产生的基本数据采集命令,以及根据用户设置而 产生的高级数据采集命令,所述各个监控节点根据所述控制命令执行相应数 据指标的采集。同时主监控节点还负责将接收的所述数据指标按一定的存储 格式存入数据库中,作为下一步数据挖掘的输入数据。

为了实现智能化,监控设备还具有大数据挖掘能力,它根据预设统计设置 对数据库中保存的数据指标进行大数据处理,并按照预设的分级展示方案, 分别为不同的用户提供数据统计和分析结果。此外,监控设备还具有用户接 口,可以接收用户自定义的数据挖掘算法,并按照所述数据挖掘算法执行数 据挖掘。所述预设的统计设置包括:

一、管理层用户群指标

1.生产速率(任务通量)

a.实时运行任务、应用数

b.一周(月、年)内,每天完成(失败)的任务数【列图、表】

c.一周(月、年)内,平均每天完成(失败)任务数

d.一周(月、年)内,总完成(失败)任务数

e.每任务时间

2.运维成本(能耗)(计算、存储、交换、机房【制冷】)

a.实时总功耗

b.一周(月、年)内,每天能耗(KW/h)【列图、表】

c.一周(月、年)内,平均每天能耗(KW/h)

d.一周(月、年)内,总能耗(KW/h)

e.设备折旧、机房整体折旧费用监控、及各费用单元间比值统计、单位 费用作业完成量

3.资产利用效率

a.一周(月、年)内,每天集群占空比

b.一周(月、年)内,平均每天集群占空比

c.一周(月、年)内,每天集群繁忙时段(计算每小时集群占空比)

d.一周(月、年)内,平均繁忙时段(24小时时段上的年平均占空比)

e.实时在线用户数(特定授权、查看人员信息)

f.一周(月、年)内,每天在线用户数【列图、表】

g.一周(月、年)内,平均每天在线用户数

h.一周(月、年)内,每天平均用户完成任务数

i.一周(月、年)内,平均每用户完成任务数

4.设备健康度

a.实时故障节点数、故障率

b.一周(月、年)内,每天故障节点数、故障率【列图、表】

c.一周(月、年)内,平均每天故障节点数、故障率

二、集群设备管理维护人员用户群指标

1.故障报警及定位

a.实时故障节点数、故障率

b.一周(月、年)内,每天故障节点记录、故障率【列图、表】

c.一周(月、年)内,平均每节点故障次数,每节点故障率(统计易故 障节点)

d.故障节点实时定位

e.故障节点实时报警

f.故障、失效节点失效类型分级:可联接、不可联接、掉电等等

g.对可联接故障准确定位故障设备:故障盘位置、掉内存(位置)等等

2.设备运行状态查看

a.集群整体实时CPU利用率、集中存储IO带宽

b.一周(月、年)内,每天集群整体平均CPU利用率、平均集中存储IO 带宽

c.一周(月、年)内,集群整体平均CPU利用率、平均集中存储IO带宽

d.可实时查看每节点运行状态:CPU、内存、本地磁盘、网络等等指标

e.可历史查询一年内所有节点每天运行姿态

f.资源瓶颈分析(CPU、存储、内存、网络【区分存储,数据交换】)

3.计费功能

a.用户机时统计

三、任务用户群指标

1.当前任务信息

a.当前任务使用的节点数、核数、占用的内存容量等等

b.可查看当前任务所使用的节点数的状态信息:CPU、内存、本地磁盘、 网络等等

c.当前排队的任务数

d.当前任务排队时间

2.历史任务统计

a.该用户历史任务运行时间

b.该用户历史平均任务运行时间

c.该用户完成(失效)的历史任务数

d.任务成功率(成功任务数/失效任务数)

e.该用户历史任务使用的节点数、核数

f.该用户平均历史任务使用的节点数、核数

g.历史任务平均排队时间

四、应用软件研发人员用户群指标

1.程序(模块)使用信息统计

a.一周(月、年)内,每天处理(失效)的模块总数

b.一周(月、年)内,模块失效率

c.一周(月、年)内,模块使用热度统计、排名,及每个模块的使用次 数占比

d.一周(月、年)内,失效模块热度统计、排名,及每个失效模块的失 效次数占比

2.性能追踪指标

a.所有应用层面的服务(数据库、文件系统、作业调度、中间加速层、 并行框架等)的负载情况

b.微架构级的信息:cache hit/miss率、TLB

c.操作系统级的信息:进程数、进程切换、堆栈、堆内存分配情况等等。

3.用户使用习惯的统计

a.交互应用的访问数据的延迟、驻留时间、I/O访问模式等

最后,将监控设备已经按上述内容挖掘的统计分析信息,按指定的用户层 分别展示到用户端设备。

本发明的实施方式中的数据挖掘是按用户的类型来区分的。发明中已列出 的挖掘项是充分分析了相关类型用户的具体需求和关注点后总结的。而这类 指标在通常的监控里是没有的,需要人为的将数据导出分析,而本发明提出 的实施方式是智能化、自动完成的。此外,本发明提出的实施方式还设计有 预留的由用户自定义的数据挖掘接口,可执行用户定义的数据挖掘程序。

3.故障定位和报警

通过上述数据挖掘分析,能够获得计算节点的设备当前工作性能指标,根 据所述工作性能指标可以分析设备是否发生故障以及发生故障的原因。一方 面能够将错误信息通过用户端设备的智能展示模块展示给特定的用户,另一 方面,可以在用户客端设备安装故障报警模块,例如安装一定的音响设备、 灯光设备等,以在设备失效时发出警报信息,从而提醒维护人员快速关注故 障设备,快速完成设备故障排除。

设备或应用软件的故障异常情况能够根据统计的性能数据指标来反映。为 了简单易用本发明是通过分析性能数据指标的异常来定位故障的,特别是一 些性能方面的故障,是无法通过惯常的方法排除的。比如,集群的散热不好, 可能会导致处理器的降频运行,这个时候按正常的故障监控手段是不会报警 的,但采用本发明提出的方法,由于收集有处理器微架构数据指标,可以实 时的监控处理器完成的浮点运行速度、以及完成每条指令所需的时钟数CPI, 所以当在被监控节点重负载时而这两项指标在一个较长的时间内持续低于预 设的阈值,则由监控设备判断出故障发生并智能报警,同时也就定位了故障 发生的原因,即处理器非正常降频。

当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情 况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形, 但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号