首页> 中国专利> 一种基于Hadoop的分布式云存储自动分级数据管理系统

一种基于Hadoop的分布式云存储自动分级数据管理系统

摘要

本发明提供一种基于Hadoop的分布式云存储自动分级数据管理系统,包括节点服务器和中心服务器,所述节点服务器采集服务器状态消息和数据温度分布消息,并将所采集的消息发送到所述中心服务器的数据分级管理模块。本发明通过在中心服务器上部署数据分级管理模块,统一接收来自HDFS集群中数据节点和名字节点发送的消息,经处理后形成带外数据分级指令,并发送给HDFS集群中的名字节点负责最终的数据块再分布,从而实现基于Hadoop的分布式云存储系统的自动数据分级管理,提高存储资源的利用率。

著录项

  • 公开/公告号CN103023995A

    专利类型发明专利

  • 公开/公告日2013-04-03

    原文格式PDF

  • 申请/专利号CN201210499413.X

  • 发明设计人 张大华;罗志明;周里涛;

    申请日2012-11-29

  • 分类号H04L29/08(20060101);G06F17/30(20060101);

  • 代理机构11271 北京安博达知识产权代理有限公司;

  • 代理人徐国文

  • 地址 100192 北京市海淀区清河小营东路15号

  • 入库时间 2024-02-19 19:24:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-09-09

    授权

    授权

  • 2013-06-05

    实质审查的生效 IPC(主分类):H04L29/08 申请日:20121129

    实质审查的生效

  • 2013-04-03

    公开

    公开

说明书

技术领域

本发明属于计算机技术领域,具体涉及一种基于Hadoop的分布式云存储自动分级数据 管理系统。

背景技术

随着云计算技术在国内外的高速发展,基于Hadoop分布式文件系统(HDFS)的云存储 技术得到了广泛的应用。通过利旧和新增PC服务器的方式建立规模庞大的HDFS集群,利 用PC服务器上的本地磁盘提供高性能、高性价比、可弹性扩展的分布式云存储服务。

由于组成HDFS集群的服务器节点的差异性,集群中节点很有可能具有不同的存储性能 和存储容量。因此,如何充分考虑节点间的差异性,最优化存储资源的分配是构建基于Hadoop 的分布式云存储系统亟待解决的问题。

发明内容

为了克服上述现有技术的不足,本发明提供一种基于Hadoop的分布式云存储自动分级数据 管理系统,实现自动数据分级管理,提高存储资源利用率。

为了实现上述发明目的,本发明采取如下技术方案:

提供一种基于Hadoop的分布式云存储自动分级数据管理系统,所述系统包括节点服务 器和中心服务器,所述节点服务器采集服务器状态消息和数据温度分布消息,并将所采集的 消息发送到所述中心服务器的数据分级管理模块。

所述节点服务器包括服务器信息采集模块、数据温度采集模块和数据分级代理模块;所 述服务器信息采集模块和数据温度采集模块分别采集服务器状态消息和数据温度分布消息, 并分别将采集的消息发送到所述数据分级管理模块。

所述服务器信息采集模块部署在HDFS集群的数据节点上,所述数据温度采集模块和数 据分级代理模块部署在所述HDFS集群的名字节点上,所述数据分级管理模块部署在所述中 心服务器上。

所述服务器状态消息包含数据节点的硬件配置和运行状态信息,所述数据温度分布消息 包含数据温度消息和数据分布消息。

所述消息均包括消息头和消息体,所述消息头包括中心服务器名称、IP地址、节点ID、 加密方法、校验和时间戳;所述消息体包括经消息头指定加密方法加密后的节点硬件配置、 节点运行状态、数据温度和数据分布。

所述数据分级代理模块接收带外数据分级命令,解析所述带外数据分级命令获取需要移 动数据块信息,并将所获取信息告知名字节点,所述名字节点接收信息的同时复制目标数据 块到目标节点,并删除源数据节点上的数据块,需要移动数据块消息全部获取结束后,名字 节点向数据分级代理模块发送成功消息,所述数据分级代理模块向数据分级管理模块发送确 认消息。

所述需要移动数据块信息包括需要移动的目标数据块ID、源数据节点ID和目的节点ID。

所述中心服务器包括消息接收模块、信息持久化模块、信息缓存模块、数据分级管理模 块、指令加工模块、指令发送模块、分析引擎模块节点和注册模块。

所述消息接收模块接收来自数据节点和名字节点分别发送的服务器状态消息和数据温度 分布消息,对消息进行解析并送往所述数据分级管理模块;

所述数据分级管理模块生成带外数据分级命令,并周期性发送给名字节点;

所述信息缓存模块接收来自消息接收模块的消息,经过处理形成有效信息存入信息缓存 区,同时管理和维护信息缓存区内容,并将信息分类后发送给数据分级管理模块,所述信息 缓存区内容包括信息的创建、更新和删除;

信息缓存区超出容量或时间计数器结束或服务停止时,所述信息持久化模块对经过信息 缓存模块处理后的消息写入到磁盘,数据分级管理模块从磁盘读取信息,送入信息缓存区;

所述分析引擎模块信息缓存模块发送的服务器状态消息和数据温度分布消息,形成数据 温度分布式矢量图,并维护数据温度分布矢量图的状态更新;根据数据温度分布式矢量图形 成带外数据分级指令,发送给指令加工模块;

所述指令加工模块根据分析引擎模块输出的内容,加工形成可以由指令发送模块发送给 特定节点的指令编码;

所述指令发送模块接收来自所述数据分级管理模块生成的带外数据分级命令,并根据所 接收指令向目标节点发送指令;

所述节点注册模块接收来自信息缓存区的注册信息,并注册或更新指定节点的信息。

与现有技术相比,本发明的有益效果在于:

1、不同于其他分层存储方法将数据分布在不同的存储介质(内存、固态磁盘、磁盘、SAN 网络、磁带)上,本发明提供的基于Hadoop的分布式云存储自动分级数据管理系统利用X86 服务器的本地磁盘(SATA接口、SCSI接口)存储数据的情况;通过节点服务器配置信息对 比磁盘容量、数量、接口类型、读写速率等静态信息进行比对,结合服务器运行状态消息(磁 盘容量、CPU、网络带宽等动态信息)和数据温度分布消息息(数据被访问的次数、时间、 频率),实现在不同性能的服务器上存放不同温度数据,达到服务器存储资源的最优化使用。

2、不是在数据存储之初考虑数据块的合理分布,本发明使用的是离线的数据块再分布策 略,即通过发送带外数据分层指令,在整个HDFS集群负载最轻或最合适的时间进行数据块 的移动,从而更为合理地计算出数据的温度信息,同时减少对存储正常使用的影响。

3、本发明与所指的Hadoop分布式文件系统是松耦合状态,设计过程中仅在两处需要对 HDFS进行修改,可很快移植到其它采用分布式文件系统(元数据集中管理)的云存储平台 上,提供数据分级存储方案,具有较强的可移植性。

附图说明

图1是基于Hadoop的分布式云存储的数据管理流程图;

图2是基于Hadoop的分布式云存储自动分级数据管理系统逻辑架构示意图;

图3是中心服务器组成模块示意图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1和图2,提供一种基于Hadoop的分布式云存储自动分级数据管理系统,所述系统 包括节点服务器和中心服务器,所述节点服务器采集服务器状态消息和数据温度分布消息, 并将所采集的消息发送到所述中心服务器的数据分级管理模块。

所述节点服务器包括服务器信息采集模块、数据温度采集模块和数据分级代理模块;

所述服务器信息采集模块将收集数据节点的硬件配置信息(包含CPU、内存、硬盘、网 络等配置情况的静态信息),生成服务器状态消息后发送给中心服务器;之后,该服务将周期 性地采集数据节点的运行状态消息(包含CPU、内存、硬盘、网络等使用情况的动态信息), 经分析处理后形成服务器状态消息发送给中心服务器。

所述数据温度采集模块将记录数据被访问的次数和频率(可通过修改HDFS集群中名字 节点源代码的直接方式,或在分布式云存储系统客户端读请求消息中嵌入更新计数的间接方 式),计算得出存储中每个数据(以文件形式存在)的温度信息;通过解析名字节点上的元数 据信息,获取文件的分布信息;周期性地将上述有更新地信息合成数据温度分布消息发送给 中心服务器。

所述服务器信息采集模块部署在HDFS集群的数据节点上,所述数据温度采集模块和数 据分级代理模块部署在所述HDFS集群的名字节点上,所述数据分级管理模块部署在所述中 心服务器上。

所述服务器状态消息包含数据节点的硬件配置和运行状态信息,所述数据温度分布消息 包含数据温度消息和数据分布消息。

所述消息均包括消息头和消息体,所述消息头包括中心服务器名称、IP地址、节点ID、 加密方法、校验和时间戳;所述消息体包括经消息头指定加密方法加密后的节点硬件配置、 节点运行状态、数据温度和数据分布。

所述数据分级代理模块接收带外数据分级命令,解析所述带外数据分级命令获取需要移 动数据块信息,并将所获取信息告知名字节点,所述名字节点接收信息的同时复制目标数据 块到目标节点,并删除源数据节点上的数据块,需要移动数据块消息全部获取结束后,名字 节点向数据分级代理模块发送成功消息,所述数据分级代理模块向数据分级管理模块发送确 认消息。

所述需要移动数据块信息包括需要移动的目标数据块ID、源数据节点ID和目的节点ID。

如图3,所述中心服务器包括消息接收模块、信息持久化模块、信息缓存模块、数据分 级管理模块、指令加工模块、指令发送模块、分析引擎模块节点和注册模块。

所述消息接收模块接收来自数据节点和名字节点分别发送的服务器状态消息和数据温度 分布消息,对消息进行解析并送往所述数据分级管理模块;

所述数据分级管理模块生成带外数据分级命令,并周期性发送给名字节点;

所述信息缓存模块接收来自消息接收模块的消息,经过处理形成有效信息存入信息缓存 区,同时管理和维护信息缓存区内容,并将信息分类后发送给数据分级管理模块,所述信息 缓存区内容包括信息的创建、更新和删除;

信息缓存区超出容量或时间计数器结束或服务停止时,所述信息持久化模块对经过信息 缓存模块处理后的消息写入到磁盘,数据分级管理模块从磁盘读取信息,送入信息缓存区;

所述分析引擎模块信息缓存模块发送的服务器状态消息和数据温度分布消息,形成数据 温度分布式矢量图,并维护数据温度分布矢量图的状态更新;根据数据温度分布式矢量图形 成带外数据分级指令,发送给指令加工模块;

所述指令加工模块根据分析引擎模块输出的内容,加工形成可以由指令发送模块发送给 特定节点的指令编码;

所述指令发送模块接收来自所述数据分级管理模块生成的带外数据分级命令,并根据所 接收指令向目标节点发送指令;

所述节点注册模块接收来自信息缓存区的注册信息,并注册或更新指定节点的信息(形 成节点的ID,供分析引擎完成状态信息和数据温度分布信息解析、节点标识、生成指令等操 作)。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照 上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本 发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等 同替换,其均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号