首页> 中国专利> 面向云计算环境的分层存储系统中的数据迁移方法

面向云计算环境的分层存储系统中的数据迁移方法

摘要

本发明公开了一种面向云计算环境的分层存储系统中的数据迁移方法,所述分层存储系统包括在线业务平台和大数据平台,所述数据包括结构化数据和非结构化数据并且在所述在线业务平台与所述大数据平台之间进行迁移,所述方法包括:确定待迁移的数据的类型;以及根据所述数据的类型而在所述在线业务平台与所述大数据平台之间进行迁移,其中,在确定待迁移的数据为结构化数据时,采用MapReduce架构来实现并行迁移,而在确定待迁移的数据为非结构化数据时,采用FTP方式来实现并行迁移。

著录项

  • 公开/公告号CN104065685A

    专利类型发明专利

  • 公开/公告日2014-09-24

    原文格式PDF

  • 申请/专利权人 中国银联股份有限公司;

    申请/专利号CN201310093809.9

  • 发明设计人 刘磊;何东杰;何朔;鲁志军;

    申请日2013-03-22

  • 分类号H04L29/08(20060101);G06F17/30(20060101);

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人俞华梁;朱海煜

  • 地址 200135 上海市浦东新区含笑路36号银联大厦

  • 入库时间 2023-12-17 01:49:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-04-27

    授权

    授权

  • 2014-10-22

    实质审查的生效 IPC(主分类):H04L29/08 申请日:20130322

    实质审查的生效

  • 2014-09-24

    公开

    公开

说明书

技术领域

本发明涉及分层存储技术,更具体来说,涉及一种面向云计算环境的分层存储系统中的数据迁移方法。

背景技术

在现有的大多数应用场景中,一个应用系统包含自身的一套业务系统、备份系统和归档系统。多系统情况下,由于平台较多,系统的管理比较复杂,而且很容易造成容量空间的浪费,对每个系统的存储能力做出了限制。

在当前方案下,如果一个企业的系统较多,则管理员要同时负责多个系统的维护工作,并且为每个系统设计备份系统和归档系统,并且随着业务数据的增多,要定期的做数据备份归档,数据备份和归档系统要求具有一定的可扩展性,一般业务之间的存储空间不能共用,造成有的系统空间使用较多,有些系统的空间利用率反而很低。如果需要查询很久以前的数据,需要将归档系统中的数据进行数据恢复,数据量较大的时候成本较高,而且不容易找到所需数据。

由上可见,现有系统不能很好地满足多应用系统统一管理,不能合理地使用空间。

发明内容

为解决上述问题,本发明提供了一种面向云计算的分层存储系统。所述系统具有高吞吐量、高安全性、高可靠性和可扩展性,满足了对多项业务数据的高性能、透明的数据迁移要求。

根据本发明的一个方面,提供了一种面向云计算环境的分层存储系统中的数据迁移方法,所述分层存储系统包括在线业务平台和大数据平台,所述数据包括结构化数据和非结构化数据并且在所述在线业务平台与所述大数据平台之间进行迁移,所述方法包括:确定待迁移的数据的类型;以及根据所述数据的类型而在所述在线业务平台与所述大数据平台之间进行迁移,其中,在确定待迁移的数据为结构化数据时,采用MapReduce架构来实现并行迁移,而在确定待迁移的数据为非结构化数据时,采用FTP方式来实现并行迁移。

在上述数据迁移方法中,所述在线业务平台配置成存储近期的数据,而所述大数据平台配置成存储长时期的业务数据。

在上述数据迁移方法中,采用MapReduce架构来实现并行迁移包括:获取待转移的数据源和约束参数;收集配置信息并且根据所述配置信息来相应地设置所述MapReduce架构中的任务的配置信息;以及调用所述任务来进行数据迁移。

在上述数据迁移方法中,所述约束参数包含映射的个数要求。

在上述数据迁移方法中,所述任务的配置信息包括输入地址、输出地址、映射器所使用类、输入数据的格式以及输出数据的格式。

在上述数据迁移方法中,采用FTP方式来实现并行迁移包括:获取配置文件,其中所述配置文件包含数据迁移源数据文件夹地址、并发过程所采用的线程数量、迁移目的数据文件夹地址以及数据迁移后文件的命名方式;对所述配置文件进行解析;根据解析后的配置文件,建立FTP连接。

在上述数据迁移方法中,采用FTP方式来实现并行迁移还包括:在对所述配置文件进行解析后,判断所要迁移的文件列表是否为空;其中,如果为空,则结束迁移,反之则启动配置文件中指定个数的线程数进行数据迁移。

在上述数据迁移方法中,采用FTP方式来实现并行迁移还包括:在建立FTP连接后,判断迁移是否成功;其中如果成功,则结束数据迁移,反之则将迁移错误信息打印到日志文件中。

本发明的技术方案通过采用一个大数据平台完成了多个业务系统的数据备份,简化了系统管理复杂性,提高了系统空间使用率,能够实现在线业务平台和大数据平台之间的自动数据迁移。迁移的数据包含结构化数据和非结构化数据,采用了并发式的数据迁移模式以满足系统对迁移的性能要求。

附图说明

在参照附图阅读了本发明的具体实施方式以后,本领域技术人员将会更清楚地了解本发明的各个方面。本领域技术人员应当理解的是:这些附图仅仅用于配合具体实施方式说明本发明的技术方案,而并非意在对本发明的保护范围构成限制。

图1是根据本发明的一个实施例的面向云计算存储系统结构示意图;

图2是根据本发明的一个实施例的面向云计算存储系统结构化数据迁移流程图;

图3是根据本发明的一个实施例的面向云计算存储系统非结构化数据迁移流程图。

具体实施方式

下面介绍的是本发明的多个可能实施例中的一些,旨在提供对本发明的基本了解,并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。容易理解,根据本发明的技术方案,在不变更本发明的实质精神下,本领域的一般技术人员可以提出可相互替换的其它实现方式。因此,以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。

图示提供的实例提供了面向云计算的分层存储系统结构图和动态迁移数据的实现机制。分层存储系统包含了在线业务平台和大数据平台,两个数据平台保存了不同生命周期的数据,近期的数据保存在在线业务平台上,长期的数据保存在大数据平台上。两个平台间数据的迁移包含了结构化数据和非结构化数据。

如将进一步描述,结构化数据和非结构化数据迁移采取的方法是不同的。对于结构化数据迁移采用MapReduce架构,对于非结构化数据迁移则采用FTP方式。数据迁移充分考虑并发性,确保迁移性能。

下面结合实施例和附图对本发明进行详细说明。

根据本发明的一个实施例,本发明公开了一种基于hadoop的分层存储系统。

Hadoop是一种分布式系统基础架构,其由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop>

Hadoop有许多元素构成。其最底部是分布式文件系统HDFS,它存储了Hadoop集群中所有存储节点上的文件。HDFS的上一层是MapReduce引擎。MapReduce本身就是用于并行处理大数据集的软件框架。MapReduce的根源是函数性编程中的map和reduce函数。它由两个可能包含有许多实例的操作组成。Map函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce函数接受Map函数生成的列表,然后根据它们的键(为每个键生成一个键/值对)缩小键/值对列表。

如图1所示,所述的分层存储系统包含了由103和104组成的在线业务平台存储系统和106组成的大数据平台存储系统。所述的在线业务平台系统提供了如101所示的业务,包含了移动支付服务、持卡人服务、商户服务/收单服务,联合营销、电子票据、互联网支付等业务。102是在线业务平台之上的虚拟机层。105是大数据存储平台之上所提供的服务,包含了历史数据查询、数据挖掘功能,并且作为数据归档备份系统。

所述的107的过程即在线业务平台向大数据平台的数据迁移的过程,包含了结构化数据迁移和非结构化数据迁移。所述的结构化数据主要是关系型数据库所存储的数据;所述的非结构化数据主要是电子票据、系统日志等。数据的生命期指数据从产生到要求迁移到大数据平台归档备份的时间窗口,即在线业务平台数据的有效性时间段。

本发明所述的分层次存储系统,可以极大简化系统的管理成本。多个业务平台系统的备份系统和归档系统统一为一个,有效的提高了存储空间的使用,不需为每个系统分配合理的数据存储空间。现有大数据平台上多业务平台数据共用存储空间,减少空间的浪费,有效提升空间利用率。数据迁移的功能自动化实现,无需管理员管理。最大化的并行化数据迁移,提升数据迁移性能,减少对在线业务平台业务的影响。

参考图2,将在线业务平台关系型数据迁移到大数据平台上可采用MapReduce架构并行实行。如图2所示,该过程可包括如下:

Q1,准备迁移数据;

Q2,输入所要转移数据源和其他的约束参数;其中,所述数据源包含了各类结构化数据库,包括MySQL,DB2,Oracle等,指明具体所要迁移的表名称;所述其他的约束参数,包含映射(map)的个数要求;

Q3,Q4,开始数据迁移功能;

Q5,收集所有的配置信息并且复制;

Q6,根据配置信息,配置MapReduce的任务(job)的配置信息;

Q7~Q11,设置MapReduce的任务(job)的输入地址,输出地址,映射器(Mapper)所使用类,输入数据的格式,输出数据的格式;

Q12~Q13,调用映射(map)任务开始进行数据迁移,将源地址的数据复制到目的地址;

Q14,结构化数据迁移过程结束。

如上所述,对结构化数据采用MapReduce架构并行地进行迁移。迁移后的数据可以保存在HBase、Hive和HDFS中,可以指定数据的存储方式和存储位置。数据迁移过程即将大量的数据复制到Hadoop,复制工作由集群并行运行的映射(map)任务完成。采用MapReduce的架构可以将数据并行复制,加快数据的迁移速度。

进一步优化,结构化数据迁移的过程中可以采用资源调度算法进行负载均衡,检查现有磁盘的负载使用情况。如果磁盘IO已经超过了一定阈值,则认为此tasktracker的IO负载很重,则不再将映射(map)任务分配给这个tasktracker。

由此,结构化数据迁移有效地利用MapReduce架构从而完成并发数据迁移。

参考图3,将在线业务平台非关系型数据(非结构化数据)迁移到大数据平台上可采用FTP架构来并行实行增量式数据迁移。该过程可包括如下:

R1,开始迁移数据;

R2,获取配置文件;其中,所述配置文件包含了数据迁移源数据文件夹地址,并发过程所采用的线程数量,迁移目的数据文件夹地址,数据迁移后文件的命名方式;

R3对配置文件进行解析;

R4配置文件格式正确,进一步获取所要迁移的文件的列表,文件格式不正确,则结束数据迁移过程;

R5,判断所要迁移的文件列表是否为空,如果为空,则不需要进行数据迁移,结束迁移,反之,启动配置文件中指定个数的线程数进行数据迁移;

R6,根据配置文件信息,建立FTP连接;判断迁移是否成功,如果成功,则结束数据迁移过程,反之,将迁移错误信息打印到日志文件中;

R7,结束迁移。

可见,非结构化数据迁移有效地利用FTP服务器来完成并发数据迁移。在一个实施方式中,迁移后的数据存放在HDFS中指定的目录之下。

进一步优化,非结构化数据迁移过程中可采用增量数据迁移方法,同步在线业务平台和大数据平台的时间,将已经超过生命期的在线业务平台上的数据迁移到大数据平台,从而减少在线业务平台的成本。

综上所述,本发明通过采用一个大数据平台完成了多个业务系统的数据备份,简化了系统管理复杂性,提高了系统空间使用率,能够实现在线业务平台和大数据平台之间的自动数据迁移。迁移的数据包含结构化数据和非结构化数据,采用了并发式的数据迁移模式以满足系统对迁移的性能要求。

上文中,参照附图描述了本发明的具体实施方式。但是,本领域中的普通技术人员能够理解,在不偏离本发明的精神和范围的情况下,还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号