首页> 中国专利> 混合云环境下的数据索引列表存储策略

混合云环境下的数据索引列表存储策略

摘要

本发明涉及一种混合云环境下的数据索引列表存储策略。在传统云存储环境中,数据的重复存储带来的巨大冗余和空间浪费并未被充分考虑到,该项目通过优化数据存储策略来提高云存储性能,进而降低存储成本。首先,我们考虑为用户可访问空间中的已存储数据建立索引列表,它包含了数据的文件名,文件大小和存储路径等相关信息;接着,在存储数据时,将数据的相关信息与可访问资源的索引列表进行重复项的匹配;最后,为相同的可访问资源设定某个数量阈值S并进行判断,根据实际情况选择是否需要进行完整数据存储。本发明可以大大降低相同数据的重复存储,提高存储空间利用率,进而减少成本。

著录项

  • 公开/公告号CN106294539A

    专利类型发明专利

  • 公开/公告日2017-01-04

    原文格式PDF

  • 申请/专利权人 福州大学;

    申请/专利号CN201610582079.2

  • 发明设计人 兰诚栋;林华琦;孙强强;方大锐;

    申请日2016-07-22

  • 分类号G06F17/30;H04L29/08;

  • 代理机构福州元创专利商标代理有限公司;

  • 代理人蔡学俊

  • 地址 350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区

  • 入库时间 2023-06-19 01:14:33

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-09

    授权

    授权

  • 2017-02-01

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20160722

    实质审查的生效

  • 2017-01-04

    公开

    公开

说明书

技术领域

本发明涉及一种混合云环境下的数据索引列表存储策略。

背景技术

云计算、云存储技术在近几年内得到了快速发展,国内外涌现了各式各样的公有云存储服务,这些公有云服务对于个人用户是免费的,但对于需要通过API(应用程序接口)访问的企业用户是收费的。云存储服务满足了企业的存储需求,同时又降低了企业购买、维护大容量存储设备的开销,企业等用户越来越倾向于将数据存储在服务提供商的云存储系统上以节省成本。但对于有大量数据存储需求的云存储服务消费者而言,云存储服务仍然需要不菲的存储费用。

2011年,NIST(National Institute of Standards and Technology,美国国家标准与技术研究院)提出了云代理。云代理独立于云存储资源提供商运行,负责发现和分析云用户的需求,拆分成不同的任务发布到云端,云存储提供商根据这些任务给出各自的报价和SLA(Service-Level Agreement,服务等级协议)交给云代理比较和选择;云代理向用户提供报价和合同,并租用云存储资源提供商的资源交给用户使用。但是,我们知道数据的重复存储会带来巨大冗余和空间的浪费,而企业用户放到公有云的数据一般是非关键公共数据,在公有云中很可能会存在相同数据导致重复存储,传统的云存储服务提供商给出的SLA中没有重复资源的描述,传统的云代理选择云存储服务商的策略中也没有考虑云存储服务商是否存在重复资源。

数据的重复存储将带来较大的不必要成本支出浪费,带来低性价比问题,这必然是云存储用户所不希望的,故云存储中的数据重复存储已成为一个迫切需要解决的问题,数据存储量越大的企业对此的需求也是越大的。

发明内容

有鉴于此,本发明的目的在于提供一种混合云环境下的数据索引列表存储策略,增加了数据自身与云空间可访问资源重复的匹配项,并提出数据索引列表存储策略来进行完善。

为实现上述目的,本发明采用如下技术方案:一种混合云环境下的数据索引列表存储策略,其特征在于,包括以下步骤:

步骤S1:在混合云的环境中创建用户可访问空间,所述用户可访问空间包括用户自身所拥有的私有云空间、云代理为用户开辟好的资源池以及通过云代理可检索得到的其他用户共享的数据资源;

步骤S2:为所述用户可访问空间中的已存储数据建立索引列表,所述索引列表用于记录已存储数据的信息,包括已存储信息的文件名、文件大小、存储路径、存储时间、是否全存和存储用户;

步骤S3:在存储数据时,通过所述索引列表将要存储数据的信息和已存储数据的信息进行匹配,找出与要存储数据相同的可访问资源,并统计其资源数X;

步骤S4:为步骤S3得到与要存储数据相同的可访问资源设定数量阈值S,在存储数据时,根据所述资源数X与数量阈值S的大小,选择对要存储数据进行存储或者只存储相同资源的可访问索引列表。

进一步的,在所述用户可访问空间中,用户可访问的资源包括其他用户的共享资源与本用户自身的存储资源。

进一步的,所述索引列表中的是否全存的具体含义为:若为是,则代表数据被完整存储;若为否,则代表只存储相同资源的可访问索引列表。

进一步的,所述步骤S3中的要存储数据的信息包括要存储信息的文件名、文件大小、存储路径、存储时间、是否全存和存储用户。

进一步的,所述步骤S4中,若资源数X低于数量阈值S,则对要存储数据进行完整存储以减少数据丢失的概率;若资源数X高于或等于数量阈值S,则只存储相同资源的可访问索引列表以降低存储成本。

进一步的,在进行完整存储时,根据数据的安全性需求选择将要存储数据存于私有云或公有云中。

本发明与现有技术相比具有以下有益效果:本发明通过为相同资源数设定阈值来决定完整存储数据还是只存储相同资源的可访问索引列表,这能有效减少数据重复存储带来的巨大冗余和空间浪费,极大提高混合云中的云存储性能,为用户节省成本。

附图说明

图1是本发明的流程图。

图2是本发明用户存储数据时系统存储操作的流程图。

图3是本发明一实施例的系统框图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图3,于本实施例中,用户拥有自身的私有云,同时该用户的云代理已开辟了由公有云1、公有云2和公有云3组成的资源池,则该用户的用户可访问空间为自身私有云、云代理为用户开辟好的资源池(此例中由公有云1、公有云2和公有云3组成)以及云代理可检索得到的其他用户共享的资源(设有用户2、用户3、用户4上传共享数据)。并设该用户可访问空间中有数据资源A、B、C、D、E、F、G、H、I、J,各数据资源的具体分布情况可见下表1:

表1:数据在用户可访问空间中的分布情况

私有云公有云1公有云2公有云3A、C、E、G、IA、B、C、I、JA、D、G、H、IA、C、F、H、I

请参照图1,混合云环境下的数据索引列表存储策略包括以下步骤:

步骤S1:在混合云的环境中创建用户可访问空间,所述用户可访问空间包括用户自身所拥有的私有云空间、云代理为用户开辟好的资源池以及通过云代理可检索得到的其他用户共享的数据资源;

步骤S2:为所述用户可访问空间中的已存储数据建立索引列表,所述索引列表用于记录已存储数据的信息,包括已存储信息的文件名、文件大小、存储路径、存储时间、是否全存和存储用户等信息;其中是否全存的具体含义为:若为是,则代表数据被完整存储;若为否,则代表存储的是相同资源的可访问索引列表。索引列表存放于每个数据所在的云中,下表2为私有云数据的索引列表,表3、表4、表5分别为公有云1、公有云2、公有云3的数据索引列表:

表2:私有云数据的索引列表

文件名文件大小存储路径存储时间是否全存存储用户A6G私有云20160606用户1C3G私有云20160503用户1E10G私有云20150909用户1G36G私有云20150503用户1I28G私有云20130228用户1

表3:公有云1的数据索引列表

文件名文件大小存储路径存储时间是否全存存储用户A6G公有云120160601用户1B13G公有云120160621用户4C3G公有云120160203用户3I28G公有云120160303用户1J35G公有云120160620用户2

表4:公有云2的数据索引列表

文件名文件大小存储路径存储时间是否全存存储用户A6G公有云220160606用户1D16G公有云220160503用户1G36G公有云220150909用户4H1G公有云220150503用户3

表5:公有云3的数据索引列表

文件名文件大小存储路径存储时间是否全存存储用户A6G公有云320160602用户1C3G公有云320160607用户2F24G公有云320160613用户1H1G公有云320160618用户4I28G公有云320160621用户1

步骤S3:请参照图2,在存储数据时,通过所述索引列表将要存储数据的信息和已存储数据的信息进行匹配(将文件名和文件大小进行对比,当已存储数据的文件名和文件大小都相同时确定为要存储数据相同的可访问资源),找出与要存储数据相同的可访问资源,并统计其资源数X;

步骤S4:请继续参照图2,为步骤S3得到与要存储数据相同的可访问资源设定数量阈值S,于本实施例中S=3,在存储数据时,根据所述资源数X与数量阈值S的大小,选择对要存储数据进行存储或者只存储相同资源的可访问索引列表,具体为:若资源数X低于数量阈值S,则对要存储数据进行完整存储以减少数据丢失的概率;若资源数X高于数量阈值S,则只存储相同资源的可访问索引列表以降低存储成本。特别的,在进行完整存储时,根据数据的安全性需求选择将要存储数据存于私有云或公有云中。

下面以数据C和数据H为例进行介绍:当该用户要存储数据C时,首先将数据C与用户可访问空间中的数据索引列表进行信息匹配,可得匹配结果:私有云、公有云1和公有云3都有相同的数据C,即相同的可访问资源数X为3。则显然X≥S,故我们存储与数据C相同的数据的可访问索引列表,被存储的内容为下表6:

表6:存储数据C时存储的内容

文件名文件大小存储路径存储时间是否全存存储用户C3G私有云20160503用户1C3G公有云120160203用户3C3G公有云320160607用户2

当该用户要存储数据H时,首先将数据H与用户可访问空间中的数据索引列表进行信息匹配,可得匹配结果:公有云2和公有云3都有相同的数据H,即相同的可访问资源数X为2。则显然X〈S,故我们选择直接对数据H进行存储。

以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号