首页> 中文学位 >信息存储系统中重复数据删除技术的研究
【6h】

信息存储系统中重复数据删除技术的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 信息存储技术概述

1.2 重复数据删除技术的动态

1.3 研究内容

1.4 论文组织结构

2 基于重复特征的重复数据删除策略

2.1 数据的重复特征

2.2 重复数据删除理论分析模型

2.3 数据重复特征的实测分析

2.4 基于重复特征的重复数据删除策略

2.5 重复数据删除处理的优化

2.6 实验分析

2.7 小结

3 重复数据删除中数据可靠性的研究

3.1 重复数据删除过程中数据可靠性问题

3.2 最优冗余度计算模型

3.3 基于引用热度的数据冗余策略

3.4 重复数据删除处理中数据可靠性优化的相关研究

3.5 实验分析

3.6 小结

4 基于容量感知的数据分布策略

4.1 分布式环境中的数据分布策略

4.2 一种基于容量感知的数据分布策略

4.3 一种支持多冗余度的数据分布策略

4.4 实验分析

4.5 小结

5 全文总结

5.1 全文总结

5.2 研究展望

致谢

参考文献

附录1 攻读博士学位期间发表的学术论文

附录2 攻读博士学位期间参与的科研项目

展开▼

摘要

重复数据删除技术是网络存储系统中一种数据无损压缩的解决方案,可以有效地抑制数据存储开销过快的增长,缩减存储系统的构建以及运营管理的成本。在数据信息量迅猛增长的背景下,重复数据删除技术得到了学术界和产业界广泛的关注。但重复数据删除领域仍然存在诸多技术问题,如提高数据压缩率,减少处理时间,优化数据可靠性等方面。针对上述存在的问题,论文从重复数据删除处理方法,重复数据删除处理中的数据可靠性问题以及存储后台的数据分布策略三个方面展开了深入的研究。
  通过理论分析模型以及现实数据集的实测分析,对影响重复数据删除处理效果的因素展开了研究。目标数据的重复特征对重复数据删除处理的效果具有较大影响,因此,提出了一种基于重复特征的重复数据删除策略,对数据压缩率以及处理时间开销进行优化。该策略主要包括基于语义的数据分组策略和渐进式数据分割粒度判定法。基于语义的数据分组策略根据语义信息对数据的重复特征以及相似性进行判别并完成对目标数据的分组操作。渐进式数据分割粒度判定法是以数据分组为操作单位,根据重复特征对数据分割策略进行合适地设置。实验测试表明基于重复特征的重复数据删除策略相对于其它重复数据删除解决方案,在数据压缩率以及处理时间开销上获得了更加优异的综合性能。
  针对重复数据删除处理中数据可靠性的问题提出了一种最优冗余度计算模型,根据数据的引用热度提高目标数据的可靠性。为了将该理论模型应用到现实存储系统中,采用抽取数据单元样本空间计算经验数值的方法对理论模型进行了可行性优化,并提出一种基于引用热度的数据冗余策略。该数据冗余策略根据数据单元的相关属性(数据单元的大小以及引用热度)配置最优的冗余度,确保目标数据集使用最小的存储开销获得最优的数据可靠性。仿真实验验证了基于引用热度的数据冗余策略的可行性和有效性。
  针对当前数据分布策略中灵活性不足的问题,提出了一种基于容量感知的数据分布策略,以改善在物理节点间存储资源不相等的情况下存储负载的均衡程度。该策略提供了两种情况下的数据分布策略解决方案。在不考虑数据冗余度情况下,提出了一种基于容量感知的数据分布式策略,该策略基于一致性哈希数据分布算法,引入了虚拟化的设计思路,采用虚拟节点分配法进行存储资源的分配;并采用基于节点容量感知的负载均衡方法对物理存储节点之间的数据负载分布进行优化调整。在考虑数据冗余度情况下,提出了一种支持多冗余度的数据分布策略,为数据冗余策略提供灵活的平台支持,并对存储负载均衡程度进行优化。仿真测试结果表明两种数据分布策略在各自应用背景下均有助于改善存储数据负载的均衡水平。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号