首页> 中文学位 >数据备份系统中数据去重技术研究
【6h】

数据备份系统中数据去重技术研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪 论

1.1 研究背景与课题意义

1.2 数据去重技术的基本原理与实现方法

1.3 数据备份系统中数据去重技术的研究现状与分析

1.4 本文研究的主要内容

2 基于文件语义的多层次数据去重方法

2.1 云备份系统中源端去重方法分析

2.2 文件语义的挖掘和混合去重方法分析

2.3 基于文件语义的多层次去重结构

2.4 基于文件语义的多层次去重方法的设计与实现

2.5 性能评测与分析

2.6 本章小结

3 基于因果关系的数据去重方法

3.1 恢复时间目标分析

3.2 基于因果关系的冗余数据挖掘

3.3 基于因果关系的数据去重结构

3.4 基于因果关系的数据去重方法的设计与实现

3.5 性能评测与分析

3.6 本章小结

4 通过减少数据碎片提高数据去重性能的方法

4.1 数据去重分析

4.2 数据碎片对数据去重性能的影响

4.3 减少数据碎片的方案

4.4 性能评测与分析

4.5 本章小结

5 全文总结

致谢

参考文献

附录1 攻读博士学位期间发表的学术论文

附录2 攻读博士学位期间申请的专利和软件著作权

附录3 攻读博士学位期间参加的主要科研项目

展开▼

摘要

随着社会信息化的发展和数据量的暴增,数据备份系统中所要处理的备份和恢复的数据越来越多,数据去重技术已作为一种数据无损压缩技术广泛应用在数据备份系统中。不过,虽然数据去重技术能大幅度压缩数据量,提高存储空间和网络带宽利用率,但数据去重作为一门新兴的数据压缩技术,目前还面临着诸多问题和挑战。如在云备份服务中,现有的源端去重方法无法大幅度减少数据备份和恢复时间,满足人们对备份服务的需求;另外,现有的数据去重方法由于需要删除多个文件之间共享的重复数据块,会导致备份系统中存储许多数据碎片,影响数据备份和去重性能。
  在云备份系统中,受低带宽广域网络的限制,数据备份速度非常慢。对于大部分用户来说,数据备份速度过慢将直接影响正常的业务运营。针对此问题,本文提出基于文件语义的多层次源端去重方法( Semantic-Aware Multi-Tiered Source De-duplication Framework, SAM),减少数据备份时间。在 SAM提出之前,现有云备份主要采用基于源端的全局数据块级去重和局部数据块级去重方法在客户端对重复数据进行删除,减少广域网络上传输的备份数据量。前者主要在全局范围内删除各用户之间产生的重复数据,所需要的数据去重时间较长;而后者虽然仅删除同一个用户所产生的重复数据,数据去重时间较短,但能获得重复数据删除率较低,需要较长的数据传输时间。经分析,这两种方法各有所长,但都无法大幅度减少数据备份时间,缓解数据备份过程中遇到的数据传输瓶颈。SAM结合这两种方法的优势,提出了将基于源端的全局文件级去重和局部数据块级去重进行结合的方法,同时在全局文件级和局部数据块级的去重过程中挖掘诸多文件语义信息,缩减重复数据的查找范围,加快重复数据的查找过程。经理论分析和试验数据分析,与现有的两种源端去重方法相比,SAM能较好地权衡所获得的重复数据删除率以及所引入的去重时间开销,可以大幅度减少数据备份时间。
  不过,现有的源端去重方法,包括SAM,都仅关注云备份中的数据备份时间,而对数据恢复时间的关注却很少。虽然这些源端去重方法都能好地满足大部分用户的需求,但对可靠性要求很高的企业用来说,数据恢复时间至关重要。当数据受损时,数据恢复时间的长短直接关系到经济利益损失的多少。针对此问题,本文提出基于因果关系的数据去重方法(Causality-based Deduplication Performance Booster, CABdedupe),不仅可以减少数据备份时间,也可以减少数据恢复时间。经观察分析,重复数据不仅存在于数据备份过程中,也存在于数据恢复过程中,且这些重复数据的存在与文件之间的因果关系息息相关。CABDedupe通过监控文件系统调用,捕捉文件之间的这些因果关系信息,不仅可以消除数据备份过程中的重复数据,也可以消除数据恢复过程中的重复数据,同时加速数据备份和恢复过程。另外,CABDedupe是一个辅助备份系统进行数据去重的中间件,CABDedupe的失效只会使部分重复数据无法被删除,降低CABDedupe对数据备份和恢复性能的优化效果,而不会影响备份系统中日常的数据备份和恢复功能。
  无论使用何种数据去重方法,由于需要对多个文件或数据流之间的重复数据块进行删除,数据去重都会使备份系统存储很多数据碎片。并且随着备份系统所存储的备份数据量的增多,这些数据碎片会越来越多,严重影响数据备份和数据去重性能。针对此问题,本文通过建立分析模型和实验统计数据,详细分析了数据碎片给数据冗余局部性以及数据去重性能所带来的负面影响,并提出通过减少数据碎片来提高数据去重性能的方法 De-Frag。De-Frag的核心思想是通过保留小部分重复数据不被删除,减少所产生的数据碎片,维护备份数据流之间的数据冗余局部性;同时通过使用一个阈值来限制未删除的重复数据量,期望以牺牲较少的重复数据删除率来提高数据去重性能。实验数据表明,通过减少数据碎片量,De-Frag能在现有的数据去重方法的基础上提高数据去重吞吐率、去重数据的读性能、以及重复数据删除率等。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号