数据备份系统中数据去重技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着社会信息化的发展和数据量的暴增,数据备份系统中所要处理的备份和恢复的数据越来越多,数据去重技术已作为一种数据无损压缩技术广泛应用在数据备份系统中。不过,虽然数据去重技术能大幅度压缩数据量,提高存储空间和网络带宽利用率,但数据去重作为一门新兴的数据压缩技术,目前还面临着诸多问题和挑战。如在云备份服务中,现有的源端去重方法无法大幅度减少数据备份和恢复时间,满足人们对备份服务的需求;另外,现有的数据去重方法由于需要删除多个文件之间共享的重复数据块,会导致备份系统中存储许多数据碎片,影响数据备份和去重性能。
　　在云备份系统中,受低带宽广域网络的限制,数据备份速度非常慢。对于大部分用户来说,数据备份速度过慢将直接影响正常的业务运营。针对此问题,本文提出基于文件语义的多层次源端去重方法( Semantic-Aware Multi-Tiered Source De-duplication Framework, SAM),减少数据备份时间。在 SAM提出之前,现有云备份主要采用基于源端的全局数据块级去重和局部数据块级去重方法在客户端对重复数据进行删除,减少广域网络上传输的备份数据量。前者主要在全局范围内删除各用户之间产生的重复数据,所需要的数据去重时间较长;而后者虽然仅删除同一个用户所产生的重复数据,数据去重时间较短,但能获得重复数据删除率较低,需要较长的数据传输时间。经分析,这两种方法各有所长,但都无法大幅度减少数据备份时间,缓解数据备份过程中遇到的数据传输瓶颈。SAM结合这两种方法的优势,提出了将基于源端的全局文件级去重和局部数据块级去重进行结合的方法,同时在全局文件级和局部数据块级的去重过程中挖掘诸多文件语义信息,缩减重复数据的查找范围,加快重复数据的查找过程。经理论分析和试验数据分析,与现有的两种源端去重方法相比,SAM能较好地权衡所获得的重复数据删除率以及所引入的去重时间开销,可以大幅度减少数据备份时间。
　　不过,现有的源端去重方法,包括SAM,都仅关注云备份中的数据备份时间,而对数据恢复时间的关注却很少。虽然这些源端去重方法都能好地满足大部分用户的需求,但对可靠性要求很高的企业用来说,数据恢复时间至关重要。当数据受损时,数据恢复时间的长短直接关系到经济利益损失的多少。针对此问题,本文提出基于因果关系的数据去重方法(Causality-based Deduplication Performance Booster, CABdedupe),不仅可以减少数据备份时间,也可以减少数据恢复时间。经观察分析,重复数据不仅存在于数据备份过程中,也存在于数据恢复过程中,且这些重复数据的存在与文件之间的因果关系息息相关。CABDedupe通过监控文件系统调用,捕捉文件之间的这些因果关系信息,不仅可以消除数据备份过程中的重复数据,也可以消除数据恢复过程中的重复数据,同时加速数据备份和恢复过程。另外,CABDedupe是一个辅助备份系统进行数据去重的中间件,CABDedupe的失效只会使部分重复数据无法被删除,降低CABDedupe对数据备份和恢复性能的优化效果,而不会影响备份系统中日常的数据备份和恢复功能。
　　无论使用何种数据去重方法,由于需要对多个文件或数据流之间的重复数据块进行删除,数据去重都会使备份系统存储很多数据碎片。并且随着备份系统所存储的备份数据量的增多,这些数据碎片会越来越多,严重影响数据备份和数据去重性能。针对此问题,本文通过建立分析模型和实验统计数据,详细分析了数据碎片给数据冗余局部性以及数据去重性能所带来的负面影响,并提出通过减少数据碎片来提高数据去重性能的方法 De-Frag。De-Frag的核心思想是通过保留小部分重复数据不被删除,减少所产生的数据碎片,维护备份数据流之间的数据冗余局部性;同时通过使用一个阈值来限制未删除的重复数据量,期望以牺牲较少的重复数据删除率来提高数据去重性能。实验数据表明,通过减少数据碎片量,De-Frag能在现有的数据去重方法的基础上提高数据去重吞吐率、去重数据的读性能、以及重复数据删除率等。

著录项

作者
谭玉娟;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机系统结构
授予学位博士
导师姓名冯丹;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类数据处理、数据处理系统;
关键词
数据处理; 云备份系统; 源端去重法; 模型模拟;

相似文献

中文文献
外文文献
专利

1. 数据备份系统中数据去重技术分析 [J] . 郝朝鹏 . 军民两用技术与产品 . 2017,第010期
2. 浅谈数据备份系统中的数据去重技术 [J] . 朱琦 . 消费电子 . 2012,第017期
3. 浅谈数据备份系统中的数据去重技术 [J] . 朱琦 . 消费电子商讯 . 2012,第011期
4. 海量关系数据去重处理技术研究与优化 [J] . 黄奇鹏 ,卢山 . 计算机与数字工程 . 2018,第010期
5. 基于文件固定分块的数据去重技术研究 [J] . 陆国浩 . 沙洲职业工学院学报 . 2017,第001期
6. 远程数据备份系统中的日志延迟保护机制研究 [C] . 湛文韬 ,李战怀 ,王彦龙 . 第二十四届中国数据库学术会议 . 2007
7. 数据备份系统中冗余数据的高性能消除技术研究 [A] . 夏文 . 2014

数据备份系统中数据去重技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅