首页> 中文学位 >针对云存储网关的重复数据删除技术的研究与实现
【6h】

针对云存储网关的重复数据删除技术的研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 课题背景

1.2 云存储网关的应用现状

1.3 重复数据删除技术的应用现状

1.4 研究目的与主要内容

1.5 课题来源

2 系统介绍与关键技术

2.1 系统拓扑结构

2.2 重复数据删除技术

2.3 本章小结

3 重复数据删除系统的设计与实现

3.1 重复数据删除系统总体设计

3.2 索引表的设计与实现

3.3 哈希指纹表的设计与实现

3.4 元数据表的设计与实现

3.5 数据表的设计与实现

3.6 ID映射表的设计与实现

3.7 本章小结

4 系统Cache的设计与优化

4.1 局部性问题分析

4.2 Cache节点的内存空间管理优化

4.3 哈希Cache的设计与优化

4.4 元数据Cache的设计与优化

4.5 数据Cache的设计与优化

4.6 ID映射Cache的设计与优化

4.7 本章小结

5 系统测试与分析

5.1 测试平台介绍

5.2 测试结果与分析

5.3 本章小结

6 总结与展望

6.1 总结

6.2 展望

致谢

参考文献

展开▼

摘要

随着云计算技术的不断发展,云存储以其低廉的价格和海量的存储空间得到越来越多中小企业的青睐。由于现有的云存储服务提供商提供的云存储接口与企业本地设备接口之间不统一,给企业应用云存储服务增加了使用成本。云存储网关的出现,弥补了这一差异。现有的云存储服务大多是按照容量和流量进行计费,而在企业的主存储、备份和归档系统中存在大量的重复数据,造成了云存储资源的浪费。
  根据云存储网关中数据的存储特点,提出了在云存储网关中采用重复数据删除技术的设计和实现方案,将重复数据在云网关内部进行缩减。首先根据数据相似性算法查找相似数据集,缩小数据检索范围,再在相似数据集中进行相同数据匹配。去重后的数据被保存成固定大小的小文件,减少本地与云存储之间的传输延时。对于映射表的存储,设计了基于“内存—磁盘”的两级映射表管理方案,并提出了一种映射表及数据的缓存优化方法。通过采用缓存的主动写回和被动换出机制延缓数据写入磁盘的时间,尽可能地将目标文件相同的数据一次写回,同时根据映射表及数据的局部性特点将相关数据组织在一起。对于数据块的预取,采用了基于命中效果的缓存策略,提高缓存空间的利用率。为了减少内存开销,提出了改进的区间红黑树结构,并对基于区间的查找及切分方法进行了讨论。在系统中,还采用了一些工程优化的方法,进一步提高重复数据删除的性能。
  最后对重复数据删除系统进行了相关测试。首先对所使用的哈希函数进行了测试,测试结果表明,一种公共域非加密哈希函数的计算性能远远优于其他哈希函数。然后对相似性数据划分的去重效果进行了测试,测试结果表明,采用相似性缩减数据匹配范围的方法能够有效地进行重复数据检测,并且与完全去重的去重率相比下降不大。最后对缓存的效果进行了测试,由于缓存的使用,大大减少了访问磁盘的次数,重复数据删除的性能有所提高,达到预期效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号