首页> 中文学位 >基于存储系统的重复数据删除技术的研究
【6h】

基于存储系统的重复数据删除技术的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

专用术语注释表

第一章 绪论

1.1课题背景与意义

1.2国内外研究现状

1.3课题的研究内容及结果

1.4论文的组织结构

第二章 相关技术研究

2.1重复数据删除技术

2.2数据指纹算法

2.3基于Simhash算法去重的相关技术

2.4基于Bloom Filter算法去重的相关技术

2.5本章小结

第三章 存储系统中Simhash算法的改进

3.1算法设计背景

3.2基于Simhash算法的相似数据检测改进研究

3.3本章小结

第四章 存储系统中Bloom Filter的改进

4.1算法设计背景

4.2基于Bloom Filter在重复数据删除技术中应用改进研究

4.3本章小结

第五章 系统测试

5.1基于Simhash算法相似性检测的测试

5.2针对Bloom Filter在重复数据删除中应用的测试

5.3本章小结

第六章 总结与展望

6.1研究工作总结

6.2研究工作展望

参考文献

附录1 攻读硕士学位期间撰写的论文

致谢

展开▼

摘要

爆炸式增长的数字信息给人们的日常生活乃至企业的业务运营都带来了巨大的挑战,存储系统中的冗余数据信息变得越来越多,极大地增加了存储备份的开销,降低了存储系统的性能。研究如何消除存储系统中的冗余数据,降低存储开销问题变得尤为重要。近年来,重复数据删除技术(简称去重技术)被广泛应用于数据存储系统中,并成为计算机应用领域所研究的一个热点。但是现有的针对存储系统的重复数据删除技术的研究缺乏对相似性数据检测精度问题以及减少存储设备访问开销问题的深入研究,导致系统性能不高,达不到高速且高效的重复数据删除效果。为了解决上述问题,课题从存储系统中相似性数据检测的精确度以及优化存储系统访问开销等方面进行分析研究,以找到更加高效的相似数据检测技术以及开销更小的存储系统访问的解决方法。
  为了在大规模文档去重中提高相似数据检测的精度,课题对基于 Simhash算法的大规模文档去重技术进行深入地研究,在原有算法的基础上对Simhash指纹值的计算过程做出改进,引入ICTCLAS分词技术生成更加精确且标有词性的分词,将TF-IDF技术作为计算权重的主要方法来抑制某一文档内无意义高频词出现的负面影响,同时将特征值的词性与词长两大影响因素考虑其中,然后对产生的指纹值进行汉明距离的比较,从而更加精确地判定出待比较者是否为相似数据。
  为了缓解存储系统中因为重复数据索引而引起的存储设备访问过于频繁的问题,课题对重复数据删除技术进行了深入的研究,并针对目前重复数据删除技术中Bloom Filter的运用以及存在的存储设备访问性能问题进行分析和研究,提出一种基于Bloom Filter的高效重复数据删除优化模式。针对单一Bloom Filter固有的假阳性的缺陷,课题增加辅助Bloom Filter,从而减小误判率,达到减少存储设备访问次数的目的;针对因系统软件错误引起的Bloom Filter假阴性缺陷,课题引入单校验位的错误校验机制,在不增加过多内存存储开销的同时可以避免假阴性发生所带来的问题。
  最后,分别针对课题改进的Simhash算法和Bloom Filter算法的算法性能进行实验分析。测试结果表明课题提出的改进Simhash算法总体性能优于Shingle算法和原Simhash算法,能够提高产生指纹值的精确度;优化的Bloom Filter算法通过引入一种判断机制配合辅助Bloom Filter和单校验位机制,能够达到误判率降低、存储设备访问开销减小的高性能优化效果。

著录项

  • 作者

    陈琳;

  • 作者单位

    南京邮电大学;

  • 授予单位 南京邮电大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 陈春玲;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    存储系统; 重复数据删除技术; 相似性检测;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号