基于存储系统的重复数据删除技术的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

爆炸式增长的数字信息给人们的日常生活乃至企业的业务运营都带来了巨大的挑战，存储系统中的冗余数据信息变得越来越多，极大地增加了存储备份的开销，降低了存储系统的性能。研究如何消除存储系统中的冗余数据，降低存储开销问题变得尤为重要。近年来，重复数据删除技术（简称去重技术）被广泛应用于数据存储系统中，并成为计算机应用领域所研究的一个热点。但是现有的针对存储系统的重复数据删除技术的研究缺乏对相似性数据检测精度问题以及减少存储设备访问开销问题的深入研究，导致系统性能不高，达不到高速且高效的重复数据删除效果。为了解决上述问题，课题从存储系统中相似性数据检测的精确度以及优化存储系统访问开销等方面进行分析研究，以找到更加高效的相似数据检测技术以及开销更小的存储系统访问的解决方法。
　　为了在大规模文档去重中提高相似数据检测的精度，课题对基于 Simhash算法的大规模文档去重技术进行深入地研究，在原有算法的基础上对Simhash指纹值的计算过程做出改进，引入ICTCLAS分词技术生成更加精确且标有词性的分词，将TF-IDF技术作为计算权重的主要方法来抑制某一文档内无意义高频词出现的负面影响，同时将特征值的词性与词长两大影响因素考虑其中，然后对产生的指纹值进行汉明距离的比较，从而更加精确地判定出待比较者是否为相似数据。
　　为了缓解存储系统中因为重复数据索引而引起的存储设备访问过于频繁的问题，课题对重复数据删除技术进行了深入的研究，并针对目前重复数据删除技术中Bloom Filter的运用以及存在的存储设备访问性能问题进行分析和研究，提出一种基于Bloom Filter的高效重复数据删除优化模式。针对单一Bloom Filter固有的假阳性的缺陷，课题增加辅助Bloom Filter，从而减小误判率，达到减少存储设备访问次数的目的；针对因系统软件错误引起的Bloom Filter假阴性缺陷，课题引入单校验位的错误校验机制，在不增加过多内存存储开销的同时可以避免假阴性发生所带来的问题。
　　最后，分别针对课题改进的Simhash算法和Bloom Filter算法的算法性能进行实验分析。测试结果表明课题提出的改进Simhash算法总体性能优于Shingle算法和原Simhash算法，能够提高产生指纹值的精确度；优化的Bloom Filter算法通过引入一种判断机制配合辅助Bloom Filter和单校验位机制，能够达到误判率降低、存储设备访问开销减小的高性能优化效果。

著录项

作者
陈琳;
展开▼
作者单位

南京邮电大学;

展开▼
授予单位南京邮电大学;
学科计算机软件与理论
授予学位硕士
导师姓名陈春玲;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
存储系统; 重复数据删除技术; 相似性检测;

相似文献

中文文献
外文文献
专利

1. 基于重复数据删除技术的存储系统分析 [J] . 朱江 ,冀鸣 ,杨志成 . 信息系统工程 . 2017,第004期
2. 一种基于重复数据删除技术的云中云存储系统 [J] . 毛波 ,叶阁焰 ,蓝琰佳 . 计算机研究与发展 . 2015,第006期
3. 存储系统重复数据删除技术研究综述 [J] . 谢平 . 计算机科学 . 2014,第001期
4. 基于分数阶Fourier变换的云存储系统重复数据删除算法 [J] . 徐奕奕 ,唐培和 . 计算机科学 . 2015,第007期
5. 重复数据删除技术分析及其对存储系统性能的影响 [J] . 拜路 . 电脑编程技巧与维护 . 2012,第006期
6. 虚拟机映像存储系统中面向文件级重复数据删除的稀疏索引技术 [C] . Shang YingDan ,尚颖丹 ,Li Huiba . 第十九届全国网络与数据通信学术会议 . 2012
7. 信息存储系统中重复数据删除技术的研究 [A] . 周正达 . 2012

基于存储系统的重复数据删除技术的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅