高性能重复数据检测与删除技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

信息技术的不断突破和发展推动全球进入大数据时代。近年来,数据去重作为提高硬盘存储系统空间效率和降低数据维护成本的关键技术成为存储学术界和工业界的研究热点。数据去重是在数据集或数据流中发现和消除重复内容以提高数据的存储和/或传输效率的过程。一般来说,发现和消除重复数据的粒度可以是文件、字节串、定长分块或变长分块。研究如何高效地界定、检测和删除重复数据对构建高性能去重存储系统十分重要。
　　可变长度分块技术能够有效侦测到相似文件之间的重复内容,文件级去重技术则能够在更大粒度上发现和消除重复内容,从而降低块级去重的计算和查找复杂度。针对当前同时在文件级和变长块级消除冗余的数据去重方法,提出基于多核并行的流水化的两级指纹计算方法PDF。通过分解指纹计算的主要任务,PDF使用多个数据缓存消除计算任务间的数据依赖和缓存竞争,并采用流水调度方式将各计算任务部署到不同的处理器核,从而实现在单次内容扫描中同时生成数据的文件级和块级指纹。实验结果表明,PDF可达到比传统多线程方法更高的指纹计算性能。
　　基于滑动窗口模型的重复元素检测是统计和分析流式数据的重要技术手段,缓存滑动窗口内动态更新的元素序列需要消耗大量内存且具有较高的重复元素查询复杂度。现有支持重复元素检测的快速索引方法存在内存效率低和不可扩展等问题,因此提出可在滑动窗口模型下对流式数据进行重复元素快速检测的分离计数型布隆过滤器阵列(Detached Counting Bloom filter Array,DCBA)。DCBA由一组同构的分离计数型布隆过滤器(Detached Counting Bloom Filter,DCBF)构成,其中的布隆过滤器用于描述滑动窗口内元素的成员资格,而计数器组(计时器组)用于记录元素的时间戳。DCBA以循环先入先出队列的方式工作,位于队尾的DCBF处于填充状态以容纳新元素,位于队首的DCBF处于衰减状态以淘汰旧元素,中间满载的DCBF相对稳定且其计时器组可被转储到硬盘以节约内存资源。DCBA的大部分DCBF组件都具有稳定性,因此其可被高效同步到多个节点用于共享信息或增强可靠性,也可进一步将其扩展部署到多个节点以在分析大数据流时描述超大容量滑动窗口。数学分析和实验数据表明,DCBA的内存空间效率和可扩展性明显优于已有解决方案。
　　存储系统中的数据集通常具有较强的可扩展性,采用固定容量的快速索引方法描述可扩展数据集合有两个明显缺点。首先,若集合元素的实际数量超过索引的设计容量,则需要较大的时间和空间开销重建整个索引;其次,若集合基数需要很长的时间才能增长到索引的设计容量,则索引机制需要长期占据不必要的内存资源,降低了内存空间利用率。因此,提出动态布隆过滤器阵列(Dynamic Bloom filter Array,DBA)用于描述存储系统中的可扩展数据集并支持重复元素快速检测。DBA以布隆过滤器为基本组件,具有较高的内存空间效率,其可根据数据集合规模的增长按需创建新的布隆过滤器以扩展索引容量。DBA采用优化的内存数据结构以增强索引单元的访问并行度和提高查询效率。通过局部调整布隆过滤器成员的设计容量或误判率阈值,DBA可有效控制整体查询准确度。如果将集合划分为不相交的子集并分别采用不同的布隆过滤器作为索引,则DBA可根据查询结果直接定位疑似重复元素所对应的子集。针对去重存储系统批量回收空间的特点,DBA采用懒惰更新策略支持元素删除。
　　构建可扩展的高性能去重存储系统面临两大挑战。首先,大数据集的全量索引可能溢出可用内存空间,从而导致查找重复数据对象时的硬盘访问瓶颈。其次,去重存储系统扩展到多个节点时必须有效消除节点间的重复内容,以免形成孤岛效应。已有去重方法在部分或同时解决上述问题时无法完全消除存储系统中的重复数据,因此提出面向备份存储系统的可扩展的高性能精确去重方法 MAD2以同时在文件级和块级检测和消除重复数据。MAD2采用四种技术提高去重性能和实现可扩展性。首先,MAD2创建哈希桶矩阵(HBM)作为存储数据指纹的全量索引,HBM的各行可用于保存指纹序列的局部性。其次,MAD2采用动态布隆过滤器阵列(DBA)作为常驻内存的快速索引,用以加速重复指纹的检测过程。再次,MAD2设计双缓存机制捕捉和挖掘指纹序列的局部性,并提高HBM的访问效率。最后,MAD2采用基于分布式哈希表(DHT)的数据路由策略将备份数据划分为不相交的子集并分配到多个存储节点,在实现可扩展性的同时保持负载平衡。

著录项

作者
魏建生;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机系统结构
授予学位博士
导师姓名冯丹,周可;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类数据处理、数据处理系统;
关键词
数据处理; 滑动窗口模型; 索引结构; 负载平衡;

相似文献

中文文献
外文文献
专利

1. 高性能重复数据删除 [J] . . 网管员世界 . 2011,第018期
2. 云数据中心下重复数据删除技术研究 [J] . 杜华 ,刘华春 . 计算机技术与发展 . 2019,第002期
3. 基于Hadoop的重复数据删除技术研究 [J] . 郭强 . 现代信息科技 . 2019,第003期
4. 基于Hadoop 的重复数据删除技术研究 [J] . 郭强1 . 现代信息科技 . 2019,第003期
5. 基于时序参数的重复数据删除索引优化技术研究 [J] . 周斌 ,李波 . 中南民族大学学报（自然科学版） . 2017,第002期
6. 重复数据删除预测技术研究 [C] . Li Fang ,李芳 ,Xiao Nong . 2014第20届全国信息存储技术学术会议 . 2014
7. 面向数据中心的高性能重复数据删除机制研究 [A] . 张逸 . 2019

高性能重复数据检测与删除技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅