首页> 中文期刊> 《中国新通信》 >一种基于相似性的分布式重复数据删除方法

一种基于相似性的分布式重复数据删除方法

         

摘要

在重复数据删除技术对降低存储设备成本等具有重要意义.重复数据删除系统通常会面临数据查询引发的硬盘瓶颈问题,而现有的硬盘瓶颈优化方案在面对海量数据处理请求时又有一定的局限性.针对上述问题,本文提出了一个有效的基于相似性的分布式重复数据删除模型(Similarity-based Distributed Duplication Elimination Model,SD2EM).利用Extreme Binning技术的分布特性,优化Extreme Binning的优先索引表,设计基于Hadoop架构的分布式去重模型,并通过分割相似集、循环去重的方式使基于相似性的去重技术达到更细的粒度.最后,基于大规模真实数据的实验表明,SD2EM模型在数据缩减率、内存占用率、系统吞吐率和运行时间等方面都表现出很好的性能,更适合在海量数据背景下重复数据删除的处理需求.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号