首页> 中文学位 >大数据下重复数据删除的关键技术研究
【6h】

大数据下重复数据删除的关键技术研究

代理获取

目录

声明

摘要

插图索引

第1章 绪论

1.1 研究背景及意义

1.2 重复数据删除技术的研究现状

1.2.1 文件分块技术的研究

1.2.2 可靠性的研究

1.2.3 吞吐量研究

1.3 本文研究内容

1.4 本文组织结构

第2章 重复数据删除技术的相关研究综述

2.1 前言

2.2 文件分块

2.3 哈希算法

2.3.1 MD5算法

2.3.2 SHA-1算法

2.4 数据块索引结构

2.4.1 B树

2.4.2 LSM树

2.5 性能优化方法

2.6 文件菜单压缩

2.7 本章小结

第3章 基于B树的二级索引方案的设计与分析

3.1 前言

3.2 基于B树的二级索引方案(SIAR)

3.2.1 文件读的过程

3.2.2 SIAR结构

3.2.3 Selector

3.2.4 B树索引表

3.2.5 B树

3.3 复杂度分析

3.4 实验与结果

3.4.1 模拟器

3.4.2 数据集

3.4.3 结果与分析

3.5 本章小结

第4章 重复数据删除系统的设计与实现

4.1 前言

4.2 重复数据删除系统系统的设计

4.2.1 系统设计的目标

4.2.2 系统的总体架构

4.3 重复数据删除系统的实现

4.3.1 客户端

4.3.2 服务器端

4.4 本章小结

结论

参考文献

致谢

攻读硕士期间发表的论文目录

攻读学位期间参加的科研项目

展开▼

摘要

近年来,随着与数据相关的信息技术的高速发展,全球数据量呈现爆炸式增长,大数据给我们带来了很多方便,但也存在大量的重复数据存储,因此有效的处理重复数据达到节省存储空间的目的,在大数据环境下提出了新的挑战。目前提出的重复数据删除技术,能很大程度地节省系统的存储空间,但是系统的性能、可靠性和扩展性也因此受到影响。本文对提升重复数据删除系统的性能进行研究,提出一种基于指纹分类的索引方案,并在此基础上设计和实现了一种新的重复数据删除系统,主要工作和创新点如下:
  (1)为了减少磁盘访问次数,提高重复数据删除的性能,本文提出一种基于指纹分类的B树二级索引方案SIAR(a Secondary Index Assisted Read scheme)。首先根据指纹的值域将其进行分类,对于每类指纹建立一颗B树,相比于包含所有指纹的B树,每一类指纹对应的B树高度更小,由此可以减少磁盘随机访问的次数,提升系统的读性能。此外,对SIAR方法中的性能提升和内存开销的平衡关系进行了理论分析,依据存储系统的数据量大小,设置相应的参数,达到优化系统的读性能的目的。分析和实验验证了SIAR方法的有效性和高效性。
  (2)设计并实现了一种新的重复数据删除系统,系统由客户端和服务器端两部分构成,客户端采用文件类型分类的方式对不同文件进行分类处理,不同类型的文件根据其内容特点采用与之适应的文件分块算法,这样可以保证重复删除率的情况下减少计算开销。客户端首先发送数据块指纹到服务端检测,确保是非重复数据块再传输数据到服务端,减少重复数据块的网络传输开销。服务器端采用布鲁姆过滤器初步判断数据块是否存在,然后运用SIAR索引确认数据块是否重复,最后采用TFS(Taobao File System)系统对数据进行存储,利用TFS的平滑扩容和容错机制,保证了系统的可靠性和可扩展性。

著录项

  • 作者

    龙帅;

  • 作者单位

    湖南大学;

  • 授予单位 湖南大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 林亚平;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.131;
  • 关键词

    大数据; 重复数据; 删除系统; 指纹分类;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号