首页> 中文学位 >云存储中集群重复数据删除系统的研究与设计
【6h】

云存储中集群重复数据删除系统的研究与设计

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 主要研究内容

1.4 论文的组织结构

第2章 相关研究

2.1 云存储相关知识

2.1.1 云存储概念

2.1.2 集群存储技术

2.1.3 HDFS分布式文件系统

2.2 重复数据删除技术

2.2.1 基本概念

2.2.2 数据划分技术

2.2.3 指纹计算技术

2.3 集群重复数据删除技术

2.3.1 相关知识

2.3.2 索引查询优化

2.3.3 数据路由策略

2.4 本章小结

第3章 云存储中集群重删系统的设计

3.1 系统概述

3.2 设计思路

3.3 系统架构与工作流程

3.3.1 系统架构

3.3.2 工作流程

3.4 软件模块设计

3.4.1 客户端

3.4.2 元数据服务器

3.4.3 数据服务器

3.5 本章小结

第4章 面向重删的数据路由算法设计

4.1 数据路由概述

4.2 路由粒度选择

4.3 数据相似性分析

4.4 局部相似路由算法

4.4.1 特征指纹选择

4.4.2 有状态路由匹配

4.4.3 算法描述与总结

4.5 本章小结

第5章 基于HDFS的集群重删系统实现

5.1 系统实现概况

5.2 数据组织结构

5.3 系统相关过程

5.3.1 数据去重过程

5.3.2 数据重组过程

5.3.3 热点索引更新

5.4 本章小结

第6章 实验测试与结果分析

6.1 测试指标定义

6.2 数据集与实验环境

6.2.1 实验数据集

6.2.2 实验环境

6.3 单节点内的测试分析

6.3.1 SuperBlock划分测试分析

6.3.2 热点指纹影响测试分析

6.4 云存储中多节点的测试分析

6.4.1 去重率测试分析

6.4.2 系统性能测试分析

6.4.3 负载均衡测试分析

6.4.4 读写带宽测试分析

6.5 本章小结

第7章 总结与展望

7.1 工作总结

7.2 工作展望

参考文献

致谢

攻读硕士期间参加的科研项目

展开▼

摘要

随着大数据时代的到来,数据已呈爆炸式的增长,海量数据的存储已成为数据中心的首要问题,重复数据大量存在于信息处理与存储的各个环节中,如文件系统、邮件附件、web对象以及操作系统与应用软件中。传统的数据保护技术如周期备份、版本控制、快照等更是加速了重复数据的增长,导致网络带宽与存储资源的消耗以及存储成本的增加。为了提高存储资源利用率,降低数据管理成本,重复数据删除技术的提出与应用已经成为目前企业与数据中心的研究热点。
  云存储服务具有高可靠性、高通用性、高扩展性及大容量存储等特点,因此对云存储技术的研究不仅紧跟IT技术发展的趋势,而且具有较高的应用价值。在云存储环境中构建大规模、高性能、分布式重删系统,具有很大的优势与挑战。本文在云存储环境中设计了一套在线的集群重删系统架构,并在数据路由问题、索引查询优化问题等方面进行了相关研究,主要完成工作有:
  (1)基于开源的HDFS分布式文件系统,以集群重复数据删除技术为基础,设计并实现了具有重复数据删除功能的分布式文件系统H-Dedup。根据重复数据删除技术的特征,合理设计系统架构与软件功能模块,使得重复数据删除技术有效融入集群存储架构中。
  (2)设计面向重删的局部相似路由算法,基于数据相似理论,以超块粒度为路由单位,并对超块进行采样,选取少量特征指纹,以有状态路由方式进行路由匹配,减少网络带宽消耗,快速定位存储位置。使得分布式存储系统在保持较高的存储性能以及吞吐率的同时,快速定位存储节点并取得较高的数据去重率。
  (3)为了缓解索引查询过程中磁盘瓶颈问题,设计了基于内存的相似索引表,进行数据局部去重,以避免出现大量的磁盘随机读写现象。根据数据的局部性特点设计了全局LRU缓存,最大程度维护和利用数据的局部性,减少磁盘访问次数;为了弥补单节点内低去重率问题,设计了基于访问频率的容器热点指纹索引,提升单点内的数据去重率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号