首页> 中文学位 >重复数据并行化研究
【6h】

重复数据并行化研究

代理获取

目录

文摘

英文文摘

第一章 绪论

第一节 课题研究背景

第二节 研究内容

第三节 研究意义

第四节 本文工作与论文结构

第二章 相关技术

第一节 重复数据删除技术

2.1.1 重复数据删除概念和意义

2.1.2 重复数据删除技术分类

2.1.3 重复数据删除技术研究现状

第二节 流水线技术

2.2.1 流水线技术简介

2.2.2 流水线在计算机的应用

第三节 协处理器技术

2.3.1 PadLock协处理器

2.3.2 GPU协处理器和CUDA编程简介

第三章 重复数据删除系统结构设计

第一节 生产中心节点

3.1.1 生产中心节点功能

3.1.2 生产中心系统设计

第二节 计算中心节点

3.2.1 计算中心节点功能

3.2.2 计算中心系统设计

第三节 存储中心节点

3.3.1 存储中心节点的功能与实现原理

第四章 重复数据删除自适应流水线设计

第一节 重复数据删除系统并行体系结构设计

4.1.1 重复数据删除过程多线程处理

4.1.2 重复数据删除过程流水线设计

第二节 平衡流水线和超标量

4.2.1 使用协处理器平衡流水线过程

4.2.2 双流水线模型

第三节 自适应流水线的设计

4.3.1 压缩在前的流水线设计

4.3.2 压缩滞后的流水线设计

4.3.3 调整流水线顺序以平衡流水线

4.3.4 自适应流水线的设计

第五章 实验及结果分析

第一节 实验环境

5.1.1 实验平台

5.1.2 测试数据集

第二节 实验结果及分析

5.2.1 重复数据删除各过程的时间占用情况

5.2.2 摘要计算吞吐率

5.2.3 压缩计算吞吐率

5.2.4 数据压缩比

5.2.5 数据集的重复率

5.2.6 两种流水线的性能对比

第六章 总结与展望

第一节 总结

第二节 展望

参考文献

致谢

个人简介

展开▼

摘要

当前,数据量的爆炸式增长使得对于存储的需求越来越大,而同时被存储的数据内部存在大量的冗余(例如数据备份系统生成的数据),造成系统存储空间的浪费。重复数据删除技术的出现缓解了冗余数据问题,大大提高了存储利用率,因而受到学术界和工业界的广泛关注。目前最为火热的虚拟化领域和云计算领域,对消除数据冗余同样有着迫切的需求,因此重复数据删除技术已成为目前存储领域的一个研究热点,其中对于重复数据删除系统吞吐率的研究最受关注。以往的研究都是通过减少磁盘访问来提高系统吞吐率的,本文研究发现当磁盘访问这一系统系统性能瓶颈被消除之后,系统的性能还是会受到系统中计算密集型任务的影响。如何降低计算任务对重复数据删除系统的影响是本文的研究重点。
   本文采取了一系列技术手段来对重复数据删除系统进行并行优化。首先,系统引入了流水线技术来提高重复数据删除过程中计算任务的并发度,提高系统的整体性能。本文给出了详细的重复数据删除流水线设计方案和流水线平衡性解决方案。其次,本文将协处理器引入重复数据删除系统来加速计算密集型任务,降低CPU的计算负载。本文引入PadLock加速重复数据删除过程中的摘要计算和数据加密工作,引入GPU来降低Bloom filter计算和数据压缩计算的执行时间。上述两个措施提高了重复数据删除系统的并发度,降低了计算任务对系统性能的影响,很好地提升了系统的性能。
   本文设计了调整流水线执行顺序来提高重复数据删除系统数据集适应性的解决方案。通过调整流水线的执行顺序使得系统在不同的数据集上都能发挥最好的性能,得到最佳的吞吐率。本文给出了一个数学模型来选择最优的流水线顺序。
   实验表明经过并行优化的重复数据删除系统在吞吐率上确实有很大的提升,数学模型也确实达到了预期的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号