首页> 中文学位 >云存储系统中数据冗余存储策略的研究
【6h】

云存储系统中数据冗余存储策略的研究

代理获取

目录

声明

第一章 绪论

1.1 研究背景

1.2 研究意义

1.3 研究内容、贡献和论文结构

第二章 Hadoop系统架构解析

2.1 Hadoop概述

2.2 YARN架构分析

2.3 HDFS架构分析

2.4 YARN和HDFS功能交互

2.5 MapReduce概述

2.6 本章小结

第三章 DHS数据冗余管理系统设计

3.1 数据访问倾斜问题

3.2 随机读写问题

3.3 DHS所解决的问题综述

3.4 相关研究分析和对比

3.5 动态冷热数据划分

3.6 动态副本增加机制

3.7 数据可靠存储

3.8 随机读写与连续读写分隔处理

3.9 调度器均衡数据竞争

3.10 DHS优势分析

3.11 本章小结

第四章 DHS算法设计与主要模块

4.1 DHS实现模块

4.2 信息采集模块

4.3 冷热数据区分算法

4.4 动态副本存储模块

4.5 冷数据RAID模块

4.6 异构存储模块

4.7 调度器任务分配算法

4.8 DHS设计综述

4.9 本章小结

第五章 DHS实验测试分析

5.1 DHS测试方案

5.2 DHS仿真实验结构分析

5.3 本章小结

第六章 总结和展望

6.1 研究总结

6.2 HDFS展望

参考文献

致谢

攻读学位期间发表的学术论文

展开▼

摘要

云计算是一种具有高适应性的分布式计算。它的主要目的是将海量数据的计算任务拆分成多个规模较小的子任务,通过深度定制的网络控制,将子任务交付于服务器集群进行实际运算,最终通过网络传输将计算结果返回给用户。云计算在发展中融合了虚拟化、负载均衡、网络存储、软件定义网络等技术,从而能够将用户对海量数据的计算和处理高效交付至大规模数据中心,实现了软硬件资源的高效整合和集中管理。
  云存储是伴随着云计算概念的发展而产生的。它需要支撑起云计算庞大的数据存储总量,并提供高可靠性高可用性的存储服务。Hadoop是一个由Apache基金组支持与维护的开源云计算项目。在众多的云计算框架中,由于Hadoop在不断发展下所展示的高扩展性、高可靠性和高可用性,逐渐成为了一种重要而突出的云计算框架。Hadoop的底层分布式文件系统(HDFS,Hadoop Distributed File System)则因Hadoop取得的成功,成为了云存储研究中的一个显著热点。
  本文针对于HDFS中的冗余数据存储方案,分析了其数据流中存在的两个主要问题:数据倾斜和随机访问。数据倾斜会使得静态数据冗余方案性能下降并造成存储资源浪费。而随机访问的发生则会显著地影响数据冗余方案的性能。在对这两大问题的深入探究后,本文提出了新的数据存储方案动态冗余异构存储系统(DHS,Dynamic Heterogeneous Storage system)。DHS在设计上,一方面结合了两种不同的主流数据冗余技术,另一方面引入了混合存储架构。本文工作的创新性体现在以下三个方面:首先同现有的存储改进方案不同,DHS根据历史访问记录提出了访问负载的概念并通过统计分析进行预测;其次DHS采用了全新的反馈存储调节机制,适应访问需求制定存储方案;最后DHS详尽考量了普通磁盘上的访问流,制定了混合存储以及竞争缓解机制,提升磁盘组整体性能。DHS能够在保证原始HDFS方案数据的高可靠性的前提下,改善其存储的服务性能,在整体上节约存储开销,从而提供高性价比的数据存储方案。本文将在对HDFS的深入剖析的前提下,分析其数据流中存在问题产生的原因和影响,详尽介绍DHS的设计理念、实现方案和技术细节,并最终通过仿真和真实部署两方面的实验,验证DHS的可靠性以及高效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号