首页> 中文学位 >基于冗余机制的分布式存储系统性能优化研究
【6h】

基于冗余机制的分布式存储系统性能优化研究

代理获取

目录

摘要

第一章 引言

1.1 分布式存储系统中冗余机制的必要性以及额外的开销

1.2 本文研究工作概述

1.3 本文的组织结构

第二章 背景及其相关工作

2.1 分布式存储系统

2.2 副本和编码

2.2.1 副本

2.2.2 编码

2.3 通过副本策略降低Hadoop集群的能耗

2.4 异构网络环境下的再生码

2.5 本章小结

第三章 通过副本策略降低Hadoop集群能耗

3.1 节能的备份策略

3.1.1 HDFS备份策略

3.1.2 节能的备份策略

3.2 节能的调度策略

3.2.1 节能调度策略的设计

3.2.2 问题描述

3.2.3 近似算法

3.2.4 可靠性和可用性

3.3 实验和性能评估

3.3.1 实验环境

3.3.2 节点文件比率

3.3.3 数据本地化

3.3.4 能量消耗

3.3.5 作业执行时间

3.4 本章小结

第四章 通过再生码降低数据修复时间

4.1 系统总设计

4.2 存储框架

4.2.1 存储模块

4.2.2 存储控制模块

4.3 计算框架

4.3.1 计算控制模块

4.3.2 计算模块

4.3.3 监控模块

4.4 客户端框架

4.5 编解码框架

4.5.1 算法设计

4.5.2 伽罗华域

4.5.3 编码模块

4.5.4 解码模块

4.6 性能测试

4.6.1 实验环境和配置

4.6.2 网络环境异构

4.6.3 编码任务等待时间

4.6.4 移植到HDFS

4.7 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

致谢

攻读学位期间发表的学术论文目录

声明

展开▼

摘要

随着互联网技术的高速发展,我们已经步入了大数据时代。在与日俱增的数据规模面前,传统的关系型数据库显得无能无力,而分布式计算和分布式存储技术受到广泛关注。分布式存储是分布式计算的存储部分,是易于扩展的、虚拟化的存储资源池。为了满足大规模存储应用的需求,提供可靠的海量数据存储服务,分布式存储系统使用冗余机制来保障数据的高可用性和可靠性。
  副本和编码是分布式存储系统目前主要的两种冗余机制。副本即对文件进行拷贝,而编码是通过对文件块进行线性或非线性处理生成编码块的冗余技术。由于数据规模异常庞大,采用副本冗余机制导致分布式存储系统需要付出巨大的存储空间开销。虽然编码冗余机制可以降低存储空间开销,但它需要额外的编解码时间对数据进行修复。面对这些高昂而又无法避免的额外开销,我们可以利用不同的冗余机制来优化分布式存储系统其他方面的性能,如通过副本降低分布式系统能耗和利用编码冗余机制减少文件修复时间。
  本文主要研究了分布式存储系统的副本和编码两种冗余机制。针对使用副本作为冗余机制的分布式文件系统HDFS,我们设计了一种节能策略来降低分布式存储系统的能耗。这部分的工作主要包含两部分:节能的文件备份策略(EFR)和节能的作业调度策略(EJS)。为了让EJS达到降低能耗的目的,EFR使用了一种简单又有效的方式去放置文件的文件块。针对使用编码作为冗余机制的网络异构环境下的分布式存储系统,我们提出了一种能够降低文件修复时间的弹性树形结构再生码算法FTR。为了验证FTR算法的可用性和有效性,我们开发了一个实际的基于再生码的分布式文件存储系统RCDFS,并对RCDFS的设计和实现细节进行了详细的描述。通过实验表明,Hadoop使用EJS和EFR结合的策略可以让系统节约50-60%的能量,另一方面,FTR算法能够有效的在RCDFS上运行及其在网络环境异构性明显的情况下,其数据修复时间低于STAR算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号