首页> 中文学位 >基于最终一致性的HDFS读写技术的研究与优化
【6h】

基于最终一致性的HDFS读写技术的研究与优化

代理获取

目录

声明

1绪 论

1.1 研究背景

1.2 研究目的和意义

1.3 研究目标和内容

1.4 论文结构

2相关技术与研究现状

2.1 HDFS

2.2 HDFS 2.0

2.3 HBase

2.4 Dynamo

2.5 Ceph

2.6 HDFS的研究现状

2.7 研究动机

2.8 本章小结

3基于最终一致性的HDFS读写技术的设计

3.1 系统概述

3.2 写操作策略

3.3 读操作策略

3.4 基于延迟的复制选择策略

3.5 理论验证

3.6 异常处理

3.7 基于文件大小的自适应读策略

3.8 本章小结

4基于最终一致性的HDFS读写技术的实现

4.1 高可用数据节点

4.2 查询与访问

4.3 访问异常处理

4.4 基于文件大小的自适应读策略

4.5 本章小结

5实验验证与分析

5.1 实验环境

5.2 写操作

5.3 读操作

5.4 基于文件大小的自适应读策略

5.5 本章小结

6总结与展望

6.1 本文工作小结

6.2 展望

参考文献

致谢

攻读学位期间发表的学术论文

展开▼

摘要

随着信息技术的快速发展,云计算、大数据等热门行业崛起,传统的单机作业不再能满足用户日益增长的需求。越来越多的个人以及企业都将平台重心从单机转移至分布式平台。Hadoop以其高可靠、高扩展、高性能、高容错、低成本的特性成为当下炙手可热的分布式系统基础架构,被越来越多的用户及开发者接受,广泛运用于不同的生产环境。HDFS作为Hadoop的底层存储实现不仅高效地服务于Hadoop,还被用于其他分布式系统基础架构例如Spark等。
  HDFS全名为Hadoop Distributed File System,是Hadoop项目的一个子项目,它被设计为运行在通用硬件上的分布式文件系统。它与现有的分布式文件系统有很多相似之处,同样的,不同之处也十分明显。HDFS具有高容错性,可以被广泛运用于廉价的,淘汰的硬件。HDFS可以提供对应用高吞吐的访问,尤其适用于拥有大数据集的应用。然而随着HDFS被用于更多的生产环境,新的需求被逐渐提出,希望HDFS支持低延迟高性能的特性,以便用户可以尽快对写入HDFS的文件进行读取与分析。
  为了实现低延迟高性能的分布式文件系统,本文首先研究了 HDFS的现有读写方法,结合国内外对读写技术优化方案的研究现状分析了各自的优缺点,并提出了可以有用方案。此方案根据HDFS在写入数据时数据节点必须依次写入的特性,结合最终一致性理论,实现了分布式文件系统低延迟高性能的特性。该方案首先打破了HDFS在写入操作阶段强一致性的要求,使用最终一致性理论,使得用户可以在文件系统尚未完全写入数据时便能够进行访问和读取数据。然后,在改进的写操作策略下,采用全新的读策略,实现对数据的访问,从而减少延迟,提高系统的访问效率。并且对新读写技术可能引入的新的异常进行分析和研究。最后通过实验结果表明,所提出的基于最终一致性的HDFS读写技术在我们的实验环境中,可以大大减少系统延迟,提高了系统性能高达163%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号