首页> 中文学位 >基于HDFS的海量小文件读写策略研究
【6h】

基于HDFS的海量小文件读写策略研究

代理获取

目录

声明

摘要

符号说明

第一章 绪论

1.1 论文选题背景

1.2 国内外研究现状

1.2.1 分布式文件系统现状

1.2.2 HDFS研究现状

1.3 研究目标及意义

1.3.1 研究目标

1.3.2 研究意义

1.4 论文内容及架构

1.5 本章小结

第二章 系统相关技术

2.1 Hadoop相关技术

2.1.1 Hadoop的系统组成

2.1.2 HDFS文件系统

2.1.3 HDFS的缺陷

2.2 Redis相关技术

2.2.1 Redis常用的数据结构

2.2.2 Redis常用功能

2.3 本章小结

第三章 海量小文件读写改进方案RCHDFS设计

3.1 现有解决方案

3.1.1 HAR方案

3.1.2 SequenceFile方案

3.1.3 HBase方案

3.2 改进的HDFS元数据存储方案——RCHDFS

3.2.1 NameNode元致据内存消耗分析

3.2.2 访问效率分析

3.2.3 关于文件的定义

3.2.4 基于Redis集群的HDFS元数据管理系统——RCHDFS

3.3 改进的HDFS低延时数据写入方案

3.3.1 HDFS数据写时间消耗分析

3.3.2 量优DataNode节点选择方案

3.4 改进的HDFS低延时数据读取方案

3.4.1 一种绕过NameNode直接下载文件的方案

3.4.2 进一步优化——混合缓存

3.5 方案中文件的特有操作

3.6 本章小结

第四章 RCHDFS方案的实现与系统测试

4.1 云平台介绍

4.2 分布式系统搭建

4.2.1 测试环境前期准备

4.2.2 测试环境搭建

4.3 方案中用到的数据结构、修改类与自定义类

4.4 方案测试与比较

4.5 本章小结

第五章 总结和展望

5.1 总结

5.2 展望

参考文献

致谢

申请的专利和参加的项目

展开▼

摘要

当前网络信息技术与云计算技术迅猛发展,互联网内容由网站管理人员主导逐渐过渡为用户主导,这种变化使得人们可以随时随地通过互联网服务获取或者生成海量的数据,如何有效地管理这些个人或公共数据已成为当务之急。传统的存储架构在当前互联网数据存储场景中表现较差,且其扩展性差、数据安全性低、维护与管理成本高、灾备能力差等缺陷日益明显。将个人数据集中存储至云服务中统一管理的分布式云存储系统受到IT界的广泛关注,用户无需在本地持有大量的存储空间,只需要通过智能设备就能够便捷地获取到云端数据。这种分布式的云存取结构可以很好地解决上述问题,并且满足大规模用户并发访问的需求。
  Hadoop是一个可部署在廉价设备上的分布式开源平台,其核心之一的HDFS作为一种新型的云存储平台,能够很好地解决爆炸性数据的存储与管理难题。本文主要针对海量小文件读写这一场景,对分布式文件系统HDFS进行了详细分析,并关于HDFS存在的小文件问题、节点选择问题和读取缓存问题,提出了基于Redis集群的HDFS改进方案RCHDFS。
  首先,从基本系统组成与工作原理方面对GFS、MooseFS、HDFS等典型的分布式存储系统进行研究,分析HDFS系统的主要组件与依赖关系,深入研究了NameNode、DataNode、DFSClient的工作原理及对应源码实现。
  然后,通过对大量中外文献的分析与相关技术的研究,针对HDFS的固有问题,分析了已有的解决方案,随后提出了改进方案,分为3个部分。一是提出了在DataNode节点中部署Redis集群服务的方法,使得Redis服务可以承担大部分NameNode的管理任务,集群的内存使用可以均匀地分布在不同的DataNode节点上,缓解NameNode的内存消耗和NameNode并发压力;二是提出了基于节点处理能力和数据块在节点中分布均衡性的最优读写节点选择方法,优化了HDFS机架感知策略,既保证了数据块的均衡,又降低了文件读写时延;三是提出了基于混合缓存的中小文件读取方法,在Redis中缓存热点小文件,在Client端缓存中等文件元信息,进一步提升了海量文件的访问速度。
  最后,针对提出的RCHDFS与HDFS方案进行了测试对比。测试结果表明,本文提出的方案可以明显地降低海量小文件元数据信息的内存消耗,在并发性大量文件读写操作时可以有效地降低时间消耗,并且保证了所有块和文件元信息在节点中分布均衡。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号