首页> 中文学位 >Hadoop平台下文件副本存储改进及小文件合并存取优化的研究
【6h】

Hadoop平台下文件副本存储改进及小文件合并存取优化的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 课题研究背景和意义

1.2 国内外研究现状

1.3 论文的主要研究工作

1.4 论文的结构安排

第2章 HDFS文件副本存储改进方法的研究

2.1 HDFS原有文件多副本存储策略分析

2.2 文件多副本并行存储方案的优化设计

2.3 文件多副本并行存储方案的实现

2.4 本章小结

第3章 HDFS上基于SequenceFile小文件合并方案的改进研究

3.1 Hadoop下小文件合并方案的选择

3.2 基于SequenceFile多个小文件查找分析

3.3 基于MapReduce的多SequenceFile文件的实现

3.4基于B+树的小文件索引的设计与实现

3.5 HDFS原有文件读取过程的分析

3.6 基于B+树的小文件读取方案的优化设计

3.7 基于B+树索引的小文件读取过程的实现

3.8 本章小结

第4章 性能测试与分析

4.1 实验环境配置

4.2 实验结果的分析与比较

4.3 本章小结

第5章 总结与展望

5.1 论文总结工作

5.2 论文展望工作

致谢

参考文献

攻读硕士期间参与的项目

展开▼

摘要

近年来,“大数据”技术已经逐渐成为学术界和工业界关注的热点问题。而Hadoop作为处理大数据的开发平台之一,不仅给我们带来了廉价的处理大数据的能力,同时还实现了代码开源化。其中,HDFS作为Hadoop最底层的分布式文件系统,存储着集群中所有存储节点的数据,它除了为MapReduce提供了高效的读写性能外,还有着高容错性和高吞吐量的特点。但是,HDFS对于这种多副本的存储设计采用了串行流水线式的存储方式,其制约了副本在 HDFS中的存储性能。同时,随着互联网技术的不断发展,海量小文件的数据急剧增多, Hadoop秉承存储海量大文件的设计理念,在海量小文件的处理上严重制约了其存取性能。为此,本文针对上述两个问题展开了深入的研究,主要的工作内容及创新点总结如下:  本文针对 HDFS中副本的串行存储方式所表现出来存储效率低下的问题,并根据相关研究人员提出的并行化存储方法,提出一种新的设计方案。结合该方案的优化设计思想,深入详细地分析了 HDFS下的存储架构,以及相关类和数据块的结构,找到需要改进之处。通过创建与 pipeline管道中所有 DataNode节点的socket连接,实现了文件副本的并行存储。  针对海量小文件严重制约 Hadoop的 I/O性能的问题,本文提出在基于Hadoop下自带的SequenceFile合并方案的基础上,实现基于B+树索引的小文件读取方案,在提高小文件查找效率的同时,降低了小文件的元数据对NameNode节点内存空间的占用率,从而提高小文件的读取效率。在该方案的实现中,本文首先给出了B+树索引结构的设计。其次,针对B+树索引的构建与查找功能做了详细的分析与实现。最后,结合对 HDFS文件读取过程的分析,实现了SequenceFile下基于B+树索引的小文件读取过程。  最后,搭建Hadoop系统集群,通过一系列的仿真实验,验证了本文所提出的两个设计方案在文件的存储速率和小文件的读取速率上是有效的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号