首页> 中文学位 >Hadoop平台下海量小文件处理技术的应用研究
【6h】

Hadoop平台下海量小文件处理技术的应用研究

代理获取

目录

声明

第1章 绪论

1.1课题背景及研究意义

1.2研究现状及存在的问题

1.3研究的主要内容

1.4论文结构

第2章 相关理论和技术

2.1分布式文件系统

2.2分布式集群 Hadoop

2.3分布式文件系统HDFS

2.4 MapReduce编程框架

2.5本章小结

第3章 小文件系统分析与设计

3.1 HDFS 小文件处理问题分析

3.1.1 HDFS的小文件问题

3.1.2 HDFS提供的小文件问题处理方案

3.2小文件优化存取设计

3.2.1总体设计思想

3.2.2基于相似度的小文件合并

3.2.3缓存层设计

3.2.4小文件索引的结构设计

3.2.5映射和预取策略

3.3本章小结

第4章 小文件系统实现

4.1系统实现的模块结构

4.2小文件预处理

4.3小文件合并器

4.4小文件索引器

4.5本章小结

第5章 测试与分析

5.1测试平台搭建

5.2性能指标

5.3测试结果与分析

5.3.1 数据集

5.3.2 系统存储效率对比与分析

5.3.3 文件访问时间对比与分析

5.3.4 文件访问性能对比与分析

5.4本章小结

第6章 总结与展望

6.1总结

6.2展望

参考文献

致谢

展开▼

摘要

本文在分析Hadoop平台上HDFS基本特性的基础上,讨论了其在处理小文件方面的主要问题,同时给出了本文提出的基于HDFS的小文件存取优化方案的设计思想和主要特点。本文的工作和对小文件存取的优化主要体现在如下几个方面。 1)通过增加小文件预处理环节,分析小文件的关联性,按小文件的特征对小文件进行分类及是否需要进行小文件合并的基本依据。在此基础上按不同的特征通过关联,生成关联小文件。为了提高小文件的访问效率,在处理同类别的小文件时,可以把与之对应的小文件关联映射数据预取到客户端缓存中,避免处理小文件访问过程中,对HDFS的频繁的访问; 2)为了减少Hadoop平台上名称节点中的元数据量,在HDFS中增加对小文件进行合并处理的模块。在对合并后的小文件进行存取时,应用进程只需向HDFS发起一次文件处理请求,即可以对合并文件的各关联小文件进行响应处理所需的访问处理,提高了HDFS上小文件的存取效率; 3)在合并小文件的同时,建立相应的小文件索引,通过其中记录的小文件在HDFS中的位置信息,实现对小文件的快速随机访问; 4)采取映射、元数据缓存、小文件关联、数据预取等策略,进一步提高HDFS上小文件的访问效率。合并小文件时,将每一个小文件的基本信息,包括其在合并后大文件中的偏移量值,保存到与合并文件同时创建的一个哈希映像表中,在访问小文件时,就可以快速找到小文件在合并文件中的位置。 最后,通过实验对小文件的存储优化方案进行测试,分别对比文件的写入时间、小文件的访问时间以及系统的内存占用率等系统性能情况。实验结果表明,本文提出的小文件存取优化方案可以缓解大量小文件对Name Node内存的迅速消耗问题,可提高小文件的随机访问效率,可减少系统资源的花销,还可以减少小文件的读写时间。

著录项

  • 作者

    陈诗雯;

  • 作者单位

    天津大学;

  • 授予单位 天津大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 李健,吴清泉;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    平台; 海量; 文件; 处理技术;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号