首页> 中文学位 >小文件处理及算法并行化在Hadoop上的设计与实现
【6h】

小文件处理及算法并行化在Hadoop上的设计与实现

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 研究目的及内容

1.4 论文组织结构

2 Hadoop基础理论

2.1 Hadoop概述

2.2 HDFS介绍

2.3 MapReduce介绍

2.4 本章小结

3 海量小文件存储方法

3.1 整体设计

3.2 文件写入过程

3.3 文件读取过程

3.4 本章小结

4 数据挖掘算法并行化设计

4.1 K-均值算法

4.2 FP-Growth算法

4.3 本章小结

5 实验与分析

5.1 实验环境搭建

5.2 海量小文件存储实验

5.3 算法并行化设计实验

5.4 本章小结

6 总结与展望

6.1 本文总结

6.2 工作展望

致谢

参考文献

展开▼

摘要

随着社会信息化进程的不断加速,各公司企业积累了大量的数据资料,尤其是小文件的数据量更是增长迅速。面对海量小文件数据,传统的单机系统既无法满足存储能力的需求,也无法进行高效的分析计算。为了解决单机系统面临的难题,各种分布式系统逐渐被应用到海量数据处理中来。Apache公司开发的Hadoop是一个优秀的分布式平台,它的分布式文件系统 HDFS与分布式编程模型MapReduce分别为数据的存储和计算提供了有力支持,基于Hadoop的数据处理系统也得到了广泛研究。但是,Hadoop起初是为了处理大型日志文件而设计的,它在存储海量小文件时的性能并不好,因此,在面向海量小文件的数据处理系统中,需要研究的第一个问题就是如何对Hadoop进行优化,以便高效地存储这些数据文件。然而,存储仅仅是系统要做的第一步工作,还需要对数据进行计算,如何基于Hadoop对数据进行统计分析,挖掘数据中的潜在价值,也是一个需要研究的问题。
  本文深入分析了HDFS、MapReduce的工作原理,结合海量小文件处理系统的需求,对基于Hadoop的海量小文件处理系统中的数据存储与分析计算这两项关键技术进行了研究,主要完成了如下工作:
  ①研究了Hadoop存储海量小文件的不足,提出了一种在存储之前对小文件进行合并的策略,该方法采用Hadoop自带的归档工具对小文件进行合并,有效提升系统存储小文件的性能,此外,合并后的文件可以直接作为MapReduce任务的输入数据,非常便于系统进行后续的分析处理。
  ②在对小文件进行合并存储的基础之上,研究了经典数据挖掘算法在Hadoop上的并行化实现方法,针对数据分析中经常用到的聚类分析与频繁模式挖掘这两项技术,分别选取了K-均值算法和FP-Growth算法进行基于 Hadoop的并行化设计与实现。
  ③最后,搭建了Hadoop的实验平台,对这两项关键技术进行了仿真实验。实验结果表明,本文提出的先合并后存储的方法能够有效提高系统存储海量小文件的性能,按照MapReduce模型并行化之后的数据挖掘算法也具有良好的性能和稳定性,为系统进行高效的数据计算提供了有力支持。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号