小文件处理及算法并行化在Hadoop上的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着社会信息化进程的不断加速，各公司企业积累了大量的数据资料，尤其是小文件的数据量更是增长迅速。面对海量小文件数据，传统的单机系统既无法满足存储能力的需求，也无法进行高效的分析计算。为了解决单机系统面临的难题，各种分布式系统逐渐被应用到海量数据处理中来。Apache公司开发的Hadoop是一个优秀的分布式平台，它的分布式文件系统 HDFS与分布式编程模型MapReduce分别为数据的存储和计算提供了有力支持，基于Hadoop的数据处理系统也得到了广泛研究。但是，Hadoop起初是为了处理大型日志文件而设计的，它在存储海量小文件时的性能并不好，因此，在面向海量小文件的数据处理系统中，需要研究的第一个问题就是如何对Hadoop进行优化，以便高效地存储这些数据文件。然而，存储仅仅是系统要做的第一步工作，还需要对数据进行计算，如何基于Hadoop对数据进行统计分析，挖掘数据中的潜在价值，也是一个需要研究的问题。
　　本文深入分析了HDFS、MapReduce的工作原理，结合海量小文件处理系统的需求，对基于Hadoop的海量小文件处理系统中的数据存储与分析计算这两项关键技术进行了研究，主要完成了如下工作：
　　①研究了Hadoop存储海量小文件的不足，提出了一种在存储之前对小文件进行合并的策略，该方法采用Hadoop自带的归档工具对小文件进行合并，有效提升系统存储小文件的性能，此外，合并后的文件可以直接作为MapReduce任务的输入数据，非常便于系统进行后续的分析处理。
　　②在对小文件进行合并存储的基础之上，研究了经典数据挖掘算法在Hadoop上的并行化实现方法，针对数据分析中经常用到的聚类分析与频繁模式挖掘这两项技术，分别选取了K-均值算法和FP-Growth算法进行基于 Hadoop的并行化设计与实现。
　　③最后，搭建了Hadoop的实验平台，对这两项关键技术进行了仿真实验。实验结果表明，本文提出的先合并后存储的方法能够有效提高系统存储海量小文件的性能，按照MapReduce模型并行化之后的数据挖掘算法也具有良好的性能和稳定性，为系统进行高效的数据计算提供了有力支持。

著录项

作者
关海超;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机技术
授予学位硕士
导师姓名尹云飞;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类软件工程 ;
关键词
分布式编程; 数据处理; 聚类分析; 文件处理;

相似文献

中文文献
外文文献
专利

1. 基于Hadoop平台的改进KNN分类算法并行化处理 [J] . 马莹 ,赵辉 ,崔岩 . 长春工业大学学报（自然科学版） . 2018 ,第005期
2. Hadoop小文件编程处理的性能优化 [J] . 刘斌 . 工业控制计算机 . 2018 ,第012期
3. Hadoop中处理小文件的四种方法的性能分析 [J] . 李三淼 ,李龙澍 . 计算机工程与应用 . 2016 ,第009期
4. Hadoop对小文件的处理性能的研究 [J] . 艾明 . 信息技术 . 2015 ,第010期
5. 基于Hadoop的海量医疗小文件处理系统 [J] . 魏强 ,孔广黔 ,吴云 . 计算机与数字工程 . 2015 ,第004期
6. 一种Hadoop小文件存储和读取的方法 [C] . Zhang Chunming ,张春明 ,Rui Jianwu . 2012中国计算机大会 . 2012
7. Hadoop中海量小文件存取关键技术的设计与实现 [A] . 贾玉辰 . 2015

小文件处理及算法并行化在Hadoop上的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅