首页> 中文学位 >基于Hadoop的海量工程数据处理技术研究
【6h】

基于Hadoop的海量工程数据处理技术研究

代理获取

目录

声明

致谢

摘要

1 绪论

1.1 课题研究背景及意义

1.1.1 课题研究背景

1.1.2 课题研究意义

1.2 课题研究现状

1.2.1 云计算技术研究现状

1.2.2 Hadoop技术研究现状

1.2.3 Hadoop技术商业应用现状

1.2.4 Hadoop技术工程应用进展

1.3 本文研究的内容

1.4 章节组织

2 Hadoop技术分析

2.1 Hadoop概述

2.2 Hadoop的体系结构

2.2.1 HDFS体系结构

2.2.2 MapReduce的体系结构

2.3 HDFS中的数据管理

2.4 MapReduce工作原理

2.5 小结

3 基于HDFS的海量工程数据存储系统设计

3.1 海量工程数据特点

3.2 系统需求分析

3.3 系统设计

3.3.1 设计原则与体系结构

3.3.2 系统主要模块与算法设计

3.4 小结

4 基于MapReduce的海量工程数据计算模型设计

4.1 计算模型需求分析

4.2 计算模型设计

4.2.1 制定数据存储格式

4.2.2 数据预处理与简化

4.2.3 数据计算关键算法

4.2.4 计算结果可视化

4.3 小结

5 海量工程数据处理测试

5.1 实验环境安装与部署

5.2 海量工程数据存储测试

5.2.1 文件更新变化实时监控的测试

5.2.2 文件同步功能测试

5.2.3 文件同步性能测试

5.2.4 扩容功能测试

5.3 海量工程数据计算测试

5.3.1 数据预处理及简化测试

5.3.2 数据处理测试

5.3.3 数据处理结果分析

5.4 小结

6 结论

6.1 主要工作和特点

6.2 进一步工作展望

参考文献

作者简历

学位论文数据集

展开▼

摘要

随着工程项目信息化程度越来越高,海量的工程数据随之产生,然而传统的工程数据存储技术无法满足越来越高的数据存储质量的要求。近年来,云计算技术在工业界和学术界共同推动下取得了巨大的发展,大量的云计算系统投入使用。其中,Hadoop平台被广泛用来开发云计算程序。Hadoop最大的优点就是实现了并行化对应用开发者的透明处理,应用开发者可以像开发普通程序一样来开发云计算的应用系统,而集群的并行化则由Hadoop底层自动完成。本文基于Hadoop技术来研究工程领域海量数据的处理问题,主要采用Hadoop的HDFS分布式文件系统以及MapReduce分布式处理模型来支持海量工程数据的存储和处理。
  海量工程数据的处理过程主要分为两大部分:海量数据的存储过程与计算分析过程。针对工程领域数据存储的问题,本文分析设计了基于Hadoop的HDFS分布式文件系统的工程数据存储系统。该系统基于Java7文件监控器设计了的文件识别算法,该算法可以快速、准确地监控并识别客户端本地文件目录变化信息。配合基于Quartz的调度器的存储作业调度以及HDFS文件操作API接口的调用,实现了跨平台文件同步功能。经过在云仿真平台存储系统中应用测试,表明该系统具有较好的通用性、高效性以及经济性。所设计的文件同步方法较好地完成了文件同步任务,解决了云仿真平台存储系统中核心的文件同步问题,提供了快速、正确的文件同步功能。
  针对海量工程数据计算分析的问题,本文基于Hadoop技术另外一个核心技术MapReduce分布式处理模型,以城市海量噪声数据为应用对象提出了海量数据分析处理模型,为城市社区噪声监测系统提供海量数据处理服务。针对城市噪声数据特点,提出了由四个部分组成的数据处理过程,分别是数据清洗、数据预处理、数据处理以及数据可视化。基于该处理模型,对城市噪声监测采集系统采集到的海量噪声数据进行存储,将存储后的数据进行测试分析处理,实现了移动计算与海量工程数据存储及分析的结合。测试结果表明该分布式处理模型快速、准确、有效地完成了噪声数据处理的任务。
  最后对基于Hadoop的海量工程数据的存储与计算分析的应用情况进行了研究成果总结,并对下一步工作进行了展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号