首页> 中文学位 >基于Hadoop的并行化存储和处理方法及应用研究
【6h】

基于Hadoop的并行化存储和处理方法及应用研究

代理获取

目录

声明

摘要

第一章 绪论

第一节 研究背景

第二节 研究内容和意义

第三节 论文组织结构

第二章 项目背景概述

第一节 项目概述

2.1.1 信息采集

2.1.2 信息审核

2.1.3 专家遴选

2.1.4 网上评议

2.1.5 信息公示

2.1.6 后台管理

第二节 平台系统技术架构

2.2.1 富客户端

2.2.2 Struts2

2.2.3 Spring

2.2.4 iBatis

2.2.5 Oracle数据库

第三节 项目问题分析

2.3.1 专家遴选流程

2.3.2 遴选算法运行时间分析

2.3.3 专家评分环节问题

第四节 项目问题总结

第三章 并行化存储和处理方法研究

第一节 Hadoop

3.1.1 Hadoop起源

3.1.2 Hadoop项目

第二节 HDFS

3.2.1 数据块

3.2.2 HDFS架构

3.2.3 HDFS读写机制

第三节 MapReduce

3.3.1 MapReduce运行机制

3.3.2 Map端

3.3.3 Shuffle

3.3.4 Reduce端

第四节 基于Hadoop专家评分的研究思路

第四章 实验环境

第一节 网络拓扑结构

第二节 底层架构

4.2.1 Windows操作系统

4.2.2 VMware工作站

4.2.3 CentOS操作系统

第三节 Hadoop平台

4.3.1 安装JDK

4.3.2 安装SSH

4.3.3 安装Hadoop

4.3.4 配置Hadoop

4.3.5 安装Eclipse开发环境

4.3.6 安装hadoop-eclipse-plugin插件

第五章 专家评分程序Hadoop的实现

第一节 业务流程

第二节 数据集设计

5.2.1 逻辑分析

5.2.2 实验数据集

5.2.3 填充数据

5.2.4 数据上传

第三节 专家评分设计

5.3.1 逻辑分析

5.3.2 MapReduce特性

5.3.3 评分规则

第四节 程序代码实现

5.4.1 main函数

5.4.2 map函数

5.4.3 reduce函数

第六章 实验结果及分析

第一节 实验数据

6.1.1 Oraele数据库实验数据

6.1.2 HDFS实验数据

第二节 实验结果

6.2.1 测试工具

6.2.2 测试10万条记录

6.2.3 测试100万条记录

6.2.4 测试1000万条记录

6.2.5 测试不同优先级个数的50万条记录

第三节 结果分析

第七章 总结与展望

第一节 研究工作总结

第二节 下一步研究工作

参考文献

致谢

个人简历

展开▼

摘要

在软件管理系统中,数据大部分存储在传统的关系型数据库中,但当业务复杂度的提高和数据量的不断增加,简单的通过单一节点的数据库处理方式已经无法满足用户对于希望快速获取反馈的需求,从而影响系统的工作效率。因此,采用分布式来来存储和处理海量数据为本文的主要研究课题。
   本文以《教育部学位与研究生教育评估工作平台》的专家遴选模块的专家评分环节为研究基础,针对用户需要多次进行遴选才能确定方案,导致随着数据库中专家信息数据的不断增加,在有限的硬件资源下用户需要大量的时间等待结果。其中专家评分环节占据专家遴选大部分时间,因此本文提出了采用Hadoop平台的分布式存储和并行计算功能来提高专家评分环节效率的解决方案。
   本文的主要研究思路为构建Hadoop平台,将Oracle数据库中的专家信息数据存储到Hadoop的HDFS分布式文件系统中,通过Hadoop提供的MapReduce框架的map和reduce接口,实现分布式专家评分程序,并以专家分数为键对专家记录进行排序和分组。最后,通过Oracle数据库和Hadoop平台下专家评分程序的实验对比,得出随着专家信息数据量的增加,以及现有数据量下随着专家评分规则复杂度提高,基于Hadoop的分布式专家评分程序有更高的效率。
   本文利用分布式存储和并行计算,提出并实现了提高专家评分环节效率的解决方案,并通过实验对比结果,进一步验证了Hadoop分布式平台实际应用于专家评分环节的可行性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号