首页> 中文学位 >基于多核CPU的任务级数据处理研究及其在集群平台下的性能测试
【6h】

基于多核CPU的任务级数据处理研究及其在集群平台下的性能测试

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1 研究背景

1.2 国内外研究现状

1.3 研究目的和研究内容

1.4 论文组织结构

1.5 本文的主要工作

2 相关技术分析

2.1 Hadoop运行机制

2.2 HDFS分布式文件系统

2.3 MapReduce数据模型

2.4 Pig

2.5 HBASE

2.6 TBB与传统线程库区别

3 基于Hadoop的集群平台构建

3.1 构建方法及过程

3.1.4 配置环境变量

3.2 故障恢复

4 任务级MapReduce研究

4.1 线程级MapReduce分析

4.2 任务级MapReduce研究

4.3 性能对比实验

5 任务级MapReduce在集群平台下的性能测试

5.1 线程级单核集群与任务级单核集群测试分析

5.2 线程级多核集群与任务级多核集群测试分析

5.3 针对不同核心总数和数据规模的性能测试分析① 集群的配置和实验结果如下

6 总结与展望

致谢

参考文献

展开▼

摘要

随着计算机网络和信息化技术的发展,人们每天要处理的信息正在以惊人的速度增加,尤其是像Google这样的提供全球网页分析和处理的互联网公司,它每天要通过GoogleMapReduce对数以P级的网页,音频和视频进行处理。Google在数据处理方面的成功促使Apache社区开发了开源版的HadoopMapReduce。开源版本用Java语言实现,它用HDFS将集群的主要实体NameNode,SecondName-Node和DataNode连接起来,NameNode是集群的管理者,它上面运行JobTracker主控程序;SecondNameNode是NameNode的backup服务器;DataNode是hadoop集群中用TaskTracker真正处理数据的计算机,当DataNode是多核计算机,且分配的数据量小于是64M时,DataNode的多核优势将不复存在,它只能利用其中一个核心的计算机,其它核心则处idle状态。为了处理这种状况,本文提出了一种任务级MapReduce模型,用它来代替传统的线程级MapReduce。
  本文在分析了Hadoop运行机制以及制约因素的基础上,搭建了Hadoop集群运算平台,并对集群容易出现的故障给出了相应的解决方案。详细分析了线程级MapReduce的运作机制,然后在集群上通过对比实验提出了线程级MapReduce在处理小块数据时的局限性。
  本文将intel用c++语言开发的TBB并行库与HadoopMapReduce结合起来形成了任务级的MapReduce,并通过在集群上求PI的几组实验,证实了任务级MapReduce在小块数据处理方面的优势。
  本文还通过实验的方式综合对比了这两种级别的MapReduce的性能,并提出了核心总数,数据规模与性能之间的关系。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号