首页> 中文学位 >面向高性能计算机体系结构的MapReduce编程框架优化研究
【6h】

面向高性能计算机体系结构的MapReduce编程框架优化研究

代理获取

目录

封面

声明

目录

中文摘要

英文摘要

第一章 绪论

1.1 研究背景

1.2 研究意义和难点

1.3 本文工作和章节安排

第二章 相关技术介绍

2.1 高性能计算机系统及传统并行编程模型

2.2 MapReduce编程模型

2.3 本章小结

第三章 在高性能计算机体系结构下部署MapReduce框架

3.1 概述

3.2 HDFS与Lustre作为Hadoop后端存储的特点分析

3.3 基于Lustre的Hadoop处理平台关键技术

3.4 性能测试与分析

3.5 本章小结

第四章 Lustre文件系统针对Hadoop的性能调优

4.1 概述

4.2 Lustre的数据存储特性分析

4.3 Lustre的性能调优

4.4 性能测试与分析

4.5 本章小结

第五章 利用虚拟内存盘优化Hadoop平台

5.1 概述

5.2 Lustre作为Hadoop后端存储的性能问题

5.3 Hadoop的shuffle过程分析

5.4 内存缓存优化策略的原理与技术

5.5 性能测试与分析

5.6 本章小结

第六章 结论和展望

6.1 工作总结

6.2 下一步工作展望

致谢

参考文献

作者在学期间取得的学术成果

展开▼

摘要

随着大数据时代的来临,科学研究、工业应用等领域的数据规模正爆炸式增长,与此同时复杂数据分析的需求也日益强烈。当前高性能计算在国家的科学研究和科技服务行业中占有举足轻重的地位,并且随着其应用领域的不断拓展加深,高性能计算机已经成为了大规模数据处理的一个重要平台。然而,高性能计算机在处理数据密集型应用时仍存在着一些问题。高性能计算机多采用集中共享式存储系统(如 Lustre文件系统等),这种以存储为中心的体系结构简化了程序编写的复杂度,但在处理大规模数据时容易造成I/O瓶颈,降低了系统的整体性能。并且随着高性能计算机系统的复杂度越来越高、规模越来越大,其平均无故障时间变得越来越短,系统的可用性降低,影响超级计算中心的服务质量。本文提出利用MapReduce框架解决高性能计算机的上述问题。MapReduce作为面向大规模数据分析和处理的并行计算框架,一经公布即引起了工业界和学术界的广泛关注,并迅速成为了大数据处理的事实标准。MapReduce框架将系统容错性置于优先考虑位置,在系统层面解决了可用性和扩展性的问题。其“计算向数据移动”的思想缓解了海量数据移动的I/O压力,在分析处理大规模数据时具有较高的效率。
  本研究主要内容包括:⑴研究采用集中共享式存储系统的高性能计算机与普通服务器集群的结构区别,论证在高性能计算机上部署MapReduce框架的意义,探索部署MapReduce框架的方法、技术。⑵分析MapReduce框架采用集中式存储后数据流的特点,并利用该特点提高数据远程读写的效率,避免数据重复拷贝,优化MapReduce框架的性能。⑶分析集中共享式存储系统Lustre的存储特性,针对MapReduce框架访问数据的特点调优Lustre的性能。⑷研究利用虚拟内存盘存储临时数据和中间结果数据,进一步缓解 Lustre的I/O压力以提升MapReduce框架的性能。⑸在高性能计算机TH-1A上进行性能测试,验证优化策略的性能提升效果,展示在高性能计算机上部署的MapReduce框架的性能优势,说明其能应用到实际生产中处理基于MapReduce的数据密集型应用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号