面向高性能计算机体系结构的MapReduce编程框架优化研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着大数据时代的来临，科学研究、工业应用等领域的数据规模正爆炸式增长，与此同时复杂数据分析的需求也日益强烈。当前高性能计算在国家的科学研究和科技服务行业中占有举足轻重的地位，并且随着其应用领域的不断拓展加深，高性能计算机已经成为了大规模数据处理的一个重要平台。然而，高性能计算机在处理数据密集型应用时仍存在着一些问题。高性能计算机多采用集中共享式存储系统（如 Lustre文件系统等），这种以存储为中心的体系结构简化了程序编写的复杂度，但在处理大规模数据时容易造成I/O瓶颈，降低了系统的整体性能。并且随着高性能计算机系统的复杂度越来越高、规模越来越大，其平均无故障时间变得越来越短，系统的可用性降低，影响超级计算中心的服务质量。本文提出利用MapReduce框架解决高性能计算机的上述问题。MapReduce作为面向大规模数据分析和处理的并行计算框架，一经公布即引起了工业界和学术界的广泛关注，并迅速成为了大数据处理的事实标准。MapReduce框架将系统容错性置于优先考虑位置，在系统层面解决了可用性和扩展性的问题。其“计算向数据移动”的思想缓解了海量数据移动的I/O压力，在分析处理大规模数据时具有较高的效率。
　　本研究主要内容包括：⑴研究采用集中共享式存储系统的高性能计算机与普通服务器集群的结构区别，论证在高性能计算机上部署MapReduce框架的意义，探索部署MapReduce框架的方法、技术。⑵分析MapReduce框架采用集中式存储后数据流的特点，并利用该特点提高数据远程读写的效率，避免数据重复拷贝，优化MapReduce框架的性能。⑶分析集中共享式存储系统Lustre的存储特性，针对MapReduce框架访问数据的特点调优Lustre的性能。⑷研究利用虚拟内存盘存储临时数据和中间结果数据，进一步缓解 Lustre的I/O压力以提升MapReduce框架的性能。⑸在高性能计算机TH-1A上进行性能测试，验证优化策略的性能提升效果，展示在高性能计算机上部署的MapReduce框架的性能优势，说明其能应用到实际生产中处理基于MapReduce的数据密集型应用。

著录项

作者
喻杰;
展开▼
作者单位

国防科学技术大学;

展开▼
授予单位国防科学技术大学;
学科计算机科学与技术
授予学位硕士
导师姓名窦强;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类总体设计、系统设计;编译程序、解释程序;
关键词
高性能计算; 数据处理; 系统程序; 程序设计;

相似文献

中文文献
外文文献
专利

1. DLPF：基于异构体系结构的并行深度学习编程框架 [J] . 王岳青 ,窦勇 ,吕启 . 计算机研究与发展 . 2016,第006期
2. IBM集群式高性能计算机体系结构及气象应用 [J] . 王剑春 ,邓华 ,程勇 . 电子测试 . 2013,第013期
3. 高性能计算机体系结构综述 [J] . 唐少宇 . 计算机光盘软件与应用 . 2010,第015期
4. 高性能计算机体系结构综述 [J] . 李硕 ,唐胜男 . 北京工商大学学报（自然科学版） . 2007,第006期
5. 网格化的动态自组织高性能计算机体系结构DSAG [J] . 樊建平 ,陈明宇 . 计算机研究与发展 . 2003,第012期
6. MapReduce框架在高性能计算机平台上的部署与性能优化技术 [C] . 喻杰 ,刘光明 ,董文睿 . 第19届全国信息存储技术学术会议 . 2013
7. 基于MapReduce的分布式编程框架的设计与实现 [A] . 盘隆 . 2011

面向高性能计算机体系结构的MapReduce编程框架优化研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅