数据密集型计算并行编程关键技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

数据密集型计算是一种针对海量、分布、异构、变化的数据集进行的并行计算。随着各领域信息化程度的提高，数据规模快速增长，数据密集型计算成为解决海量数据处理问题的主要手段，以数据密集型计算编程模型为主导的并行编程技术成为设计与实现海量数据并行处理算法的重要基础，以MapReduce为代表的数据并行编程模型及相关技术已成为工业界、科学界与计算机学术界共同关注的数据密集型计算并行编程研究热点。
　　虽然数据密集型计算并行编程的理论与技术研究已有多年的发展历史，取得了许多重要的研究成果，有力地推动了数据密集型计算技术的发展与普及，不过在平台架构、通用性与复杂作业处理、多核集群并行化扩展、算法适用性等方面仍然存在诸多问题，需要进一步分析和研究。本文围绕这些问题，对数据密集型计算并行编程技术展开了深入研究，主要研究工作及创新点如下：
　　（1）研究了云计算平台、高性能计算平台和大数据系统的体系结构，提出了一种基于一体化设计方法构建的数据密集型计算平台架构，其中：用户应用层用于部署各类数据密集型应用。应用开发与管理层提供与数据密集型应用开发和运行管理相关的各种服务，主要包括客户端、集成开发与运行环境、作业管理模块。海量数据处理层支持多种编程模型及计算框架，主要包括计算资源管理、计算框架、多计算框架管理、编程模型连接池模块。海量数据存储层负责针对结构化数据与非结构化数据进行合理存储和管理，并提供统一的数据访问接口。系统管理层负责数据密集型计算平台的日常管理与运行维护，主要包括权限管理、用户管理和系统配置模块。基础设施层通过虚拟化技术将各种物理资源转化为虚拟机、虚拟存储、虚拟网络组成的资源池，为上层的海量数据获取、存储与处理服务按需提供资源。
　　（2）在对离线计算框架MapReduce的基本原理、系统结构、工作流程、优势与局限性，以及相关的计算框架（包括迭代式MapReduce计算框架、DAG计算框架和内存计算框架）进行深入分析的基础上，研究了编程模型与计算框架的通用性问题，提出了基于多种编程模型、支持复杂作业处理的通用计算框架（GCF-MPM），可在满足通用性要求的同时，高效处理由多个不同类型计算任务构成的复杂作业。
　　GCF-MPM框架的复杂作业管理与控制层借鉴现有的DAG任务调度模型，采用本文提出的一种基于双排序值的作业调度器（DRJ Scheduler）。GCF-MPM的资源管理与调度层采用本文提出的DL-QoS-SA Scheduler资源调度器。该调度器可对 YARN自带的公平调度器进行合理扩展，使用基于数据本地性服务质量和统计分析方法的作业排序算法（DL-QoS-SA Job Prioritizer）替代原有的Fair策略。GCF-MPM计算框架包含多个基于MRv1开发的数据并行计算子框架，可容易地支持不同类型的编程模型，每一种子框架只负责处理特定类型的计算任务，从而满足了用户对并行编程环境的通用性要求。
　　（3）研究了MRv1计算框架在多核集群上的并行化扩展问题，提出了面向多核集群的MapReduce-TBB混合编程模型。多核集群系统具备强大的节点间并行与节点内并行处理能力，面对集群节点内多核处理器所提供的并行计算资源，现有的数据密集型计算编程模型的并行化扩展能力不足。由于任务级并行编程模型TBB在支持多核平台并行编程方面具有明显优势，本文首先将多核集群中基于MapReduce开发的计算框架并行化扩展问题抽象为面向 CMP-Cluster的MapReduce编程模型并行化扩展问题，然后使用 Hadoop Pipes编程接口将 TBB并行算法模板函数（主要包括 parallel_for和 parallel_reduce）与MapReduce数据处理引擎进行连接，从而提升了 MRv1框架对多核集群上多级并行化资源的利用率。实验结果表明，MapReduce-TBB混合编程模型能够充分利用多核集群节点内多核处理器提供的并行计算资源，为GCF-MPM框架和其他基于MapReduce开发的计算框架在多核集群上实现多级并行化扩展奠定了重要基础。
　　（4）应用GCF-MPM框架与MapReduce-TBB混合编程模型，基于本文提出的数据密集型计算平台架构，设计并实现了一个数据密集型计算并行编程系统（DICPPS）。该系统的主要功能模块包括：客户端管理、作业管理、资源管理、子框架管理、多核任务管理、数据管理和系统管理模块。基于DICPPS系统，本文研究了实现形态学图像处理算法和数字社区商圈划分算法的适用性问题，提出并实现了将业务商圈与自然商圈相结合的综合商圈划分算法。实验结果表明，DICPPS系统不但在处理复杂作业方面具备较高的可用性和通用性，而且在多核集群上也表现出良好的多级并行化处理能力。

著录项

作者
侯珂;
展开▼
作者单位

西安理工大学;

展开▼
授予单位西安理工大学;
学科工业工程
授予学位硕士
导师姓名张璟;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类并行计算机;
关键词
数据密集型计算; 并行编程; MapReduce框架; 资源管理;

相似文献

中文文献
外文文献
专利

1. 基于公共云平台面向数据密集型应用的关键技术研究 [J] . 牛洁 ,何琳 . 成都航空职业技术学院学报 . 2020,第001期
2. 提供高性能计算平台助力数据密集型应用——4．2万亿次曙光4000L超级计算机在中石油的应用 [J] . 无 . 数字化工 . 2004,第006期
3. 基于边缘计算的数据密集型服务部署 [J] . 高永梅 ,程冠杰 . 电信科学 . 2019,第007期
4. 认知计算:数据密集型环境下图书情报学研究的新领域 [J] . 王祥丽 . 图书与情报 . 2019,第005期
5. 数据密集型计算的遥感图像预处理方法 [J] . 周兵 ,刘晓楠 ,臧文乾 . 计算机系统应用 . 2017,第004期
6. 数据密集型计算平台体系结构研究 [C] . 张超 ,艾中良 . 全国抗恶劣环境计算机第二十五届学术年会 . 2015
7. 面向数据密集型应用的数据管理关键技术研究 [A] . 俞栋辉 . 2013

数据密集型计算并行编程关键技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅