HPC集群环境下分布式数据处理系统研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

Hadoop以其高可用性成为当前大数据处理使用最广泛的工具，它是Google MapReduce和GFS的开源实现。相对于可用性，Hadoop的运行效率容易受到软硬件环境的影响。大型IT公司往往部署专门的Hadoop集群，对软硬件都进行有针对性的配置，其性能表现较好。然而通过调研发现，很多中小公司、高校的软硬件配置并不理想；另外，HPC系统的计算能力很强，但其他资源的配置相对有限，比如，天河2号平均单核内存不足0.33GB。在这些情况下，Hadoop的性能将大幅降低。
　　适用于HPC集群环境的分布式数据处理系统Mammoth，对MapReduce的执行机制进行了一系列优化。首先，Mammoth设计并实现了多线程的Map/Reduce任务执行引擎，在每个TaskTracker节点上设置一个单独的任务执行进程，所有的任务都被调度到该进程中以线程方式执行；其次，提取Map任务和Reduce任务对内存使用的细节特征，根据这些特征将Map/Reduce任务更细粒度地划分为多个子阶段；再次，实现全局的内存管理，统一管理各个任务线程对内存的使用，设计自适应的内存调度算法，动态分配和回收各个任务使用到的内存；最后，实现全局的I/O管理，统一管理各个任务线程对本地磁盘的读/写请求，为不同的I/O请求设置不同的优先级，动态地进行I/O调度。此外，Mammoth通过在应用层管理内存块的分配回收避免了Full GC的开销，还通过串行I/O和交错I/O相结合的方式提高了磁盘速度。
　　Mammoth保持原有Hadoop高可用的上层任务调度和集群管理机制，可以完全兼容已有的MapReduce程序。实验表明，在面对不同的中间数据类型和不同的集群配置时，Mammoth在总的执行时间上均能保持较好的性能提升。当系统内存不足、应用本身属于I/O密集型时，Mammoth的在总执行时间上的加速比达到最优。

著录项

作者
陈明;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机软件与理论
授予学位硕士
导师姓名石宣化;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.133.1;
关键词
分布式数据处理系统; 执行机构; 优化运行; 集群环境;

相似文献

中文文献
外文文献
专利

1. 集群环境下分布式索引分析 [J] . 潘海霞 . 信息与电脑 . 2019,第012期
2. 分布式集群环境下数据挖掘优化算法研究 [J] . 耿德志 . 信息通信 . 2019,第012期
3. 集群环境下分布式索引的实现 [J] . 翁海星 ,宫学庆 ,朱燕超 . 计算机应用 . 2016,第001期
4. 分布式集群环境下基于并行计算的图聚类信息高效处理方案 [J] . 张博 . 自动化技术与应用 . 2016,第003期
5. 分布式地震数据处理系统研究 [J] . 高少武 ,赵卫峰 ,赵波 . 计算机工程与设计 . 2003,第001期
6. 集群环境下分布式索引的实现 [C] . . 第32届中国数据库学术会议 . 2015
7. GPU集群环境下基于流水线的分布式深度学习训练优化技术研究与实现 [A] . 詹隽 . 2020

HPC集群环境下分布式数据处理系统研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅