Spark Shuffle的内存调度算法分析及优化

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着分布式计算框架的不断发展和普及，Spark以其先进的设计理念，迅速成为开源社区的热门研究项目。对于大数据计算框架而言，Shuffle过程的设计优劣和性能高低直接影响着整个系统的性能和吞吐量。本文研究的主要内容为SparkShuffle过程中不同Task间内存分配算法的分析与优化。在分析已有Shuffle优化算法的基础上，发现因各Task对内存需求不均衡而造成Shuffle运行效率低的瓶颈。针对公平分配内存调度算法的不足，提出了一种基于溢出历史的自适应内存调度算法，并通过典型实验证明本文算法能有效提高内存利用率和程序运行效率，提高Spark系统的整体运行性能。本文的主要贡献包括:
　　1)阐述了分布式计算的主流框架MapReduce，包括MapReduce的编程模型、现状和不足。通过介绍Spark的设计理念分析了Spark对MapReduce模型的改进，比较了两者的优缺点。
　　2)研究了Spark Shuffle的概念、发展及优化过程，通过阅读分析SparkShuffle的源码研究Shuffle内存调度的思想，指出了公平分配算法存在的不足。
　　3)提出了基于溢出历史的自适应内存调度算法SBSA，解决Spark Shuffle公平分配内存调度算法影响Shuffle运行效率的问题。本算法详细设计了空闲内存的计算方式、关键Task可从空闲内存借用的内存比例以及Task可用内存的最大阈值。
　　4)通过典型实验比较了SBSA算法与先来先服务算法、公平分配调度算法的性能差异，实验结果证明本算法可以大大提高数据分布不均匀的应用程序的执行效率。从综合表现来看，本算法能充分利用空闲内存资源，提高资源利用效率，在一定程度上缓解目前内存资源不足的问题。

著录项

作者
陈英芝;
展开▼
作者单位

浙江大学;

展开▼
授予单位浙江大学;
学科计算机应用技术
授予学位硕士
导师姓名姜晓红;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
内存分配算法; 分布式计算框架; 资源利用率; 程序执行效率;

相似文献

中文文献
外文文献
专利

1. 改进的Spark Shuffle内存分配算法 [J] . 侯伟凡 ,樊玮 ,张宇翔 . 计算机应用 . 2017,第012期
2. 一种Spark集群下的shuffle优化机制 [J] . 熊安萍 ,夏玉冲 ,杨方方 . 计算机工程与应用 . 2018,第004期
3. Spark计算节点同构环境下Executor的内存分配优化模型 [J] . 朱蓉 . 进展:科学视界 . 2020,第001期
4. Spark并行计算框架的内存优化 [J] . 廖旺坚 ,黄永峰 ,包从开 . 计算机工程与科学 . 2018,第004期
5. Spark计算节点同构环境下Executor的内存分配优化模型 [J] . 朱蓉 . 福建质量管理 . 2017,第020期
6. 内存计算框架Spark的数据失效恢复策略 [C] . Ying Changtian ,英昌甜 ,Yu Jiong . 2016年全国高性能计算学术年会 . 2016
7. Spark内存分配及K-means算法优化研究 [A] . 耿珊珊 . 2020

Spark Shuffle的内存调度算法分析及优化

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅