声明
第一章 绪论
1.1 研究工作的背景与意义
1.2 本文的主要贡献与创新
1.3 本论文的结构安排
第二章 相关技术与原理
2.1 Spark基本概念
2.1.1 Spark介绍
2.1.2 弹性分布式数据集
2.1.3 键值对操作
2.1.4 数据分区
2.1.5 RDD依赖关系
2.1.6 惰性求值
2.1.7 Spark调度策略
2.1.8 集群管理器
2.1.9 文件系统
2.2 Spark调度模型分析
2.2.1 Spark资源分配
2.2.2 划分Stage过程
2.2.3 Task调度过程
2.2.4 数据本地性
2.3 Spark通信模型分析
2.3.1 启动时通信
2.3.2 运行时通信
2.4 异构集群
2.5 负载均衡
2.6 本章小结
第三章 Spark调度算法优化研究
3.1 Spark调度问题分析
3.1.1 基于同构集群的CPU资源分配
3.1.2 忽略负载的任务调度
3.2 分区动态负载调度算法
3.2.1 整体流程
3.2.2 调度中心组件
3.2.3 通信模型分析
3.3 基于区域的作业调度
3.3.1 区域定义
3.3.2 区域划分策略
3.3.3 基于区域的资源分配策略
3.4 负载均衡的任务调度
3.4.1 Spark负载定义
3.4.2 负载更新规则
3.4.3 负载均衡任务调度
3.5 本章小结
第四章 实验与分析
4.1 实验环境和配置
4.1.1 硬件配置
4.1.2 软件环境
4.1.3 测试程序
4.1.4 影响因素
4.2 实验1:集群异构性和区域划分实验
4.2.1 实验设计
4.2.2 实验结果分析
4.3 实验2:区域调度实验
4.3.1 实验设计
4.3.2 实验结果分析
4.4 实验3:负载均衡调度实验
4.4.1 实验3-1设计
4.4.2 实验3-1结果分析
4.4.3 实验3-2设计
4.4.4 实验3-2结果分析
4.5 实验4:基于异构集群的分区动态负载调度实验
4.5.1 实验设计
4.5.2 实验结果分析
4.6 本章小结
第五章 总结与展望
5.1 论文总结
5.2 改进方向
致谢
参考文献