声明
第1章 绪论
1.1 课题研究背景及意义
1.1.1 Spark平台简介
1.1.2 Spark平台下数据混洗阶段中间数据放置策略概述
1.1.3 Spark平台下缓存替换策略概述
1.1.4 Spark平台下中间数据放置面临的问题
1.1.5 Spark平台下缓存替换面临的问题
1.2 国内外研究现状分析
1.2.1 Spark平台下数据混洗阶段中间数据放置研究现状
1.2.2 Spark平台下缓存替换方法研究现状
1.3 本文研究内容
1.4 本文组织结构
1.5 本章小结
第2章 基于储层采样的数据混洗阶段中间数据放置策略
2.1 数据混洗阶段中间数据放置问题分析
2.2 数据随机抽样和数据集合大小的预测
2.2.1 数据随机抽样过程描述
2.2.2 基于储层概念的随机采样算法
2.2.3 数据集合大小的预测过程描述
2.2.4 数据集合大小的预测算法
2.3 衡量中间数据倾斜程度问题建模
2.4 基于分割数据集合的细粒度中间数据放置算法描述
2.4.1 数据集合的分割算法
2.4.2 数据集合的调度算法
2.4.3 算法时间复杂度分析
2.5 不分割数据集合的粗粒度中间数据放置算法描述
2.5.1 粗粒度中间数据放置算法
2.5.2 算法时间复杂度分析
2.6 本章小结
第3章 基于最大化缓存增益的自适应缓存替换策略
3.1 Spark环境下缓存替换问题分析
3.2 基于最大化缓存增益的自适应缓存替换方法
3.2.1 基于最大化缓存增益的缓存替换问题建模
3.2.2 作业到达率已知的离线缓存增益函数求解
3.2.3 作业到达率未知的自适应缓存替换方法
3.3 基于最大化缓存增益的自适应缓存替换算法描述
3.3.1 基于最大化缓存增益的自适应缓存替换算法
3.3.2 算法复杂度分析
3.4 本章小结
第4章 实验与结果分析
4.1 实验平台介绍及环境搭建
4.1.1 实验平台介绍
4.1.2 实验环境搭建
4.2 实验基准及测试数据
4.2.1实验测试基准
4.2.2实验测试数据
4.3 基于储层采样的数据混洗阶段数据放置策略实验验证
4.3.1实验设计
4.3.2 性能指标
4.3.3 基于储层概念的随机采样算法采样率选择实验
4.3.4 衡量数据倾斜程度的最佳中间值的确定
4.3.5 实验对比与分析
4.3.6 实验结论
4.4 基于最大化缓存增益的自适应缓存替换策略实验验证
4.4.1实验设计
4.4.2 性能指标
4.4.3 实验对比与分析
4.4.4 实验结论
4.5 本章小节
第5章 总结与展望
5.1 主要工作总结
5.2 研究展望
致谢
参考文献
攻读学位期间获得与学位论文相关的科研成果目录
武汉理工大学;