声明
第一章 绪论
1.1 研究背景及意义
1.2 研究现状
1.3 研究内容
1.4 文章组织结构
1.5 本章小结
第二章 Spark和查询优化理论简介
2.1 Spark 简介
2.1.1 弹性分布式数据集
2.1.2 Spark 任务执行流程简介
2.2 查询优化理论
2.2.1 查询执行过程
2.2.2 逻辑优化
2.2.3 物理优化
2.3 Spark SQL 简介
2.3.1 Spark SQL 连接操作
2.3.2 Spark SQL 查询优化框架
2.4 本章小结
第三章 运行时查询优化算法设计
3.1 基于布隆过滤器裁剪连接输入
3.1.1 布隆过滤器简介
3.1.2 BFP Join 算法分析与设计
3.1.3 选择连接算法
3.2 连接中间关系基数估计方法
3.2.1 传统的中间结果基数估算方法
3.2.2 基于AMS Sketch估计中间结果基数
3.2.3 使用布隆过滤器估计中间结果基数
3.3 运行时连接计划生成算法
3.3.1 连接计划生成算法
3.3.2 运行时连接计划生成算法的设计
3.4 本章小结
第四章 运行时查询优化算法设计
4.1 布隆过滤器裁剪连接输入的实现
4.1.1 布隆过滤器的实现
4.1.2 布隆过滤器Accumulator
4.2 中间结果估计算法的实现
4.2.1 AMS Sketch估计算法的实现
4.2.2 布隆过滤器估计的实现
4.3 运行时连接计划生成算法的实现
4.3.1 连接的表示
4.3.2 连接中开销的计算
4.3.3 连接的迭代过程
4.4 本章小结
第五章 实验设计及结果分析
5.1 实验环境及数据
5.1.1 实验硬件环境
5.1.2 实验软件配置
5.1.3 测试数据集
5.2 实验设计
5.2.1 BFP Join的实验设计
5.2.2 运行时查询优化算法实验设计
5.2.3 相关工作的对比实验设计
5.3 实验结果及分析
5.3.1 BFP Join 实验结果及分析
5.3.2 运行时查询优化算法实验结果及分析
5.3.3 相关工作的对比实验结果分析
5.4 本章小结
第六章 总结及展望
6.1 全文总结
6.2 研究不足之处
6.3 研究展望
致谢
参考文献
电子科技大学;