首页> 中文学位 >基于运行时统计数据采集的Spark SQL查询优化研究
【6h】

基于运行时统计数据采集的Spark SQL查询优化研究

代理获取

目录

声明

第一章 绪论

1.1 研究背景及意义

1.2 研究现状

1.3 研究内容

1.4 文章组织结构

1.5 本章小结

第二章 Spark和查询优化理论简介

2.1 Spark 简介

2.1.1 弹性分布式数据集

2.1.2 Spark 任务执行流程简介

2.2 查询优化理论

2.2.1 查询执行过程

2.2.2 逻辑优化

2.2.3 物理优化

2.3 Spark SQL 简介

2.3.1 Spark SQL 连接操作

2.3.2 Spark SQL 查询优化框架

2.4 本章小结

第三章 运行时查询优化算法设计

3.1 基于布隆过滤器裁剪连接输入

3.1.1 布隆过滤器简介

3.1.2 BFP Join 算法分析与设计

3.1.3 选择连接算法

3.2 连接中间关系基数估计方法

3.2.1 传统的中间结果基数估算方法

3.2.2 基于AMS Sketch估计中间结果基数

3.2.3 使用布隆过滤器估计中间结果基数

3.3 运行时连接计划生成算法

3.3.1 连接计划生成算法

3.3.2 运行时连接计划生成算法的设计

3.4 本章小结

第四章 运行时查询优化算法设计

4.1 布隆过滤器裁剪连接输入的实现

4.1.1 布隆过滤器的实现

4.1.2 布隆过滤器Accumulator

4.2 中间结果估计算法的实现

4.2.1 AMS Sketch估计算法的实现

4.2.2 布隆过滤器估计的实现

4.3 运行时连接计划生成算法的实现

4.3.1 连接的表示

4.3.2 连接中开销的计算

4.3.3 连接的迭代过程

4.4 本章小结

第五章 实验设计及结果分析

5.1 实验环境及数据

5.1.1 实验硬件环境

5.1.2 实验软件配置

5.1.3 测试数据集

5.2 实验设计

5.2.1 BFP Join的实验设计

5.2.2 运行时查询优化算法实验设计

5.2.3 相关工作的对比实验设计

5.3 实验结果及分析

5.3.1 BFP Join 实验结果及分析

5.3.2 运行时查询优化算法实验结果及分析

5.3.3 相关工作的对比实验结果分析

5.4 本章小结

第六章 总结及展望

6.1 全文总结

6.2 研究不足之处

6.3 研究展望

致谢

参考文献

展开▼

著录项

  • 作者

    刘晨飞;

  • 作者单位

    电子科技大学;

  • 授予单位 电子科技大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 赵勇;
  • 年度 2020
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 TN9TN;
  • 关键词

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号