首页> 中文学位 >基于内存的分布式列式数据库查询优化
【6h】

基于内存的分布式列式数据库查询优化

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究背景

1.2 研究内容及主要工作

1.3 论文组织

第二章 相关技术研究

2.1 数据库查询相关技术

2.2 查询优化系统简介

2.3 本章小结

第三章 系统分析与概述

3.1 系统背景

3.2 查询的基本流程

3.3 系统设计方案

3.4 本章小结

第四章 查询优化设计

4.1 查询优化的基本流程

4.2 查询优化的设计

4.3 本章小结

第五章 查询优化的系统设计

5.1 查询优化相关系统的设计

5.2 算法细节设计

5.3 查询任务树的设计

5.4 本章小结

第六章 查询优化的实现

6.1 逻辑计划

6.2 预处理模块的具体实现

6.3 基于规则优化的具体实现

6.4 物理优化的具体实现

6.5 本章小结

第七章 系统测试

7.1 测试环境

7.2 功能测试

7.3 性能测试

7.4 本章小结

第八章 总结与展望

致谢

参考文献

攻硕期间取得的研究成果

展开▼

摘要

随着人们对数据查询、分析的要求越来越高,传统的基于磁盘的关系型数据库已不能完全满足要求,而内存因为其远高于磁盘的访问速度,能极大降低数据的存取延迟而越来越多的被作为数据库的存储介质。而基于列优先的存储方式因为有更高的压缩率和在数据查询任务中更小的中间数据而被广泛应用在内存数据库中。
  本文针对内存存储与磁盘存储的不同,以及列优先存储和行优先存储的不同,设计了一套基于内存的分布式环境下的列式数据库上的查询优化方法,其中包括:
  1、将传统关系型数据库中的基于规则的查询优化与列式存储模式相结合,采用选择下推、条件化简等一系列操作对逻辑查询树进行有针对性的变形,使之具有更少的算子,并且在分布式环境下具有更小的数据传输量。
  2、对涉及到多表join的查询,结合实际应用环境,采用非随机的分层动态规划算法计算最优的连接顺序,并在实现中提供良好的选择策略实现接口,使之在不同的应用环境下可以使用不同的算法提供更适合的join路径选择方案。
  3、在查询中结合数据片的存储位置、网络开销、节点负载等信息,综合计算预估多种查询方案的代价,分别采用贪心算法和遗传算法两种算法优化执行计划在分布式集群上的执行策略,提高查询的实时响应能力。
  通过在已有的内存数据库系统 GoldFish上实现该查询优化模块,并对比spark-sql等已有开源分布式数据库系统,我们发现带有查询优化模块的GoldFish系统在内存使用率,查询延迟等性能指标上均有很好的表现。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号