首页> 中文学位 >基于Postgres-XC分布式数据库的查询优化方法
【6h】

基于Postgres-XC分布式数据库的查询优化方法

代理获取

目录

声明

摘要

第1章 绪论

1.1 分布式数据库

1.2 Postgres-XC简介

1.3 国内外研究现状

1.4 研究动机

1.5 论文内容与结构

第2章 查询性能分析

2.1 Postgres-XC的数据分布与查询

2.1.1 数据分布

2.1.2 数据分片

2.1.3 Postgres-XC的数据分布策略分析

2.1.4 查询执行流程

2.1.5 影响Postgres-XC查询性能因素的实例分析

2.2 现有算法的Postgres-XC适用性分析

2.2.1 基于半连接的查询优化算法的适用性

2.2.2 基于关系代数的查询优化算法的适用性

2.2.3 基于直接连接的查询优化算法的适用性

2.3 Postgres-XC查询计划的缺陷

2.3.1 统计信息的缺失

2.3.2 开销估计的缺陷

2.4 查询优化思路

2.5 本章小结

第3章 Postgres-XC系统的改进

3.1 当前统计信息获取方式

3.2 系统改进方案

3.2.1 信息交互

3.2.2 数据采样

3.2.3 数据分析

3.3 本章小结

第4章 改进的算法

4.1 查询计划生成过程

4.2 查询计划生成算法

4.2.1 单表查询的开销估计

4.2.2 连接操作的开销估计

4.3 算法改进思路

4.4 算法改进描述

4.4.1 改进后单表查询的开销估计

4.4.2 改进后连接操作的开销估计

4.4.3 改进后的查询计划生成算法

4.5 本章小结

第5章 改进系统的实现与验证

5.1 实验环境

5.2.1 统计信息

5.2.2 开销估计

5.3 方案实现效果

5.3.1 两表关联

5.3.2 多表关联

5.4 本章小结

第6章 总结

致谢

参考文献

展开▼

摘要

分布式数据库的查询优化是大数据环境下的重要问题,基于PostgreSQL数据库构建的开源分布式数据库系统Postgres-XC,尽管拥有较多优点,但多节点关联查询的效率不高,主要原因是统计信息缺失和开销估计错误使得系统无法生成最优查询计划,而Postgres-XC数据库又无法直接利用已有查询优化算法的优势。因此,本文提出Postgres-XC分布式数据库的查询优化方法,改进算法和系统性能。
  本文分析网络带宽、数据分布、节点数量等因素对Postgres-XC查询性能的影响,发现查询计划的缺陷;分析得出统计信息缺失和开销错误是导致Postgres-XC生成的查询计划不合理的直接因素。分析原有统计信息的获取流程,发现基于现有流程的Postgres-XC协调节点只能分析本地数据无法获得分散于数据节点的统计信息;提出Postgres-XC中协调节点获得全局统计信息的改进方案,设计出新的统计信息获取执行流程来替代原有流程。分析现有查询计划生成算法执行时存在的单表扫描和连接操作的开销估计,分析Postgres-XC处理查询时的特殊执行方式及其执行流程,考虑网络开销以及并行执行开销,提出合理的开销估计方法和改进的查询计划生成算法。设计实验验证了优化后的系统能够获得统计信息并进行正确的开销估计,测试不同条件优化前后系统处理关联查询的时间。实验结果表明:优化后的Postgres-XC总能根据实际情况选择合适的查询计划、降低查询响应时间,解决了传统的统计信息缺失和开销估计错误问题,优化后的Postgres-XC的查询性能在总体上有较大提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号