首页> 中文学位 >数据仓库中物化视图选择和维护算法研究与改进
【6h】

数据仓库中物化视图选择和维护算法研究与改进

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景

1.2 研究现状

1.3 主要研究内容

1.4 论文结构安排

2 数据仓库与物化视图理论概述

2.1 数据仓库概述

2.1.1 数据仓库概念

2.1.2 数据仓库体系结构

2.2 多维数据模型

2.2.1 星型模型

2.2.2 雪花型模型

2.2.3 两种数据模型比较

2.3 OLAP

2.4 物化视图技术

2.5 数据仓库产品

2.6 本章小结

3 物化视图选择算法改进

3.1 物化视图选择

3.1.1 物化视图选择问题

3.1.2 多维数据格模型

3.2 几种常见算法及其比较

3.2.1 PBS算法

3.2.2 Greedy算法

3.2.3 遗传算法

3.3 算法改进

3.3.1 代价估算模型

3.3.2 构造初始解

3.3.3 编码

3.3.4 适应度函数

3.3.5 选择算子

3.3.6 交叉算子

3.3.7 变异算子

3.4 改进算法描述

3.5 性能分析及验证

3.6 本章小结

4 物化视图维护算法改进

4.1 物化视图维护

4.1.1 物化视图维护问题

4.1.2 —致性描述

4.2 算法改进

4.2.1 物化视图增量表达式的划分

4.2.2 算法分析

4.3 改进算法描述

4.4 性能分析及验证

4.5 本章小结

5 结论

参考文献

致谢

攻读学位期间取得的科研成果清单

展开▼

摘要

数据仓库作为一个数据集合,具有面向主题、集成、反映历史变化、相对稳定的特点,它的内容来自各种异构数据库的集成数据。数据仓库的本质是一个非常大的数据存储,但是面向主题的数据组织方式不同于普通数据库。作为决策支持数据模型的物理实现,运行之上的应用主要有联机分析处理和数据挖掘。
  数据仓库中的查询越发困难,是基于它庞大的数据量和复杂的结构,且即席查询耗用时间很长。物化视图技术就是为了提高查询分析效率,它的思想是把查询结果提前计算出来并以视图形式物理存储。在现实应用中,物化哪些视图需要考虑存储和查询代价以及视图维护代价等因素。本文使用多维数据格组织视图,并提出了查询维护代价模型,即满足给定存储空间限定条件下选取查询代价与维护代价之和最小的物化视图集。通过预处理算法得到候选视图集,然后根据代价模型计算出候选视图集合中视图的代价。改进了基于遗传算法的物化视图选择算法,采用一种混合策略的选择算子,并根据适应度集中程度自适应调整种群的交叉概率。和经典遗传算法比较,改进算法不仅降低了搜索视图的成本,而且还使得数据仓库的查询效率加快。
  物化视图虽然有效地提高了系统对用户查询响应速度,但也带来了物化视图的维护问题。物化视图中的内容是查询基础数据产生的,这些基础数据来自其他独立的异构数据源,如果数据仓库的数据源端发生变化,物化视图中的数据也应作相应改变,和原始数据保持同步。如何保证两者内容的同一性,成了数据仓库研究领域中非常关键和难以解决的技术问题。本文在分析现有常用物化视图维护算法的基础上,重点研究了基于更新频率分组的维护算法,并在此基础上改进了算法。针对每组中基础表增量的大小升序排序,并按此顺序进行物化视图的更新。该算法经实验验证提高了物化视图的维护效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号