首页> 中文学位 >基于Hive的数据仓库变更数据更新算法研究
【6h】

基于Hive的数据仓库变更数据更新算法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

插图索引

表格索引

缩略语对照表

目录

第一章 绪论

1.1 选题背景和意义

1.2 国内外研究现状

1.3 论文的主要工作

1.4 本文组织结构

第二章 基础知识与相关技术

2.1 数据仓库的概念和发展趋势

2.2 ETL技术

2.3 数据仓库相关技术

2.4 本章总结

第三章 关键问题分析和传统的数据仓库变更数据更新算法

3.1 数据抽取模式问题分析

3.2 数据缓慢变化维问题分析

3.3 数据仓库的数据关联方式优化

3.4 传统数据仓库变更数据更新算法

3.5 本章总结

第四章 基于Hive的数据仓库变更数据更新算法

4.1 基于Hive的数据仓库变更数据更新算法构架

4.2 基于Hive的内外表筛选变更数据算法

4.3 基于Hive的拉链式数据更新算法

4.4 本章总结

第五章 算法实验及应用

5.1 实验系统环境

5.2 实验数据信息

5.3 实验测试

5.4 实验测试结果分析

5.5 本章总结

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

作者简介

展开▼

摘要

面临着大数据时代的到来,企业间的竞争已经不仅仅局限于业务层面的激烈摩擦,特别是在电子商务等新兴互联网领域,如何深层次的利用数据仓库以科学的方法进行企业战略决策成为当前业内的研究重点。在数据仓库中,随着企业业务线的发展变化,势必会面临着数据仓库中对变更数据进行更新的问题,在数据仓库中对数据进行更新的主要难点是缓慢变化维问题,这也是数据仓库建设和运行中面临的主要问题之一。基于以上背景,本文做了以下工作:
  1,本文对数据仓库变更数据更新问题的2个核心点,即抽取模式问题和缓慢变化维问题进行了分析,给出了每种方法所适合的业务需求环境,使得本文对数据仓库变更数据更新问题的分析具有适用性和灵活性,并给出了数据关联的一种优化方式。
  2,本文对传统的数据仓库变更数据更新算法进行分析后,发现传统算法有着严重的缺陷,例如:算法对数据的利用效率低、数据不能回溯、难以保留历史数据变化信息等等。并以此为依据给出了数据仓库变更数据更新问题的解决方向。
  3,在结合了以上2点的工作后,本文提出了基于Hive的内外表变化筛选日志数据配合拉链表数据更新的算法。该算法首先利用Hive外部表和Hive内部表对数据仓库ODS层中的Binlog日志数据进行以目标表名和时间为分区依据的筛选,从而得到了所需求的时间段的变更数据Binlog日志快照表,进而也就得到了变更数据快照表。然后该算法以之前得到的变更数据快照表为依据,利用Hive拉链表对目标表历史数据进行更新,利用了拉链表算法给予数据生命周期的特性再额外加上数据状态判断字段,这样既保证了对数据的历史变化信息的记录又可以高效的对最新数据进行查找,从而完美的解决了传统算法的不足。
  4,以电子商务团购领域数据为实验数据,对基于Hive的内外表变化筛选日志数据配合拉链表数据更新的算法的3个主要性能点,即数据使用效率、数据安全回溯、记录数据历史信息进行了实际测试,并根据测试结果详细的分析了本文提出的方法同传统的数据仓库变更数据更新方法相比较的优缺点。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号