首页> 中文学位 >面向海量数据的分布式OLAP引擎的研究与实现
【6h】

面向海量数据的分布式OLAP引擎的研究与实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 论文的研究背景和意义

1.2 国内外研究现状

1.3 本文研究的主要内容

1.4 论文的组织结构

第2章 相关技术

2.1 数据仓库与OLAP

2.2 Mondrian相关技术

2.3 Hadoop相关技术

2.3.1 MapReduce

2.3.2 Hive

2.3.3 HBase

2.4 海量数据基数估计算法

2.5 本章小结

第3章 OLAP引擎的研究

3.1 Mondrian源码剖析

3.2 传统OLAP引擎的不足和挑战

3.3 传统OLAP引擎优化技术的分析

3.4 应对海量数据构建分布式OLAP引擎的策略

3.5 面向海量数据的OLAP引擎采用的分布式架构特性

3.6 本章小结

第4章 OLAP引擎的设计

4.1 整体架构和组件设计

4.2 公共基础设施

4.3 逻辑数据立方体模型

4.4 数据立方体的构建过程和方法

4.5 抽取转换加载的过程

4.6 查询引擎的构建方法

4.7 优化方案

4.8 本章小结

第5章 OLAP引擎的实现

5.1 查询引擎

5.2 前端RESTful服务器

5.3 存储引擎

5.5 作业引擎

5.6 其他细节

5.7 本章小结

第6章 OLAP引擎的应用与性能实验

6.1 面向海量数据的分布式OLAP引擎的应用效果

6.2 面向海量数据的分布式OLAP引擎的性能

6.3 本章小结

第7章 总结与展望

7.1 总结

7.2 展望

参考文献

致谢

展开▼

摘要

大数据时代越来越多的数据由Hadoop进行管理,而现存的BI工具对Hadoop支持的矛盾日益突出,传统的OLAP引擎不能承载指数级增长的数据量,用户不能忍受高度的延迟,另一方面,采用Hadoop作为交互处理平台,又受限于没有成熟的SQL接口和完备的在线分析处理能力,于是,本文提出了一个面向海量数据的分布式OLAP引擎。
  本文首先从传统的OLAP引擎研究开始,源码剖析开源OLAP引擎框架Mondrian,从而了解OLAP的引擎的实现原理和机制,特别是传统OLAP引擎的物化视图和重写等优化机制,进而在大数据的背景下,抛出传统OLAP引擎的不足和挑战,从而提出应对海量数据的策略,阐述构建本文的OLAP引擎所采用的分布式特性,如Paxos算法,HBase协处理器等技术。其主要思想是用空间换时间,通过充分利用横向扩展和分布式的集群架构,尽可能的考虑所有可能的数据查询情况,预先计算和预先构建从关系型的星型模式的数据,并且转换物化为存储在HBase中的键值对数据。其次,研究和分析了本文OLAP系统在distinct count函数所使用的海量数据的基数估计算法HyperLogLogCounting,从均值和方差两个方面说明其无偏性与一致性,并比较了HyperLogLog与HyperLogLog++的差别。之后,提出本文OLAP引擎的整体架构和组件设计,在此基础上,描述了逻辑数据立方体模型的设计,Cube构建过程,ETL的过程,查询引擎的构建方法和优化方案。另外,针对各个组件的设计,阐述了查询引擎,前端RESTful服务器,以及存储引擎,数据字典编码子系统,作业引擎等方面的具体实现,特别总结了REST风格的优势和特点,描述了编码子系统采用的Trie树结构的相关操作,并证明了算法复杂度。
  文章最后,展示了本文提出的面向海量数据的分布式OLAP引擎的实际应用,通过前端AngularJS和后端Nodejs技术,架起OLAP引擎的应用原型,提供基本SQL语句的查询UI接口,之后,比较了传统的OLAP引擎和本文OLAP引擎的相同点和不同点,对本文的OLAP引擎做了基于TPC-H的性能实验,验证其达到性能需求。

著录项

  • 作者

    魏剑龙;

  • 作者单位

    东北大学;

  • 授予单位 东北大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 姜琳颖,李长山;
  • 年度 2015
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    联机分析处理引擎; 分布式处理; 海量数据;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号