面向海量数据的分布式OLAP引擎的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

大数据时代越来越多的数据由Hadoop进行管理，而现存的BI工具对Hadoop支持的矛盾日益突出，传统的OLAP引擎不能承载指数级增长的数据量，用户不能忍受高度的延迟，另一方面，采用Hadoop作为交互处理平台，又受限于没有成熟的SQL接口和完备的在线分析处理能力，于是，本文提出了一个面向海量数据的分布式OLAP引擎。
　　本文首先从传统的OLAP引擎研究开始，源码剖析开源OLAP引擎框架Mondrian，从而了解OLAP的引擎的实现原理和机制，特别是传统OLAP引擎的物化视图和重写等优化机制，进而在大数据的背景下，抛出传统OLAP引擎的不足和挑战，从而提出应对海量数据的策略，阐述构建本文的OLAP引擎所采用的分布式特性，如Paxos算法，HBase协处理器等技术。其主要思想是用空间换时间，通过充分利用横向扩展和分布式的集群架构，尽可能的考虑所有可能的数据查询情况，预先计算和预先构建从关系型的星型模式的数据，并且转换物化为存储在HBase中的键值对数据。其次，研究和分析了本文OLAP系统在distinct count函数所使用的海量数据的基数估计算法HyperLogLogCounting，从均值和方差两个方面说明其无偏性与一致性，并比较了HyperLogLog与HyperLogLog++的差别。之后，提出本文OLAP引擎的整体架构和组件设计，在此基础上，描述了逻辑数据立方体模型的设计，Cube构建过程，ETL的过程，查询引擎的构建方法和优化方案。另外，针对各个组件的设计，阐述了查询引擎，前端RESTful服务器，以及存储引擎，数据字典编码子系统，作业引擎等方面的具体实现，特别总结了REST风格的优势和特点，描述了编码子系统采用的Trie树结构的相关操作，并证明了算法复杂度。
　　文章最后，展示了本文提出的面向海量数据的分布式OLAP引擎的实际应用，通过前端AngularJS和后端Nodejs技术，架起OLAP引擎的应用原型，提供基本SQL语句的查询UI接口，之后，比较了传统的OLAP引擎和本文OLAP引擎的相同点和不同点，对本文的OLAP引擎做了基于TPC-H的性能实验，验证其达到性能需求。

著录项

作者
魏剑龙;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科软件工程
授予学位硕士
导师姓名姜琳颖,李长山;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
联机分析处理引擎; 分布式处理; 海量数据;

相似文献

中文文献
外文文献
专利

1. 面向OLAP的高效海量数据存储技术研究与实现 [J] . 韩毅 ,韩伟红 ,杨树强 . 微电子学与计算机 . 2006,第z1期
2. 海量数据分布式处理的研究与实现 [J] . 李俊茹 ,杨国林 . 电脑开发与应用 . 2009,第006期
3. 面向海量数据的并行UNION查询技术研究与实现 [J] . 王佳 ,杨树强 ,贾焰 . 微电子学与计算机 . 2006,第10期
4. 面向海量数据的分布式用户态文件系统研究与设计 [J] . 龚恒 ,李小勇 . 通信技术 . 2020,第002期
5. 面向海量数据的分布式信息管理平台研究 [J] . 肖祥 . 西安文理学院学报（自然科学版） . 2018,第004期
6. 面向OLAP的高效海量数据存储技术研究与实现 [C] . 韩毅 ,韩伟红 ,杨树强 . 2006年全国开放式分布与并行计算学术会议 . 2006
7. 面向OLAP的大规模分布式内存列式数据库查询引擎 [A] . 王瑾 . 2017

面向海量数据的分布式OLAP引擎的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅