首页> 中文学位 >基于Hadoop/HBase集群在线分析处理反应调度
【6h】

基于Hadoop/HBase集群在线分析处理反应调度

代理获取

目录

声明

Abstract

摘要

Table of Contents

1 INTRODUCTION

1.1 Online Analytical:From Centralized System to Distributed System

1.1.1 Motivations

1.1.2 Elements of explored solutions

1.2 Issues

1.2.1 Deploy multidimensional data over a cluster

1.2.2 Query a warehouse based on an HBase cluster

1.3 Contributions

1.4 Structure of the thesis

2 STATE OF ART

2.1 Data Warehouse and OLAP

2.1.1 Foundations

2.1.2 Multidimensional model

2.1.3 Functional architecture of an OLAP system

2.1.4 Storage models

2.2 Hadoop Ecosystem

2.2.1 Hadoop Framework

2.3.2 MapReduce

2.3.3 HDFS:The Hadoop Distributed File System

2.3.4 HBASE

2.3 Data warehouse in distributed environment

2.3.1 Fragmentation of Warehouse

2.3.2 Warehouse on distributed database

2.4 Conclusion

3 Multidimensional Data on Distributed Storage

3.1 Use Cases

3.2 Conceptual model for multidimensional data

3.2.1 Schema and Instance of Dimension

3.2.2 Facts and Aggregates

3.2.3 Local Instances of Dimension

3.3.Identification of multidimensional data

3.3.1 Definition and identification of multidimensional chunks

3.3.2 Construction of chunks blocks

3.4 Multidimensional data indexing

3.4.1 Indexes on different aggregation levels

3.4.2 Indexes on chunks block

3.4.3 CCB Index Operations

3.5 Conclusion

4 REACTIVE SCHEDULING POLICY

4.1 Presentation of query processing phases

4.2 Rewriting the client request

4.3 Location useful data for the query

4.4.Queries Scheduling

4.5 Execution plan and optimization of execution

4.6 Queries execution and tasks scheduling

4.6.1 Our Scheduling Policy

4.6.2 Monitoring and updating the status of the execution

4.6.3 Assembly of the result

4.6.4 Scheduling Implementation

4.7 Conclusion

5 PROTOTYPE AND EXPERIMENTATION

5.1 Prototype Architecture

5.1.1.Our data model based on HBase

5.1.2 Presentation of the scheduling engine services for distributed storage

5.2 Prototype implementation

5.2.1 Hadoop/HBase deployment

5.2.2 OLAP Client Interface

5.2.2 Experiments Infrastructure

5.3 Experiments

5.3.1 Test Scenario

5.3.2 Stress Scenario

5.3.3 Results

5.4 Conclusion

6 CONCLUSIONS AND PERSPECTIVES

6.1 Evaluation and contributions

6.1.1 Identification and indexing of data multidimensional

6.1.2 Implementation and Query Optimization

6.1.3 Prototype of services

6.2 Limitation and perspectives

6.2.1 Management and maintenance of distributed data warehouse

6.2.2 Maintenance and adaption of CCB Index structures according to the change of distributed warehouse

6.2.3 Evolution and optimization of query processing method

6.2.4 Design and integration of methods by services architecture

References

PUBLICATION

Acknowledgments

Dedication

展开▼

摘要

数据仓库和OLAP(Online Analytical Processing)系统允许快速访问和整合海量数据进行分析。从这个意义上讲,数据仓库是BI(Business Intelligence)必不可少的工具。尤其是Hadoop/HBase集群为海量数据的处理和存储提供重要的资源。Hadoop是Apache软件基金会开源项目组的一个子项目,它目的是实现一个分布式执行环境。主要目的是实现有效的批处理,尤其别是当他们涉及到庞大的数据量。因此,Hadoop是有效的、可扩展的分布式执行环境,它主要用来处理大数据。因为该系统的通用性,促进了其一领域有专攻的项目尤其是包括数据仓库、BI(商业智能),数据监控或数据持续性等的生态化发展。
  通常存储和管理数据仓库的所有组件都集中在一个服务器上。当它的容量达到限制,解决方案通常是复制存储产品的特性进行处理。在分布式系统的使用上,需要实现并行计算和分布式数据存储。在Hadoop/HBase集群的基础设施上部署仓库,需要用多维模型和OLAP程序去适应和反映数据的分布和聚集过程。
  在设计数据仓库时,多维模型的维度被优先定义为数据分析轴并呈现给用户。维度中实际使用的可能性有维度的概念模型和仓库数据的有效性来决定。数据的可用性和聚合在分布式存储中尤为重要,例如HBASE集群,每个节点存储数据仓库的一个子集。多维模型实体化基于水平片段的预计算聚合表。仓库模型还必须考虑到这样一个事实:HBase也是一个面向字段的数据库多维模型利用水平片段聚合表和HBase数据库面向字段的性质。数据的可用性,特别是在这种争议的分布式数据不是微不足道的。所以本文介绍了一个仓库数据识别的模型和一个用多维块索引数据的方法。在分布式数据仓库搜索可用的数据需要一个明确的数据标识。该模型利用OLAP查询引用数据仓库的数据。这些数据分成块,由于大量的数据块块被定义的概念。这些数据被分为块,同时因为大量数据块被定义。事实上,一个OLAP查询包括选择一个或多个维度的成员或他们的总量和各种措施。识别模型是基于实例的成员的维度。
  这些标识符使用HBase上的表的ROW KEYS来发布他们的数据。多维数据的分布式管理工作主要是基于一种细分的数据仓库的基本单位分配标识符。“块”的概念被用于工作的上下文数据存储在磁盘上的优化和客户端缓存管理的远程数据存储。这些系统使用的“块”大小不同取决于管理磁盘块或查询结果缓存的大小。
  一种索引结构来支持这两个以前的模型是基于块的块和基于长方体晶格索引的索引,并允许本地数据实体化在不同的集群节点上。第一个索引,即Cuboids Index在晶格结构中未定义和区分各级聚集。第二个指标,即块块索引是基于索引的内容块的块。最后,CCB指标是这两个指标的结合。当时的数据搜索查询,该指数提供了可用的物化块没有经常过处理。此外,信息多维模型可以推断出所有可计算的总量。实体化块调度模块做了针对你查询效率的改进
  提出无功调度策略利用批处理模式的维护操作。它还处理在线查询程序和从候选块列表中建立一个优化的执行计划,输出到查询结果中。调度查询有两个主要线路即这些查询请求的执行计划和查询执行。我们的调度称为无功,因为它考虑了不同资源的动态变化。用户将进入到仓库,通过在HBase集群上的一个调度引擎来执行它的查询请求。查询引擎必须允许查询分布式仓库因为它是集中的。给定的计算和存储提供的HBase集群,用户必须迅速接收数据搜索的结果和最复杂的聚合数据。为了满足这些需求,分布式存储系统必须与优化过的OLAP查询机制进行联合,以最大限度地减少用户请求的响应时间。环境和Hadoop/hbase集群的可用性通常是高度动态的,根据不同操作参数(数据、节点、网络)和外部的用户数量等参数。
  我们提出的解决方案如下:首先,执行查询的程序必须有所需的有效数据的信息。然后识别获取查询结果的可能选择。这可以通过数据直接存储在集群获取或通过明细数据的聚合进行获取。从解决方案中选择最低估计响应时间。在本章中,我们定义了在HBase仓库中QUERY程序的不同阶段。我们的调度方法的机制和流程也进行了详细讨论。在本章中,我们充分利用我们的索引结构部署在集群的可用数据提出了在HBase集群仓库中的优化方法和查询的执行方法。
  这个基于模型的基础设施的唯一标识的多维数据块有助于满足查询识别不同的可能的块。因此,从一个典型的OLAP查询用户,我们已经开发出处理的不同阶段,通过搜索可用的块的优化来减少查询的响应时间。优化阶段产生执行计划的操作拆分为任务并行执行。在被加载到集群前,经过最终筛选的这些任务符合处理程序的约束。最后阶段涉及监控查询性能和最终传递给客户机应用程序的结果。整个查询处理对用户是透明的,地址调度引擎与集群中的主节点交互响应这些请求。本文提出了基于分布式HBASE仓库的一种原型设计与服务管理数据设计。这个原型允许我们测试的可行性和性能研究。实现了这一目标实现数据仓库/ETL/OLAP分别利用HDFS/HBase和MapReduce DW/OLAP支持存储和ETL过程。两种类型的工作负载都是由reactive调度管理引擎。关于测试,批处理和实时处理的比较给出了非常满意的答案,证明我们方法的可行性。总之,我们提出本文的工作是一个逐步施工过程的以下元素:
  适应多维模型的多维数据分散,同时数据分布在集群HBase。
  识别多维数据模型的建设。
  引入一个基于模式识别的索引方法,列出了所有物化数据。
  执行查询机制的提议利用多维数据模型由索引访问和并行计算。
  设计一个基于模型和方法的原型服务引入管理数据仓库的HBase集群。因此,为了有更好的性能,可以在以上每个元素提出必要的改进。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号