首页> 外文OA文献 >Index-based Join Operations in Hive
【2h】

Index-based Join Operations in Hive

机译:Hive中基于索引的联接操作

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

ABSTRACTudINDEX-BASED JOIN OPERATIONS IN HIVE udMAHSA MOFIDPOORudThe exponential growth of data being generated, manipulated, analyzed, and archived nowadays introduces new challenges and opportunities for dealing with the so called big data. Hive is a batch-oriented big data software, well suited for query processing and data analysis. Originally developed by Facebook in 2009 and now under the Apache Software Foundation, Hive is gaining popularity for its SQL like query language HiveQL and for supporting majority of the SQL operations in relational database management systems (RDBMS). Being the expensive operation in RDBMS, join has been the focus of many query optimization techniques to improve performance of database systems. We investigate such techniques for join operations in Hive and develop an index-based join algorithm for queries in HiveQL. When a query requires only a small subset of data selected by a predicate in the WHERE clause, the brute-force method which scans the entire tables results in poor performance for redundant disk I/Os, and irrelevant maps initiation in case the query is issued using the mapreduce. udIn this work, we implement the proposed index-based technique and integrate it in Hive. To add our extension, we obtain Hive architecture details by reverse engineering the code and map our design to the conceptual optimization flow.To evaluate the performance, after setting up the environment, we run relevant test queries on datasets generated using the industry standard benchmark, TPC-H. Our results indicate significant performance gain over relatively large data or highly selective queries.ud
机译:HIVE udMAHSA MOFIDPOOR ud中基于抽象 udINDEX的联接操作如今,生成,处理,分析和归档的数据呈指数级增长,为处理所谓的大数据带来了新的挑战和机遇。 Hive是面向批处理的大数据软件,非常适合查询处理和数据分析。 Hive最初由Facebook于2009年开发,现在由Apache Software Foundation掌管,由于其类似查询语言的SQL HiveQL和支持关系数据库管理系统(RDBMS)中的大多数SQL操作而受到欢迎。作为RDBMS中昂贵的操作,联接已成为许多查询优化技术的重点,以提高数据库系统的性能。我们研究了Hive中用于联接操作的此类技术,并为HiveQL中的查询开发了基于索引的联接算法。当查询仅需要由WHERE子句中的谓词选择的一小部分数据时,扫描整个表的蛮力方法会导致冗余磁盘I / O的性能下降,并且在发出查询的情况下不相关的映射启动使用mapreduce。 ud在这项工作中,我们实现了建议的基于索引的技术并将其集成到Hive中。要添加扩展,我们需要通过对代码进行逆向工程来获取Hive架构细节,并将我们的设计映射到概念性优化流程。要评估性能,请在设置环境后对使用行业标准基准测试生成的数据集进行相关的测试查询, TPC-H。我们的结果表明,相对较大的数据或高度选择性的查询,性能显着提高。 ud

著录项

  • 作者

    Mofidpoor Mahsa;

  • 作者单位
  • 年度 2013
  • 总页数
  • 原文格式 PDF
  • 正文语种 en
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号