首页> 外文期刊>Information Systems >Using intrinsic data skew to improve hash join performance
【24h】

Using intrinsic data skew to improve hash join performance

机译:使用固有数据偏斜来提高哈希联接性能

获取原文
获取原文并翻译 | 示例
       

摘要

Hash join is used to join large, unordered relations and operates independently of the data distributions of the join relations. Real-world data sets are not uniformly distributed and often contain significant skew. Although partition skew has been studied for hash joins, no prior work has examined how exploiting data skew can improve the performance of hash join. In this paper, we present histojoin, a join algorithm that uses histograms to identify data skew and improve join performance. Experimental results show that for skewed data sets histojoin performs significantly fewer I/O operations and is faster by 10-60% than hybrid hash join.
机译:哈希联接用于联接大型无序关系,并且独立于联接关系的数据分布进行操作。现实世界中的数据集分布不均,并且通常存在明显的偏差。尽管已经针对散列连接研究了分区偏斜,但是之前的工作都没有研究利用数据偏斜如何改善散列连接的性能。在本文中,我们介绍了histojoin,这是一种使用直方图来识别数据偏斜并提高联接性能的联接算法。实验结果表明,对于偏斜的数据集,histojoin执行的I / O操作要少得多,并且比混合哈希联接快10-60%。

著录项

  • 来源
    《Information Systems》 |2009年第6期|493-510|共18页
  • 作者

    Bryce Cutt; Ramon Lawrence;

  • 作者单位

    Department of Computer Science, University of British Columbia, Okanagan, 3333 University Way Kelowna, British Columbia, Canada V1V 1V7;

    Department of Computer Science, University of British Columbia, Okanagan, 3333 University Way Kelowna, British Columbia, Canada V1V 1V7;

  • 收录信息 美国《科学引文索引》(SCI);美国《工程索引》(EI);
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

    hybrid hash join; skew; histogram; partition; distribution;

    机译:混合哈希联接;歪斜直方图划分;分配;
  • 入库时间 2022-08-18 02:48:01

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号