首页> 中文期刊> 《软件学报》 >一个基于三元组存储的列式OLAP查询执行引擎

一个基于三元组存储的列式OLAP查询执行引擎

         

摘要

大数据与传统的数据仓库技术相结合产生了大数据实时分析处理需要(volume+velocity),它要求大数据背景下的数据仓库不能过多地依赖物化、索引等高存储代价的优化技术,而要提高实时处理能力来应对大数据分析中数据量大、查询分析复杂等特点.这些查询分析操作一般表现为在事实表和维表之间连接操作的基础上对结果集上进行分组聚集等操作.因此,表连接和分组聚集操作是ROLAP(relational OLAP)性能的两个重要决定因素.研究了新硬件平台下针对大规模数据的OLAP查询的性能,设计新的列存储OLAP查询执行引擎CDDTA-MMDB(columnar direct dimensional tuple access-main memory databasequeryexecutionengine,直接维表元组访问的内存数据库查询执行引擎)基于三元组的物化策略,使得CDDTA-MMDB能够减少内存列存储模型上表连接操作访问基表和中间数据结构的次数.首先,CDDTA-MMDB将查询分解为作用在维表和事实表上的子查询,如果只涉及过滤操作,子查询将生成二元组;否则,子查询生成三元组.然后,只需一趟扫描事实表,利用事实表的外键映射函数直接定位相应三元组或者二元组,完成相应的过滤、连接或聚集操作.CDDTA-MMDB充分考虑了内存列存储数据库的设计原则,尽量减少随机内存访问.实验结果表明:CDDTA-MMDB是高效的,与具代表性的列存储数据库相比,比MonetDB 5.5快2.5倍,比C-store的invisible join快5倍;并且,CDDTA-MMDB在多核处理器上具有线性加速比.

著录项

  • 来源
    《软件学报》 |2014年第4期|753-767|共15页
  • 作者单位

    数据工程与知识工程教育部重点实验室(中国人民大学);

    北京 100872;

    中国人民大学信息学院;

    北京 100872;

    数据工程与知识工程教育部重点实验室(中国人民大学);

    北京 100872;

    中国人民大学信息学院;

    北京 100872;

    中国人民大学中国调查与数据中心;

    北京100872;

    数据工程与知识工程教育部重点实验室(中国人民大学);

    北京 100872;

    中国人民大学信息学院;

    北京 100872;

    数据工程与知识工程教育部重点实验室(中国人民大学);

    北京 100872;

    中国人民大学信息学院;

    北京 100872;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 程序设计、软件工程;
  • 关键词

    大数据分析; 联机分析处理; 内存列存储数据库; 表连接算法; 物化策略;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号