首页> 中文学位 >基于新型计算架构的大规模数据连接查询优化
【6h】

基于新型计算架构的大规模数据连接查询优化

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

§ 1.1 研究背景与研究意义

§ 1.2 国内外研究现状

§ 1.3 研究内容

§ 1.4 本文组织结构

§ 1.5 本章小结

第二章 关键技术与理论

§2.1 Hadoop分布式文件系统

§2.2 MapReduce编程模型

§ 2.3 连接查询

§ 2.4 本章小结

第三章 基于传统MapReduce的连接查询算法对比研究

§ 3.1 基于传统MapReduce的连接查询算法

§ 3.2 算法性能分析

§ 3.3 本章小结

第四章 非均匀数据分布下的MapReduc e连接查询算法优化

§ 4.1 数据分布不均匀时SHJQ算法性能分析

§ 4.2 基于组合分割平衡分区优化策略的连接查询算法

§ 4.3算法性能分析

§ 4.4 本章小结

第五章 融合多核和MapReduc e的连接查询算法优化

§5.1 SHJQ算法的CPU使用效率分析

§ 5.2 基于传统MapReduce的Map端多线程连接查询算法

§ 5.3 基于无竞争读取输入分片优化策略的Map端多线程连接查询算法

§ 5.4 算法性能分析

§ 5.5 本章小结

第六章 总结与展望

§ 6.1总结

§ 6.2展望

参考文献

致谢

作者攻读硕士学位期间发表论文和科研情况

展开▼

摘要

大规模数据分析的性能提升是大数据服务领域的核心挑战之一,连接查询作为关系型数据库和大规模数据分析中的一个基础操作算子,其性能改进将对大规模数据分析工作产生重要影响。MapReduce是面向大数规模据处理的新型分布式计算架构,因其高可扩展性和高可用性等优势而逐渐成为当前主流的大规模数据处理模型。因此,基于MapReduce计算架构连接查询操作的性能优化研究,对大规模数据分析工作具有非常重要的研究意义和应用价值。 分布式计算模式是大规模数据处理的自然思路,但面对不同数据特征以及新型硬件架构时,借助于MapReduce计算框架的连接查询操作仍具有较大的性能提升空间。首先,不均匀的数据分布会导致MapReduce计算框架在执行连接查询操作时各计算节点间负载不平衡,降低连接查询操作的性能,影响大规模数据分析的效率。其次,多核处理器已成为目前集群环境的标配,其强大线程级并行计算能力并没有被MapReduce计算框架较好地融合,这也为大规模数据连接查询操作提供了进一步地优化空间。本文聚焦于研究借助MapReduce计算框架连接查询算法的性能优化,从降低非均匀数据分布对算法性能的影响和融合多核处理器微观并行计算能力这两个角度出发,深度挖掘计算平台潜力,提升连接查询操作性能,进而为大规模数据分析提供操作算子级的优化解决方案。 针对上述需求,本文主要研究内容和成果如下: 首先,综述传统MapReduce计算框架下的多种典型连接查询算法,并对其进行实验分析与研究。基于课题组的实验平台,实现了传统MapReduce计算框架下的多种典型连接查询算法,同时从多个角度在统一数据集下对各算法的性能进行对比与分析。大量实验结果表明,改进重分区连接查询算法在众多借助传统MapReduce计算框架的连接查询算法中具有较好的时间性能和稳定性。 其次,为了解决不均匀数据分布引发计算节点间负载不平衡的问题,设计并实现了组合分割平衡分区优化策略,形成了基于组合分割平衡分区优化策略的改进型连接查询算法。该算法针对传统MapReduce计算框架下改进重分区连接查询算法在数据分布不均匀时多个计算节点间负载不平衡的不足,提出对不严重或不倾斜分组采用组合分区、严重倾斜分组采用分割分区的优化策略。实验结果表明,提出的组合分割平衡分区优化策略很好地解除了数据分布不均匀对 MapReduce计算框架下连接查询算法效率的影响,具有较好的时间性能和可扩展性。 最后,针对多核处理架构提供的微观并行计算能力,设计和实现了无竞争读取输入分片优化策略,形成了基于无竞争读取输入分片优化策略的改进型Map端多线程连接查询算法。该算法为了解决传统MapReduce计算框架下改进重分区连接查询算法无法充分发挥多核处理器的性能优势以及传统MapReduce计算框架下Map端多线程改进重分区连接查询算法时间性能低下的问题,提出Map阶段数据分片等划分、多线程无竞争读取输入分片的优化策略。实验结果表明,提出的无竞争读取输入分片优化策略,充分利用了多核处理器线程级并行计算能力,提高了MapReduce框架下连接查询算法的效率,具有好的时间性能和可扩展性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号