首页> 中文学位 >分布式平台下多数据集连接优化方法研究
【6h】

分布式平台下多数据集连接优化方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1课题背景

1.2国内外概况

1.3 课题主要研究工作

2 基于分布拟合的开销估算

2.1 单个MapReduce作业的开销估算模型

2.2分布拟合与连接结果集规模估算

2.3开销估算方法

2.4小结

3 多数据集任意连接策略

3.1连接策略概述

3.2连接集合划分

3.3连接子集覆盖

3.4连接方案构造

3.5 小结

4 实验

4.1实验环境

4.2等值连接实验

4.3任意连接实验

4.4小结

5 总结与展望

5.1全文总结

5.2展望

致谢

参考文献

展开▼

摘要

随着信息技术的日益发展,如何处理海量数据成为目前的研究热点。MapReduce分布式计算框架以其处理数据量大、简单易用、可扩展性强等特点成为进行大数据处理时的主要选择之一。但对于数据处理中十分重要且常见的连接操作,MapReduce框架的特点决定了它仅在处理单属性等值连接时有着较好的表现,由于涉及到连接方案选择等问题,其在进行多数据集的任意连接时效率并不高。所以针对MapReduce下的多数据集任意连接优化方法的研究,对于提高大数据处理的效率具有重要的意义。
  完善了现有的开销估算模型,细化了计算、排序、合并等操作以及内存与磁盘间数据交换的开销。并加入了分布拟合操作,能够比较准确地获取待连接数据集的分布形式,从而使得在对数据集的连接结果集规模估算得更加准确。利用该估算模型对数据集连接进行开销估算时获得的估算结果更加精确,进而能够在此基础上制定更加合理高效的连接方案,提升整体的连接效率。
  以开销估算模型为基础,制定了基于连接集合划分与覆盖的多数据集连接方法。方法将一次连接操作看作一个连接集合,首先将整体的连接关系看作连接全集并划分为若干个连接子集,划分过程中运用剪枝策略,减少划分得到的子集数量;之后运用蚁群算法,对划分好的集合进行最优集合覆盖求解,能够覆盖全集的子集就代表着能够将所有数据集连接起来的连接操作;再对得到的集合覆盖结果重复上述操作,直到得到最终的连接方案。集合划分操作保证了连接方案的全面性,带权集合覆盖的求解保证了连接方案的高效性,最终提高了整体的连接效率。
  将进行了优化的连接方法与现有的其他多种连接方法及工具在不同的连接形式下进行对比实验。实验结果表明,设计的连接方法更能适应各种连接条件,性能表现优于其他方法,提升了多数据集任意连接的效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号