MapReduce计算模型下数据倾斜处理方法的研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

“大数据”时代的到来，众多涉及海量数据处理的应用蓬勃涌现，传统的分布式数据库、并行数据库和数据仓库等系统的数据管理和处理技术，由于在可扩展性、高可用性和容错性等方面的限制，已无法适应海量数据的存储和处理。在大规模数据分析和处理中，云计算平台建设都需要数据密集型计算模型的支撑。MapReduce数据密集型计算模型最早由Google提出，主要用于处理和分析大规模数据集，充分利用分布式计算和存储资源，把数据处理和计算任务分配到数以千计的廉价物理节点上，提供海量存储能力和并行计算能力。然而，MapReduce计算模型会在任务执行过程中出现不均衡问题，进而影响任务运行效率。Map任务或Reduce任务应尽量避免发生输入数据倾斜，这将导致某些子任务运行缓慢，严重地影响MapReduce的产能。此外，在数据连接中,当某些数值的出现次数远远髙于其他数值出现的次数时,就会发生数据倾斜问题。
　　本文针对MapReduce计算模型Hash分区策略易引发Reduce阶段输入数据倾斜问题，提出基于Hash虚拟平衡重分区的数据倾斜处理算法 HVBR-SH(Hash Virtual Balance Repartitioning based Skew Handling)。HVBR-SH在Map阶段采用虚拟分区，使得键值对分散存储，为后续重分区提供更优分区组合；在 Reduce阶段，HVBR-SH利用连续虚拟分区平衡重组的方法将收集到的虚拟分区重新划分成与Reduce任务数相同分区，并确保重分区后最大分区的数据量最小，加快整个 Reduce阶段的执行速度。对比实验结果表明，HVBR-SH算法能有效平衡各个Reduce任务的输入规模并控制运行时间，有效改善了Reduce输入倾斜问题，提高了MapReduce任务的执行效率。针对现有MapReduce在大规模集群上进行海量数据连接处理操作时的效率问题，提出一种基于预散列和索引技术的MapReduce数据连接处理机制。该机制对 Map结果数据先进行预散列处理，建立对应对的索引信息，然后根据索引信息计算相同key值数据的连接及处理复杂度，最后基于连接复杂度为 Reducer节点分配任务数据量，实现负载均衡。实验结果显示，提出的MapReduce数据连接处理机制能够有效实现Reducer节点负载均衡，提高数据连接处理操作的效率。

著录项

作者
高宇飞;
展开▼
作者单位

郑州大学;

展开▼
授予单位郑州大学;
学科计算机应用技术
授予学位硕士
导师姓名石磊,陶永才;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
数据管理; 虚拟分区; 数据倾斜; 程序语言;

相似文献

中文文献
外文文献
专利

1. 数据倾斜情况下基于MapReduce模型的连接算法研究 [J] . 金健 ,陈群 ,赵保学 . 计算机与现代化 . 2013,第005期
2. 数据倾斜情况下基于MapReduce的连接算法 [J] . 马清山 ,钟勇 ,王阳 . 计算机应用 . 2018,第0z2期
3. 基于MapReduce的等值连接中数据倾斜问题研究 [J] . 褚龙现 . 电脑知识与技术 . 2016,第032期
4. MapReduce中数据倾斜解决方法的研究 [J] . 王刚 ,李盛恩 . 计算机技术与发展 . 2016,第009期
5. MapReduce计算模型下的化合物LC-MS鉴定 [J] . 黎建辉 ,刘勇 ,王卫华 . 计算机科学与探索 . 2011,第012期
6. 一种针对流水线任务的云计算模型基于MapReduce的改进 [C] . ZHENG Yuhan ,郑宇瀚 ,GUO Yanhui . 2013年中国信息通信研究新进展研讨会暨第五届数字媒体技术专业建设研讨会 . 2013
7. 异构环境下MapReduce数据倾斜和任务调度研究 [A] . 贾孟玉 . 2020

MapReduce计算模型下数据倾斜处理方法的研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅