首页> 中文学位 >Spark负载均衡及大表等值连接优化研究
【6h】

Spark负载均衡及大表等值连接优化研究

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景

1.2研究目的和意义

1.3国内外研究现状

1.3.1 Spark负载均衡研究现状

1.3.2 Spark大表等值连接研究现状

1.4本文的结构

2相关技术分析

2.1 云计算相关技术分析

2.2 Spark相关技术分析

2.2.1 Spark总体概述

2.2.2 Spark生态系统组成

2.2.3 Spark集群部署模式介绍

2.2.4 Spark-standalone应用程序执行过程分析

2.2.5 Spark shuffle机制分析

2.3 Spark平台负载均衡分析

2.4 Spark Join分析

2.5智能算法分析

3 Spark负载均衡策略及算法优化研究

3.1 Spark负载均衡策略及存在的问题

3.2负载均衡策略改进

3.3基于遗传-粒子群算法的任务分配问题描述与定义

3.4基于遗传-粒子群算法的任务分配算法设计与改进

3.4.1粒子编码与解码

3.4.2初始化粒子群

3.4.3适应度函数设计

3.4.4粒子交叉-选择操作

3.4.5粒子选择-变异操作

3.5实验验证与结果分析

3.5.1 Matlab仿真实验

3.5.2 Spark集群实验

3.6本章小结

4 Spark大表等值连接算法优化研究

4.1 Spark dojn实例及问题分析

4.2数据过滤算法分析与改进

4.2.1 Bloom Filter算法分析

4.2.2 Split Compressed Bloom Filter算法设计与改进

4.3基于Maxdiff直方图的倾斜数据统计

4.4 Spark大表等值连接算法优化和改进

4.4.1 SCBF数据过滤操作

4.4.2倾斜数据分布统计方法研究

4.4.3 RDD拆分连接和结果合并

4.5实验验证与结果分析

4.5.1实验环境配置

4.5.2对比实验

4.6本章小结

5总结与展望

5.1 研究总结

5.2研究展望

参考文献

后记

攻读学位期间取得的科研成果清单

展开▼

摘要

Spark是目前主流的大数据处理计算框架之一,具有快速的数据处理能力,且易于使用,但也存在一些问题有待改进,如在Spark上运行程序时可能出现各计算节点任务负载不均衡的状况,在Spark上进行两个大数据表的关联操作时效率较低,网络通信开销过高等。因此,本文分析和研究了Spark平台的负载均衡策略和大表等值连接方法,并分别对其进行了优化和改进,以提高集群处理数据的性能和效率。主要内容包括: (1)Spark负载均衡策略及算法优化研究 针对Spark集群负载均衡策略忽略各节点的计算能力和资源使用情况差异而造成的负载不均衡的情况,本文提出了一种优化的Spark负载均衡策略,该策略对不同Stage的task实施不同的任务执行节点分配方法:对于包含RDD源头的Stage,本文设计并提出了一种基于遗传-粒子群的任务执行节点分配算法(GA-PSO);对于非源头Stage,在任务分配过程中,通过Narrow dep的祖先Stage确定最佳执行位置。实验结果表明,与Spark自带的负载均衡策略相比,改进后的负载均衡策略在负载偏差度和任务完成时间方面均实现了明显提升。 (2)Spark大表等值连接优化研究 针对Spark处理大表等值连接时网络传输开销较大的问题,本文提出了一种Spark大表等值连接优化方法。该方法首先提出了一种适用于对数据量未知的数据集进行过滤操作的Split Compressed Bloom Filter算法(SCBF),然后采用Maxdiff直方图对待连接数据表的数据分布进行统计分析,获取数据集中的倾斜数据,并根据其统计结果对RDD进行拆分处理,最后采用合适的连接算法对数据集进行连接操作,子结果合并得到最终结果。实验结果表明,本文提出的Spark大表等值连接优化方法与Spark原有方法相比在shuffle阶段数据读写量和任务运行时间方面均具有明显优势。 最后分别将上述两个算法在自行搭建的Spark集群实验环境下进行验证。通过多次实验对比改进前后的算法性能。实验结果表明,两个改进后的算法分别提高了Spark集群的负载均衡性能和大表等值连接的效率,均缩短了Spark集群上任务执行的时间,提高了Spark集群的资源利用率。

著录项

  • 作者

    张璐;

  • 作者单位

    河北经贸大学;

  • 授予单位 河北经贸大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 王素贞;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 汽车工程;
  • 关键词

    Spark; 负载均衡; 等值连接;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号