声明
摘要
1 绪论
1.1 研究背景
1.2研究目的和意义
1.3国内外研究现状
1.3.1 Spark负载均衡研究现状
1.3.2 Spark大表等值连接研究现状
1.4本文的结构
2相关技术分析
2.1 云计算相关技术分析
2.2 Spark相关技术分析
2.2.1 Spark总体概述
2.2.2 Spark生态系统组成
2.2.3 Spark集群部署模式介绍
2.2.4 Spark-standalone应用程序执行过程分析
2.2.5 Spark shuffle机制分析
2.3 Spark平台负载均衡分析
2.4 Spark Join分析
2.5智能算法分析
3 Spark负载均衡策略及算法优化研究
3.1 Spark负载均衡策略及存在的问题
3.2负载均衡策略改进
3.3基于遗传-粒子群算法的任务分配问题描述与定义
3.4基于遗传-粒子群算法的任务分配算法设计与改进
3.4.1粒子编码与解码
3.4.2初始化粒子群
3.4.3适应度函数设计
3.4.4粒子交叉-选择操作
3.4.5粒子选择-变异操作
3.5实验验证与结果分析
3.5.1 Matlab仿真实验
3.5.2 Spark集群实验
3.6本章小结
4 Spark大表等值连接算法优化研究
4.1 Spark dojn实例及问题分析
4.2数据过滤算法分析与改进
4.2.1 Bloom Filter算法分析
4.2.2 Split Compressed Bloom Filter算法设计与改进
4.3基于Maxdiff直方图的倾斜数据统计
4.4 Spark大表等值连接算法优化和改进
4.4.1 SCBF数据过滤操作
4.4.2倾斜数据分布统计方法研究
4.4.3 RDD拆分连接和结果合并
4.5实验验证与结果分析
4.5.1实验环境配置
4.5.2对比实验
4.6本章小结
5总结与展望
5.1 研究总结
5.2研究展望
参考文献
后记
攻读学位期间取得的科研成果清单