首页> 中文学位 >分布式数据处理系统中作业性能优化关键技术研究
【6h】

分布式数据处理系统中作业性能优化关键技术研究

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 本论文的主要贡献

1.4 论文的组织结构

2 MapReduce中配置参数的重要性分析

2.1 MapReduce介绍

2.2 Hadoop生态系统

2.3 Hadoop计算平台架构

2.4分布式文件存储HDFS

2.5 MapReduce配置参数分析

2.6 本章小结

3 基于核函数惩罚的聚类特征选择

3.1 引言

3.2 数据降维

3.3 特征选择和特征提取研究现状

3.4 聚类

3.5 核K-means(kernel K-means)聚类

3.6 聚类初始中心点的改进

3.7 基于核函数惩罚的聚类特征选择

3.8实验及分析

3.9 本章小结

4 MapReduce数据本地化优化研究

4.1 引言

4.2 数据本地化(Data Locality)

4.3 副本置放

4.4 数据本地化优化算法

4.5 实验及分析

4.6 本章小结

5 MapReduce任务调度优化研究

5.1 引言

5.2 Hadoop任务调度流程

5.3 Hadoop平台中现有的调度策略分析

5.4 任务调度中作业执行时间的不确定性

5.5 满足作业时间需求和资源优化的任务调度算法

5.6 实验及分析

5.7 本章小节

6 总结与展望

6.1 研究总结

6.2 未来展望

致谢

参考文献

附录

A. 作者在攻读学位期间发表的论文目录

B. 作者在攻读学位期间参加的科研项目

展开▼

摘要

随着各行业中数据规模地增长,分布式数据处理技术被广泛应用于各行业数据分析中。MapReduce具有使用方便、易于编程、容错性强和高性价比等优势,目前已经成为主流的分布式处理模型,并在各行业的大规模数据分析中得到了广泛的应用。然而随着数据处理需求的不断增长,MapReduce自身存在的一些缺陷也逐渐显露,最常见的缺陷包括:MapReduce中较多的配置参数、不完善的任务调度策略、数据本地化有效性低和资源槽分配不合理等。这些不足导致MapReduce作业执行效率低下。MapReduce作业性能调优是通过优化MapReduce中各方面的不足来改善MapReduce作业性能,使得作业在MapReduce中的执行时间大大降低,因此,MapReduce作业性能优化的研究具有重要的科学意义和应用价值。
  本文针对MapReduce作业性能优化的若干关键问题进行研究。在总结作业性能优化相关研究成果的基础上,建立了I/O代价函数来阐述配置参数对作业执行时间的重要性;提出了通过特征选择的方法来选择影响作业执行时间的重要参数,同时通过优化数据本地化、数据副本置放策略和任务调度的方法来改善作业执行时间。
  本文的研究内容和创新点具体包含以下几个方面:
  ①通过建立I/O读写字节数和I/O请求数目函数证明了存在部分配置参数会直接影响MapReduce作业的执行时间。并验证了各配置参数对MapReduce作业执行时间的影响程度不同。
  ②提出了基于核函数惩罚的聚类特征选择算法( IK-means),解决了MapReduce中因配置参数过多而使得平台管理人员配置困难的问题。在IK-means中,为了准确地判断各特征参数的影响程度,采用各向异性高斯核函数代替了传统的高斯核函数,通过各向异性高斯核函数不同方向的参数(也被称为核宽)来反映每个特征的重要程度。提出利用梯度下降算法来最小化各向异性高斯核的核宽向量,使得所选择的特征进行聚类的效果能最接近原始特征的聚类效果,从而达到特征选择的目的。针对聚类特征选择算法对初始点选择敏感的问题,提出了全局感知的局部密度初始点选择算法。通过理论证明和实验结果表明,本文提出的特征选择算法在配置参数的选择中具有良好的效果。
  ③提出了基于二部图最小权匹配的数据本地化算法,解决了MapReduce中同时满足多任务数据本地化的问题,同时提出了动态副本自适应算法,通过热数据的识别解决了动态副本置放技术中的如何确定备份副本的问题。理论论证和实验结果表明动态自适应副本算法有效地支撑了二部图最小权匹配算法,并改善了多任务数据本地化的有效性。
  ④提出了满足用户时间需求和资源优化的任务调度算法,利用历史作业描述文件中的时间和资源消耗信息对新作业执行时间和槽资源的消耗进行计算,不仅达到了满足用户时间需求的目的,还解决了MapReduce作业运行过程中资源消耗过高的问题。算法的有效性不仅从作业执行过程的理论分析得到了验证,且实验结果也验证了该算法的在作业执行时间和槽资源消耗的优势1。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号