首页> 中文期刊> 《计算机应用与软件》 >基于数据特性的Spark任务性能优化

基于数据特性的Spark任务性能优化

         

摘要

新一代的分布式数据处理框架大大提升了数据处理任务的效率.然而,由于不同数据处理任务需要处理的数据的特性各不相同,因此难以找到一种统一的方法来优化数据处理任务的性能.针对不同的数据集,需要分析其相应的数据特性,才能充分利用内存和计算资源,优化任务执行效率.研究数据倾斜度这一数据特性,提出一种数据倾斜度的量化方法,基于分布式处理框架Spark,通过结合数据采样分析和源代码语义分析的方法,自动判断当前所处理数据集的数据倾斜度与处理代码的适合程度,并基于判断结果提出相应的代码自动优化方案,从而提升任务的运行效率.通过多个数据处理实验,验证了优化后提高数据分析任务效率的效果.%A new generation of distributed data processing framework greatly enhances the efficiency of data processing tasks.However,it is difficult to find a unified way to optimize the performance of data processing tasks due to the characteristics of different data.In order to exploit memory,computing resources and optimize the efficiency of task execution,we need to analyze the corresponding data characteristics.In this paper,we study the data characteristics of data skew,and propose a quantization method of data inclination.Based on the distributed processing framework Spark,we can automatically judge the data skew of the currently processed data set by combining data sampling analysis and source code semantic analysis,based on the results of the corresponding code to automatically optimize the program,so as to enhance the operational efficiency of the task.Through a number of data processing experiments to verify the efficiency of the method.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号