首页> 中文期刊>实验技术与管理 >Spark作业性能建模及参数优化

Spark作业性能建模及参数优化

     

摘要

Apache Spark分布式大数据计算框架应用广泛,但是其配置参数繁多导致使用难度较大,且不合理的配置将严重影响作业执行性能,研究Spark参数对性能的影响并进一步对参数进行自动优化具有重要意义.该文分析了 Spark作业中影响系统行为的关键参数,建立了性能模型,并进一步探索了 Spark参数自动优化的方法和策略.通过提取作业执行过程中对性能有影响的参数,对主流的19种回归模型进行了对比测试,获得通用性和拟合效果都比较好的6种回归模型,并针对不同类型的Spark任务在特定集群上建立性能模型,最后依据建立的性能模型在参数空间中利用改进的多起点爬山搜索算法寻找最优的参数组合.实验证明经参数优化后Spark作业性能有较大提升.

著录项

  • 来源
    《实验技术与管理》|2021年第3期|146-152|共7页
  • 作者

    崔晓龙; 张敏; 刘祥; 郭茜;

  • 作者单位

    北京科技大学计算机与通信工程学院 材料领域知识工程北京市重点实验室 北京 100083;

    北京科技大学计算机与通信工程学院 材料领域知识工程北京市重点实验室 北京 100083;

    北京科技大学计算机与通信工程学院 材料领域知识工程北京市重点实验室 北京 100083;

    北京科技大学计算机与通信工程学院 材料领域知识工程北京市重点实验室 北京 100083;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 性能分析、功能分析;
  • 关键词

    Apache Spark; 性能建模; 机器学习; 参数调优; 搜索算法;

  • 入库时间 2022-08-20 06:09:58

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号