基于数据特性的Spark任务性能优化

柴宁; 吴毅坚; 赵文耘

首页> 中文期刊> 《计算机应用与软件》 >基于数据特性的Spark任务性能优化

基于数据特性的Spark任务性能优化

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

新一代的分布式数据处理框架大大提升了数据处理任务的效率.然而,由于不同数据处理任务需要处理的数据的特性各不相同,因此难以找到一种统一的方法来优化数据处理任务的性能.针对不同的数据集,需要分析其相应的数据特性,才能充分利用内存和计算资源,优化任务执行效率.研究数据倾斜度这一数据特性,提出一种数据倾斜度的量化方法,基于分布式处理框架Spark,通过结合数据采样分析和源代码语义分析的方法,自动判断当前所处理数据集的数据倾斜度与处理代码的适合程度,并基于判断结果提出相应的代码自动优化方案,从而提升任务的运行效率.通过多个数据处理实验,验证了优化后提高数据分析任务效率的效果.%A new generation of distributed data processing framework greatly enhances the efficiency of data processing tasks.However,it is difficult to find a unified way to optimize the performance of data processing tasks due to the characteristics of different data.In order to exploit memory,computing resources and optimize the efficiency of task execution,we need to analyze the corresponding data characteristics.In this paper,we study the data characteristics of data skew,and propose a quantization method of data inclination.Based on the distributed processing framework Spark,we can automatically judge the data skew of the currently processed data set by combining data sampling analysis and source code semantic analysis,based on the results of the corresponding code to automatically optimize the program,so as to enhance the operational efficiency of the task.Through a number of data processing experiments to verify the efficiency of the method.

著录项

来源
《计算机应用与软件》 |2018年第1期|52-5884|共8页
作者
柴宁; 吴毅坚; 赵文耘;
展开▼
作者单位

复旦大学软件学院上海201203;

上海市数据科学重点实验室上海200433;

复旦大学软件学院上海201203;

复旦大学计算机科学技术学院上海201203;

上海市数据科学重点实验室上海200433;

复旦大学软件学院上海201203;

复旦大学计算机科学技术学院上海201203;

上海市数据科学重点实验室上海200433;

展开▼
原文格式 PDF
正文语种 chi
中图分类计算技术、计算机技术;
关键词
分布式系统; 大数据; Spark; 数据特性;

相似文献

中文文献
外文文献
专利

1. 基于Spark SQL结构化数据文件的推荐系统性能优化研究 [J] . 胡晶 . 电脑与信息技术 . 2021,第005期
2. 基于运行数据分析的Spark任务参数优化 [J] . 陈侨安 ,李峰 ,曹越 . 计算机工程与科学 . 2016,第001期
3. 基于RDD非序列化本地存储的Spark存储性能优化 [J] . 赵俊先 ,喻剑 . 计算机科学 . 2019,第005期
4. 基于Spark的ItemBased推荐算法性能优化 [J] . 廖彬 ,张陶 ,国冰磊 . 计算机应用 . 2017,第007期
5. 基于内存与文件共享机制的Spark I/O性能优化 [J] . 黄廷辉 ,王玉良 ,汪振 . 计算机工程 . 2017,第003期
6. 基于数据子集的数据访问性能优化 [C] . 宋磊 ,陈虹 ,夏芳 . 2009年全国高性能计算学术年会 . 2009
7. Spark SQL结构化数据处理及性能优化 [A] . 罗昭 . 2019

基于数据特性的Spark任务性能优化

摘要

著录项

相似文献

相关主题

期刊订阅