基于RDD非序列化本地存储的Spark存储性能优化

赵俊先; 喻剑

首页> 中文期刊> 《计算机科学》 >基于RDD非序列化本地存储的Spark存储性能优化

基于RDD非序列化本地存储的Spark存储性能优化

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Spark框架被越来越多的企业用作大数据的计算框架,但随着现有服务器的可用内存资源增加,Spark并不能与新环境相匹配.Spark运行在Java虚拟机上,随着堆空间内存被大量使用,Java虚拟机通过回收内存来为新对象提供空间(垃圾回收机制,GC)的时间开销占Spark作业总耗时的比例显著增加,但Spark作业的效率并未随着可用内存的增加而保持一定比例的提升.在使用非堆(本地)内存存储模式后,GC开销问题得以缓解,但缓存数据的序列化开销成为新的矛盾点.文中利用本地存储方式解决GC问题,同时通过减少序列化开销以加快作业速度,提出并修改了Spark的存储结构,改进了RDD的淘汰机制和缓存方式,将去序列化的数据引入到本地内存中,在保持较低的垃圾回收开销的同时,降低了序列化的开销.实验结果表明,与原Spark的堆上存储方式相比,非序列化的本地存储方法在单结点、大内存的服务器上的GC时间缩短到5％～30％,同时,序列化开销显著降低,吞吐量得到提升,作业耗时缩短8％以上.

著录项

来源
《计算机科学》 |2019年第5期|143-149|共7页
作者
赵俊先; 喻剑;
展开▼
作者单位

同济大学计算机科学与技术系上海 201804;

嵌入式系统与服务计算教育部重点实验室(同济大学) 上海201804;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
Spark; 垃圾回收; 序列化; 存储系统; 本地内存;

相似文献

中文文献
外文文献
专利

1. 基于移动终端的本地存储技术与性能优化阐述 [J] . 赵东华 . 卫星电视与宽带多媒体 . 2020,第19期
2. 基于RDD关键度的Spark检查点管理策略 [J] . 英昌甜 ,于炯 ,卞琛 . 计算机研究与发展 . 2017,第012期
3. Spark中一种高效RDD自主缓存替换策略研究 [J] . 魏赟 ,丁宇琛 . 计算机应用研究 . 2020,第010期
4. 基于阵列双活功能的本地存储双活部署方案 [J] . 柏玉锋 . 信息通信 . 2017,第001期
5. 基于Hybrid应用的NoSQL本地存储技术的研究与实现 [J] . 陈淏 ,高守玮 . 工业控制计算机 . 2017,第005期
6. 小小区网络中基于本地存储协作传输策略的增益 [C] . CHEN Bin-qiang ,陈彬强 ,YANG Chen-yang . 第十七届全国信号处理学术年会 . 2015
7. 虚拟机本地存储写性能优化研究 [A] . 李丁丁 . 2013

基于RDD非序列化本地存储的Spark存储性能优化

摘要

著录项

相似文献

相关主题

期刊订阅