首页> 中文期刊> 《信息技术》 >基于Spark分布式ETL在海量后勤数据的应用

基于Spark分布式ETL在海量后勤数据的应用

         

摘要

cqvip:在处理某大型企业的海量后勤大数据时,传统的基于MapReduce的ETL技术在数据提取、转换过程中,因为频繁进行磁盘读取的原因,存在数据处理效率不足的问题。考虑到Spark是基于内存操作的计算引擎,不依赖于磁盘操作,对数据的提取、转换效率的提升有一定帮助,因此文中采用了基于Spark的分布式ETL技术来处理这些海量数据,并通过实验进行效率比较。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号