首页> 中文学位 >基于Spark的缓存优化策略及CNN在列车故障图像中的识别应用
【6h】

基于Spark的缓存优化策略及CNN在列车故障图像中的识别应用

代理获取

目录

展开▼

摘要

随着大数据技术的迅猛发展,全球范围内掀起了大数据技术研究的热潮。车站的货车运行故障动态图像检测系统(TFDS)用于检测货运列车部件状态,使用传统技术难以处理TFDS产生的海量数据,需要使用机器学习等基于迭代计算算法的技术提取海量数据中有价值的信息。而迭代计算任务需要消耗大量的内存空间,当迭代计算任务所需的内存空间不足时,大数据平台需要替换内存中已有的中间结果。目前应用较为广泛的大数据平台有Spark等,Spark默认使用最近最少替换算法(LRU)在处理列车故障图像识别任务时,内存利用率不高,导致列车故障图像识别任务效率低下。  基于以上背景,本文研究大数据平台缓存替换策略,提出了Spark平台中弹性分布式数据集(RDD)计算成本的缓存替换策略,通过优化缓存策略的平台缩短列车故障图像识别模型训练的时间。本文主要的工作如下:  首先,本文根据RDD权重值优化并提出缓存权重替换(CWS)算法。列车图像数据量巨大,Spark默认的LRU缓存替换策略频繁淘汰RDD分区,CWS算法优化了选择策略,并在替换阶段充分考虑了历史访问次数与计算成本。通过使用斯坦福大学提供的公开数据集进行测试,实验结果表明CWS算法在内存充足的条件下处理较小数据的内存占用率要低于其它算法,在内存有限条件下处理数据的时间要少于其它算法。  其次,本文通过卷积神经网络(CNN)方法实现列车故障图像识别,使用TensorFlow机器学习计算库设计模型,提出了多类货运列车(MFT)故障图像识别模型。同时,采用TensorFlowOnSpark技术优化TensorFlow的资源管理并改进其任务调度策略。通过以株洲车辆段货运列车故障图像识别为例进行实验测试,实验结果表明CWS算法能够缩短MFT模型的训练时间并提升Spark平台的资源管理与任务调度性能,MFT模型能够有效地识别货运列车的故障,为设备故障检修提供便利。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号