首页> 中文学位 >基于深度强化学习的紧急订单生产控制方法研究
【6h】

基于深度强化学习的紧急订单生产控制方法研究

代理获取

目录

第一个书签之前

展开▼

摘要

市场中定制化服务已经成为一种普遍需求,“随需应变”的理念得到了企业管理者的高度重视,许多企业也正面临着从传统的大批量生产模式向多品种、小批量的柔性生产模式转型。同时,紧急订单在企业的日常生产中出现频率也越来越高,在给企业带来丰厚利益回报的同时,也会扰乱企业现有的生产作业平衡。而柔性制造系统具备对内部生产变动的良好适应能力,可以在紧急订单发生后实现快速响应,这也加速了传统企业向柔性化生产方式的转型。因此,柔性作业车间环境下的紧急订单生产控制研究对于当前企业更具有实际的指导意义。 随着时代发展,尤其是互联网以及人工智能等计算机新技术的发展,工业界越来越需要机器进行自我认知和自我学习,工厂的管理也逐渐从操作人员的管理向机器数据的管理转变。智能化的生产控制方法应该是在模拟探索和实际实践中,记录经验,并以数据学习来驱动生产决策,从而在实时问题发生后可以快速有效地进行控制。 本文针对柔性作业车间环境下的紧急订单调度问题进行了展开讨论,目前的研究忽略了企业历史调度数据的价值,缺少了对生产控制方法学习能力的考虑,不能有效地满足当前智能制造系统构建的需求。本文结合深度强化学习在智能学习和决策上的优势,在柔性作业车间环境下探究多工件智能体通过探索学习,以总体奖励为强化信号,实现协作生产的可行性,为紧急订单的生产调度问题提供新的智能化求解思路。本文的主要研究工作如下: (1)对智能体的动作探索策略进行了研究,并针对柔性作业车间环境调整了ε贪婪策略和Softmax策略,实现了多智能体在学习过程中对于探索和利用的权衡。 (2)针对简单和复杂柔性作业车间环境下的单工件加工路径的寻优问题,分别使用了深度强化学习中的DQN算法和Actor Critic算法进行求解,将工件智能体在作业车间中的状态和动作进行了编码定义,并针对不同的作业环境设置了相应的奖惩函数,DQN算法使用了经验回放的方式进行更新学习,Actor Critic算法则使用了单步更新的方式。实现了工件智能体通过自学习,掌握加工路径寻优的最佳策略。 (3)在柔性作业车间环境下,针对紧急订单调度问题,设计了区间调度策略。通过调度区间的划分,将紧急订单调度问题转化为传统的柔性作业车间调度问题,并设计了离散动作输出的多智能体Actor Critic方法,以工件平均奖励期望作为强化信号,实现了工件智能体之间的协作生产,充分体现了方法的良好学习能力,即工件智能体可以在不受指导的情况下,通过探索实现彼此的协作生产,为企业的智能生产调度提供了理论基础。

著录项

  • 作者

    刘民毅;

  • 作者单位

    东南大学;

  • 授予单位 东南大学;
  • 学科 机械工程
  • 授予学位 硕士
  • 导师姓名 张远明;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    强化学习; 订单; 生产控制;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号