首页> 中文学位 >多机器人搬运系统的作业分配研究
【6h】

多机器人搬运系统的作业分配研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

致谢

第一章绪论

1.1搬运系统概述

1.2 Markov决策过程

1.2.1 Markov决策过程概述

1.2.2 Markov决策过程和性能势

1.3强化学习

1.3.1强化学习定义

1.3.2强化学习的主要元素和特点

1.3.3常见强化学习算法

1.4论文组织结构

第二章搬运系统中机器人作业分配问题及其MDP模型

2.1搬运系统物理模型描述

2.2搬运系统作业分配问题的数学模型描述

2.2.1 MDP数学模型

2.2.2搬运系统作业分配问题的MDP模型

2.3 MDP基于性能势的优化方法

2.3.1基于性能势的最优性方程

2.3.2策略迭代算法

2.3.3仿真优化方法

2.4本章小结

第三章机器人作业分配问题基于对等SAP的Q学习

3.1 Q学习

3.1.1 Q学习原理

3.1.2基于性能势的Q学习算法

3.2基于对等SAP的Q学习

3.2.1基本原理

3.2.2对等SAP概念

3.2.3基于对等SAP的Q学习算法

3.2.4实验结果

3.3强化学习与神经元动态规划

3.4基于CMAC和对等SAP的Q学习

3.4.1小脑模型关节控制器(CMAC)结构

3.4.2 CMAC中神经元数目的确定

3.4.3 CMAC的学习算法

3.4.4基于CMAC和对等SAP的Q学习算法

3.4.5实验结果

3.5本章小结

第四章机器人作业分配问题的多Agent Q学习

4.1多Agent系统的研究内容

4.2机器人作业分配问题的多Agent Q学习

4.2.1行动选择

4.2.2报酬函数

4.2.3机器人作业分配问题的多Agent Q学习算法

4.3实验结果

4.4本章小结

第五章总结

参考文献

攻读硕士学位期间主要科研工作和成果

展开▼

摘要

在某些现代化物流和生产加工等环境中,存在一种具有多个智能机器人(或手臂)协同工作的搬运系统。机器人连续和高速的运转会导致其传动装置过热疲劳,发生故障甚至烧毁。因此,如何对搬运系统中的机器人进行合理的作业分配,避免单个机器人的过度疲劳,从而提高系统的工作效率、稳定性及安全性,是一个重要研究课题。通常此类作业分配问题可建模为离散事件动态系统(DEDS)领域内较为普遍的Markov决策过程(MDP)来研究。 论文根据系统特点,首先建立了两机器人搬运系统作业分配的MDP模型。理论上,其优化问题可通过数值迭代或策略迭代等理论计算方法来求解。但是,由于系统的状态混杂性(hybrid),且状态空间巨大,理论计算方法需进行大量的矩阵运算,实际中往往不可行。因此,论文重点研究运用强化学习方法来解决这一困难。 一方面,论文在性能势理论框架下,以Q学习为基础,研究了两机器人搬运系统的作业分配问题。通过对搬运系统模型特征的分析,提出对等状态一行动对(SAP)的概念。另外,考虑到机器人发热量为一连续状态变量,文中采用小脑模型关节控制器(CMAC)神经网络作为Q值函数的逼近器,设计了一种基于CMAC和对等SAP的Q学习算法。实验结果表明,此方法不仅克服了一般Q学习算法不能用于具有连续状态变量的系统优化问题的缺点,而且在一定程度上缓解了“维数灾”问题,并提高了学习系统的优化性能。 另一方面,论文根据机器人的功能和任务均相同这一特性,运用性能势概念,设计了一种适于折扣或平均准则的多Agent Q学习算法。讨论了多Agent系统中强化学习的几个关键问题,如行动选择、报酬函数定义及Agent的信息交互等。最后,运用仿真例子验证了该算法在解决这种对等Agent系统的学习问题时的有效性,仿真结果也说明,适当的学习交互能提高算法的学习效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号