文摘
英文文摘
论文说明:图表目录
声明
致谢
第一章绪论
1.1搬运系统概述
1.2 Markov决策过程
1.2.1 Markov决策过程概述
1.2.2 Markov决策过程和性能势
1.3强化学习
1.3.1强化学习定义
1.3.2强化学习的主要元素和特点
1.3.3常见强化学习算法
1.4论文组织结构
第二章搬运系统中机器人作业分配问题及其MDP模型
2.1搬运系统物理模型描述
2.2搬运系统作业分配问题的数学模型描述
2.2.1 MDP数学模型
2.2.2搬运系统作业分配问题的MDP模型
2.3 MDP基于性能势的优化方法
2.3.1基于性能势的最优性方程
2.3.2策略迭代算法
2.3.3仿真优化方法
2.4本章小结
第三章机器人作业分配问题基于对等SAP的Q学习
3.1 Q学习
3.1.1 Q学习原理
3.1.2基于性能势的Q学习算法
3.2基于对等SAP的Q学习
3.2.1基本原理
3.2.2对等SAP概念
3.2.3基于对等SAP的Q学习算法
3.2.4实验结果
3.3强化学习与神经元动态规划
3.4基于CMAC和对等SAP的Q学习
3.4.1小脑模型关节控制器(CMAC)结构
3.4.2 CMAC中神经元数目的确定
3.4.3 CMAC的学习算法
3.4.4基于CMAC和对等SAP的Q学习算法
3.4.5实验结果
3.5本章小结
第四章机器人作业分配问题的多Agent Q学习
4.1多Agent系统的研究内容
4.2机器人作业分配问题的多Agent Q学习
4.2.1行动选择
4.2.2报酬函数
4.2.3机器人作业分配问题的多Agent Q学习算法
4.3实验结果
4.4本章小结
第五章总结
参考文献
攻读硕士学位期间主要科研工作和成果