声明
第一章绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.3 本文主要贡献与创新
1.4 本文结构安排
第二章相关理论概述
2.1 引言
2.2 马尔可夫决策过程
2.3 强化学习算法简述
2.4 模仿学习算法简述
2.5 本章小结
第三章基于动态步长与分区奖励的机械臂轨迹规划方法
3.1 引言
3.2 问题描述
3.3 动态步长法
3.4 分区奖励法
3.5 实验分析
3.5.1 实验环境与数据
3.5.2 评判标准与参数设置
3.5.3 实验对比与结果分析
3.5.4 实验结论
3.6 本章小结
第四章基于增广示教的机械臂轨迹规划方法
4.1 引言
4.2 问题描述
4.3.1 轨迹示教
4.3.2 增广学习
4.4.1 实验环境与数据
4.4.2 评判标准与参数设置
4.4.3 实验对比与结果分析
4.4.4 实验结论
4.5 本章小结
第五章仿真平台构建与泛化能力评估
5.1 引言
5.2 仿真平台构建
5.3 泛化能力评估
5.4 实验分析
5.4.1 实验环境与数据
5.4.2 评判标准与参数设置
5.4.3 实验对比与结果分析
5.4.4 实验结论
5.5 本章小结
第六章总结与展望
6.1 全文总结
6.2 展望未来
致 谢
参考文献
攻读硕士学位期间取得的成果
电子科技大学;