第一个书签之前
摘 要
ABSTRACT
目 录
CONTENTS
第一章 绪 论
1.1研究背景及意义
1.2国内外研究现状
1.3进一步发展需要解决的问题
1.4本文的主要研究工作及章节安排
1.4.1本文的主要研究工作
1.4.2本文的组织结构
第二章 深度强化学习算法概述
2.1引言
2.2相关研究
2.2.1深度卷积神经网络
2.2.2基于值函数的强化学习
2.2.3基于策略的强化学习
2.3深度强化学习
2.4本章小结
第三章 基于值的深度强化学习的移动机器人轨迹跟踪
3.1引言
3.2相关研究
3.2.1深度卷积神经
3.2.2移动机器人动作的探索-利用策略问题
3.2.3经验回放池
3.3.1轨迹跟踪和动态避障运动方向规划数学建模
3.3.2策略的函数逼近器选择
3.3.3卷积神经网络架构设计
3.3.4搜索与利用策略的平衡
3.3.5网络模型的训练
3.3.6基于值的深度强化学习算法伪代码
3.4本章小结
第四章 基于确定性策略梯度深度强化学习的移动机器人轨迹跟踪和动态避障研究
4.1引言
4.2相关研究
4.2.1网络模型稳定性
4.2.2策略搜索
4.2.3策略梯度
4.3基于确定性策略梯度的深度强化学习算法
4.3.1确定性策略梯度方法
4.3.2Acror-Critic框架
4.4卷积神经网络模型架构设计
4.5基于确定性策略梯度的深度强化学习算法
4.6基于确定性策略梯度的深度强化学习算法伪代码
4.7基于网络模型训练流程?
4.8本章小结
第五章 仿真实验结果与对比分析
5.1实验平台描述
5.2环境动力学模型和动作奖惩函数
5.3实验参数设置
5.4网络模型的训练
5.5实验结果
5.5.1仿真实验结果
5.5.2仿真实验结果的分析
5.6本章小结
总结与展望
参考文献
攻读学位期间发表的论文
学位论文独创性声明
学位论文版权使用授权声明
致 谢
广东工业大学;