第一个书签之前
ABSTRACT
1 引言
1.1 课题背景与研究意义
1.2 国内外研究进展
1.2.1 欠驱动无人船及其自动靠泊相关研究
1.2.2 强化学习方法研究现状
1.3 研究动机
1.4 论文主要工作及结构安排
2 强化学习理论基础
2.1 马尔科夫决策过程
2.1.1 MDP基本概念
2.1.2 强化学习问题的目标
2.2 强化学习算法分类
2.3 确定性策略梯度法
2.4 本章小结
3 面向船舶自动靠泊的无模型Actor-Critic强化学习算法
3.1 欠驱动船舶数学模型
3.1.1 欠驱动船舶平面运动学模型
3.1.2 欠驱动船舶平面动力学模型
3.2 基于强化学习的船舶自动靠泊问题描述
3.3 双延迟深度确定策略梯度方法
3.4 欠驱动船舶自动靠泊仿真研究
3.5 本章小结
4 结合模型预测控制的Actor-critic强化学习算法
4.1 模型预测控制简介
4.2 结合模型预测控制与Actor-Critic的强化学习
4.2.1 基于模型预测专家数据生成技术
4.2.2 模型预测深度确定性策略梯度法
4.3 分布失配问题分析
4.4 MP-DDPG算法的两种改进技术
4.4.1 策略随机混合与行为克隆
4.4.2 带有SM与BC的MP-DDPG算法流程
4.5 自动靠泊仿真研究
4.6 本章小结
5 改进的示教强化学习算法
5.1 示教强化学习简介
5.2 自引导Actor-Critic算法
5.2.1 受限最优控制问题与自引导Actor-Critic策略更新
5.2.2 自引导Actor-Critic值函数估计与算法流程
5.3 算法收敛性分析
5.4 自动靠泊仿真研究
5.5 本章小结
6 总结与展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
独创性声明
北京交通大学;