首页> 中文学位 >Actor-Critic强化学习方法及在船舶自动靠泊中的应用
【6h】

Actor-Critic强化学习方法及在船舶自动靠泊中的应用

代理获取

目录

第一个书签之前

ABSTRACT

1 引言

1.1 课题背景与研究意义

1.2 国内外研究进展

1.2.1 欠驱动无人船及其自动靠泊相关研究

1.2.2 强化学习方法研究现状

1.3 研究动机

1.4 论文主要工作及结构安排

2 强化学习理论基础

2.1 马尔科夫决策过程

2.1.1 MDP基本概念

2.1.2 强化学习问题的目标

2.2 强化学习算法分类

2.3 确定性策略梯度法

2.4 本章小结

3 面向船舶自动靠泊的无模型Actor-Critic强化学习算法

3.1 欠驱动船舶数学模型

3.1.1 欠驱动船舶平面运动学模型

3.1.2 欠驱动船舶平面动力学模型

3.2 基于强化学习的船舶自动靠泊问题描述

3.3 双延迟深度确定策略梯度方法

3.4 欠驱动船舶自动靠泊仿真研究

3.5 本章小结

4 结合模型预测控制的Actor-critic强化学习算法

4.1 模型预测控制简介

4.2 结合模型预测控制与Actor-Critic的强化学习

4.2.1 基于模型预测专家数据生成技术

4.2.2 模型预测深度确定性策略梯度法

4.3 分布失配问题分析

4.4 MP-DDPG算法的两种改进技术

4.4.1 策略随机混合与行为克隆

4.4.2 带有SM与BC的MP-DDPG算法流程

4.5 自动靠泊仿真研究

4.6 本章小结

5 改进的示教强化学习算法

5.1 示教强化学习简介

5.2 自引导Actor-Critic算法

5.2.1 受限最优控制问题与自引导Actor-Critic策略更新

5.2.2 自引导Actor-Critic值函数估计与算法流程

5.3 算法收敛性分析

5.4 自动靠泊仿真研究

5.5 本章小结

6 总结与展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

独创性声明

展开▼

著录项

  • 作者

    张皓然;

  • 作者单位

    北京交通大学;

  • 授予单位 北京交通大学;
  • 学科 控制理论与控制工程
  • 授予学位 硕士
  • 导师姓名 殷辰堃;
  • 年度 2021
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 TP3TP1;
  • 关键词

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号