首页> 中文学位 >半马氏环境下的逆向强化学习算法研究
【6h】

半马氏环境下的逆向强化学习算法研究

代理获取

目录

第一个书签之前

摘 要

Abstract

第1章 绪 论

1.1 课题研究背景和意义

1.1.1 报酬函数的选取与计算

1.1.2 逆向强化学习的环境建模

1.2 国内外研究现状

1.2.1 马氏环境下的逆向强化学习研究

1.2.2 非马氏环境下的逆向强化学习研究

1.2.3 研究综述与分析

1.3 主要研究内容与结构框架

第2章 基础知识及仿真实验平台

2.1 基础知识

2.1.1 离散时间马尔可夫决策过程

2.1.2 半马尔可夫决策过程

2.1.3 凸优化问题及求解

2.2 仿真平台介绍

2.2.1 带通道的方格迷宫仿真平台

2.2.2 简易无人车仿真平台

2.3 本章小结

第3章 基于SMDP性能灵敏度的逆向强化学习

3.1 SMDP策略性能分析

3.1.1 基于无穷小算子的性能差公式

3.1.2 基于嵌入Markov链的性能差公式

3.2 基于SMDP性能灵敏度的逆强化学习算法

3.2.1 基于无穷小算子的逆向强化学习

3.2.2 基于嵌入Markov链的逆向强化学习

3.2.3 基于SMDP性能灵敏度的逆强化学习算法

3.3 基于带通道方格迷宫的仿真验证

3.4 本章小结

第4章 基于特征线性组合的逆向强化学习算法研究

4.1 SMDP学徒逆向强化学习

4.1.1 学徒学习

4.1.2 SMDP学徒逆向强化学习算法

4.1.3 基于带通道方格迷宫的仿真验证

4.1.4 简易无人车平台仿真验证

4.2 基于SMDP策略梯度的逆向强化学习

4.2.1 损失函数与自然梯度

4.2.2 结合策略自然梯度的逆向强化学习算法

4.2.3 基于带通道方格迷宫的仿真验证

4.3 基于最大熵理论的SMDP逆向强化学习

4.3.1 基于轨迹的最大熵模型

4.3.2 基于最大熵的逆向强化学习算法

4.3.3 基于带通道迷宫的仿真验证

4.3.4 简易无人车平台仿真验证

4.4 本章小结

结 论

参考文献

攻读硕士学位期间发表的论文及其它成果

哈尔滨工业大学学位论文原创性声明和使用权限

致 谢

展开▼

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号