首页> 中文学位 >半马氏环境下的逆向强化学习算法研究

【6h】

半马氏环境下的逆向强化学习算法研究

代理获取

页面导航

目录
著录项
相似文献
相关主题

目录

第一个书签之前

摘要

Abstract

第1章绪论

1.1 课题研究背景和意义

1.1.1 报酬函数的选取与计算

1.1.2 逆向强化学习的环境建模

1.2 国内外研究现状

1.2.1 马氏环境下的逆向强化学习研究

1.2.2 非马氏环境下的逆向强化学习研究

1.2.3 研究综述与分析

1.3 主要研究内容与结构框架

第2章基础知识及仿真实验平台

2.1 基础知识

2.1.1 离散时间马尔可夫决策过程

2.1.2 半马尔可夫决策过程

2.1.3 凸优化问题及求解

2.2 仿真平台介绍

2.2.1 带通道的方格迷宫仿真平台

2.2.2 简易无人车仿真平台

2.3 本章小结

第3章基于SMDP性能灵敏度的逆向强化学习

3.1 SMDP策略性能分析

3.1.1 基于无穷小算子的性能差公式

3.1.2 基于嵌入Markov链的性能差公式

3.2 基于SMDP性能灵敏度的逆强化学习算法

3.2.1 基于无穷小算子的逆向强化学习

3.2.2 基于嵌入Markov链的逆向强化学习

3.2.3 基于SMDP性能灵敏度的逆强化学习算法

3.3 基于带通道方格迷宫的仿真验证

3.4 本章小结

第4章基于特征线性组合的逆向强化学习算法研究

4.1 SMDP学徒逆向强化学习

4.1.1 学徒学习

4.1.2 SMDP学徒逆向强化学习算法

4.1.3 基于带通道方格迷宫的仿真验证

4.1.4 简易无人车平台仿真验证

4.2 基于SMDP策略梯度的逆向强化学习

4.2.1 损失函数与自然梯度

4.2.2 结合策略自然梯度的逆向强化学习算法

4.2.3 基于带通道方格迷宫的仿真验证

4.3 基于最大熵理论的SMDP逆向强化学习

4.3.1 基于轨迹的最大熵模型

4.3.2 基于最大熵的逆向强化学习算法

4.3.3 基于带通道迷宫的仿真验证

4.3.4 简易无人车平台仿真验证

4.4 本章小结

结论

参考文献

攻读硕士学位期间发表的论文及其它成果

哈尔滨工业大学学位论文原创性声明和使用权限

致谢

展开▼

著录项

作者
谭传芳;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科控制科学与工程
授予学位硕士
导师姓名李衍杰;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类概率论与数理统计;数学;
关键词
马氏环境; 逆向; 强化学习;

相似文献

中文文献
外文文献
专利

1. 基于半马氏博弈模型的分层强化学习研究 [J] . 李誌 ,胡坤 ,余雪丽 . 计算机工程与设计 . 2012,第009期
2. 基于强化学习和半马氏过程的供应链优化 [J] . 杨鹏 ,赵辉 ,呼生刚 . 计算机工程与应用 . 2007,第004期
3. 一种针对信息半对称下多方博弈的神经网络强化学习方法 [J] . 段行健 ,曹然 . 通讯世界 . 2021,第003期
4. 单无限马氏环境下可列齐次马氏链的一类强偏差定理 [J] . 石志岩 ,周红 ,丁承军 . 数学杂志 . 2020,第005期
5. 最小熵鞅测度下的半马氏市道轮换利率模型 [J] . 柳向东 ,王星蕊 . 深圳大学学报（理工版） . 2016,第002期
6. 部分感知马氏决策过程的强化学习方法 [C] . 葛屾 ,王巍巍 ,高阳 . 中国人工智能学会第12届全国学术年会 . 2007
7. 平均报酬准则下的逆向强化学习算法研究 [A] . 陶钊榕 . 2013

代理获取

客服邮箱：kefu@zhangqiaokeyan.com

京公网安备：11010802029741号 ICP备案号：京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有

客服微信
服务号