文摘
英文文摘
第一章绪论
1.1研究背景
1.2部分可客观Markov决策过程
1.3大规模POMDP求解及其难点
1.4本文目的和主要工作
1.5本文的章节安排
第二章相关工作综述
2.1 Markov决策过程
2.2求解Markov决策过程
2.2.1 MDP的值迭代过程
2.3部分可观察Markov决策过程
2.4求解部分可观察Markov决策过程
2.4.1 POMDP值迭代
2.4.2 POMDP的策略执行
2.4.3 POMDP值迭代复杂度分析
2.5近似求解POMDP
2.5.1 SPOVA算法
2.5.2基于点的近似技术
2.5.3蒙特卡罗POMDP
2.5.4基于网格化的近似
2.5.5基于信息获取的启发式方法
2.6本章小节
第三章基于采样的POMDP求解方法
3.1在部分信念点上进行值迭代迭代
3.1.1 Backup操作
3.2基于点的动态规划更新(Point-Based DP Update,PBDPU)
3.1.2 PBDPU算法
3.1.3改进基于点的迭代-PBVI算法[4]
3.2在点迭代上利用采样求解POMDP
3.3如何对POMDP进行采样
3.3.1随机行动选择
3.3.2 MDP策略法
3.3.3 Q-MDP策略法
3.3.3行动的状态转移熵函数法
3.4本章小节
第四章面向资源受限系统的POMDP系统
4.1 PRS-一个资源受限Agent的框架
4.1.1各部分功能机构
4.1.2 PRS的运行过程
4.2嵌入POMDP模型的PRS系统
4.3系统的运行
4.4系统的改进
4.4本章小节
第五章模拟试验
5.1试验平台
5.2试验结果
5.4本章小节
第六章工作总结及未来方向
Reference
致谢
在读期间方表文章