首页> 中文学位 >基于采样的POMDP快速求解
【6h】

基于采样的POMDP快速求解

代理获取

目录

文摘

英文文摘

第一章绪论

1.1研究背景

1.2部分可客观Markov决策过程

1.3大规模POMDP求解及其难点

1.4本文目的和主要工作

1.5本文的章节安排

第二章相关工作综述

2.1 Markov决策过程

2.2求解Markov决策过程

2.2.1 MDP的值迭代过程

2.3部分可观察Markov决策过程

2.4求解部分可观察Markov决策过程

2.4.1 POMDP值迭代

2.4.2 POMDP的策略执行

2.4.3 POMDP值迭代复杂度分析

2.5近似求解POMDP

2.5.1 SPOVA算法

2.5.2基于点的近似技术

2.5.3蒙特卡罗POMDP

2.5.4基于网格化的近似

2.5.5基于信息获取的启发式方法

2.6本章小节

第三章基于采样的POMDP求解方法

3.1在部分信念点上进行值迭代迭代

3.1.1 Backup操作

3.2基于点的动态规划更新(Point-Based DP Update,PBDPU)

3.1.2 PBDPU算法

3.1.3改进基于点的迭代-PBVI算法[4]

3.2在点迭代上利用采样求解POMDP

3.3如何对POMDP进行采样

3.3.1随机行动选择

3.3.2 MDP策略法

3.3.3 Q-MDP策略法

3.3.3行动的状态转移熵函数法

3.4本章小节

第四章面向资源受限系统的POMDP系统

4.1 PRS-一个资源受限Agent的框架

4.1.1各部分功能机构

4.1.2 PRS的运行过程

4.2嵌入POMDP模型的PRS系统

4.3系统的运行

4.4系统的改进

4.4本章小节

第五章模拟试验

5.1试验平台

5.2试验结果

5.4本章小节

第六章工作总结及未来方向

Reference

致谢

在读期间方表文章

展开▼

摘要

本文通过对POMDP模型及已有求解方式的研究,针对具有大状态集合POMDP模型提出了一种新的求解方法,并利用该方法设计了一个Agent模型,回顾了POMDP求解方法,提出了把采样技术应用于POMDP求解,分离了采样和迭代过程,提出了对不同的实际模型采用不同的采样策略,根据资源有限系统的特点,我们利PRS实时系统,提出了一个面向资源有限Agent的POMDP求解系统,根据设计出的Agent系统,实现了一个用于测试的Server/Client平台并在该平台上进行了一些试验。试验的结果表明,该方法对于求解较大规模POMDP模型具有有效性和可行性。 最后还对当前研究工作进行了总结,并对为了继续深入的可能进行了展望。希望能给进一步研究工作提供有用的参考。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号