首页> 中文学位 >部分可观察马氏决策问题的近似规划方法研究
【6h】

部分可观察马氏决策问题的近似规划方法研究

代理获取

目录

声明

第一章 引言

1.1研究背景及意义

1.2研究现状

1.3研究内容

1.4论文组织结构

第二章 背景知识

2.1马尔科夫决策过程

2.2 POMDP模型

2.3信念状态

2.4值函数与最优策略的计算方法

2.5 POMDP的基本方法

2.6本章小结

第三章 面向连续空间POMDP问题的高效算法

3.1策略图

3.2面向连续空间POMDP问题的高效算法

3.3实验及结果分析

3.4本章小结

第四章 优化的连续状态蒙特卡罗值迭代算法

4.1蒙特卡罗值迭代算法

4.2连续状态POMDP问题的优化算法

4.3实验及结果分析

4.4本章小结

第五章 连续状态大规模观察空间的银杏叶搜索算法

5.1基于试验的异步值迭代算法

5.2连续状态大规模观察空间的银杏叶搜索算法

5.3实验及结果分析

5.4本章小结

第六章 总结与展望

6.1总结

6.2展望

参考文献

攻读硕士学位期间公开发表(录用)的论文及参与的项目

一、公开发表(录用)的学术论文

二、参加的科研项目

致谢

展开▼

摘要

能否在不确定、动态环境下正确地决策,是衡量自主机器人性能好坏的一项重要指标。部分可观察马尔科夫决策过程(Partially Observable Markov Decision Processes,POMDPs)为自主机器人在不确定性环境中的规划问题,提供了一个极富表达力的数学框架。POMDP现已在无人驾驶、机械臂操作等自主机器人任务中得到成功的应用。现有的处理连续空间POMDP规划问题的方法常使用离散化来求解策略,该方法计算量大,效率偏低。本文为了解决连续空间中的POMDP规划问题,提出三种新的算法:
  (1)针对连续状态空间中现有算法使用离散化,将连续的状态离散化为网格,导致算法性能低下的缺陷,提出一种面向连续空间 POMDP问题的高效算法—GPG算法。该算法在状态空间和相应的信念空间中抽样,同时使用广义策略图和抽样最大化方法,将算法推广到连续观察和连续动作空间。实验结果表明,GPG算法收敛速度快且能获得更优的策略。
  (2)针对连续状态空间中蒙特卡罗值迭代算法所得策略图会随着时间迅速增长,算法性能急剧降低的问题,提出一种优化的连续状态蒙特卡罗值迭代算法—OMVCI算法。该算法优化新增结点、裁剪被支配的和冗余的结点,获得结构更加紧凑、性能更加优异的策略图。
  (3)针对连续状态大规模观察空间传统算法启发式搜索效率低,收敛速度慢的问题,提出一种连续状态大规模观察空间的银杏叶搜索算法—GLS算法。为了提高收敛速度,在启发式搜索阶段中,提出了对较大值的结点使用“探索”的方法。同时根据已有的先验知识,自适应调整“探索”与“利用”的比例。该方法可以保证更新效果相同的情况下,减少更新次数,节省大量计算时间,提高算法性能。从理论上分析了算法的收敛性,并通过实验验证算法收敛速度快、收敛效果好的特性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号