部分可观察马氏决策问题的近似规划方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

能否在不确定、动态环境下正确地决策，是衡量自主机器人性能好坏的一项重要指标。部分可观察马尔科夫决策过程（Partially Observable Markov Decision Processes，POMDPs）为自主机器人在不确定性环境中的规划问题，提供了一个极富表达力的数学框架。POMDP现已在无人驾驶、机械臂操作等自主机器人任务中得到成功的应用。现有的处理连续空间POMDP规划问题的方法常使用离散化来求解策略，该方法计算量大，效率偏低。本文为了解决连续空间中的POMDP规划问题，提出三种新的算法：
　　(1)针对连续状态空间中现有算法使用离散化，将连续的状态离散化为网格，导致算法性能低下的缺陷，提出一种面向连续空间 POMDP问题的高效算法—GPG算法。该算法在状态空间和相应的信念空间中抽样，同时使用广义策略图和抽样最大化方法，将算法推广到连续观察和连续动作空间。实验结果表明，GPG算法收敛速度快且能获得更优的策略。
　　(2)针对连续状态空间中蒙特卡罗值迭代算法所得策略图会随着时间迅速增长，算法性能急剧降低的问题，提出一种优化的连续状态蒙特卡罗值迭代算法—OMVCI算法。该算法优化新增结点、裁剪被支配的和冗余的结点，获得结构更加紧凑、性能更加优异的策略图。
　　(3)针对连续状态大规模观察空间传统算法启发式搜索效率低，收敛速度慢的问题，提出一种连续状态大规模观察空间的银杏叶搜索算法—GLS算法。为了提高收敛速度，在启发式搜索阶段中，提出了对较大值的结点使用“探索”的方法。同时根据已有的先验知识，自适应调整“探索”与“利用”的比例。该方法可以保证更新效果相同的情况下，减少更新次数，节省大量计算时间，提高算法性能。从理论上分析了算法的收敛性，并通过实验验证算法收敛速度快、收敛效果好的特性。

著录项

作者
钱炜晟;
展开▼
作者单位

苏州大学;

展开▼
授予单位苏州大学;
学科软件工程
授予学位硕士
导师姓名刘全,章宗长;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类智能机器人;
关键词
自主机器人; 近似规划; 马尔科夫决策; 抽样最大化; 广义策略图;

相似文献

中文文献
外文文献
专利

1. 状态部分可观察的无界报酬马氏决策规划 [J] . 胡奇英 . 数理统计与应用概率 . 1998,第003期
2. 基于部分可观马氏决策的AUV全局路径规划 [J] . 洪晔 ,边信黔 . 计算机仿真 . 2007,第006期
3. 基于部分可观察马氏决策过程的频谱接入方法 [J] . 侯国涛 ,韩慧 ,胡俊 . 电波科学学报 . 2013,第003期
4. 通过部分状态的观察确定一类离散时间马氏链 [J] . 黄新 ,邓迎春 ,向绪言 . 湖南文理学院学报（自然科学版） . 2005,第001期
5. 全国教育科学“十二五”规划教育部规划课题“‘少教多学’在中小学语文教学中的策略与方法研究”部分核心研究员及其团队 [J] . . 教育艺术 . 2012,第009期
6. 基于新制度视角下城市特色风貌规划方法研究——以大连部分地区为例 [C] . 康旺泉 ,刘平 ,胡帅 . 第六届全国规划实施学术研讨会 . 2018
7. 部分可观察马氏决策过程的复杂性理论及规划算法研究 [A] . 章宗长 . 2012

部分可观察马氏决策问题的近似规划方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅