实用POMDP近似求解算法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在人工智能领域，动态的、不确定性的序列决策问题是研究Agent与环境交互的策略的核心问题。在实际应用领域，随着系统的复杂化，大量的问题都可抽象为动态的、不确定性的序列决策问题，因而对这些问题的研究具有广泛而深远的意义。POMDP作为求解满足 Markov假设的动态的、不确定性的序列决策问题的一种强大而灵活的框架，成为研究的焦点。
　　本文从实用性角度出发，研究了获得最优POMDP策略的算法。
　　从对实际应用的广泛适用性出发，本文研究了基于实例的算法，包括NNI，LWI和ENNI。此算法结合使用了基于实例学习和增强学习的技术。通过实例学习，可获取Agent的准确的交互数据，由于它对模型没有特殊要求，因此使得最终的算法具有广泛的适用性，不仅可在离散的Markov环境下应用，更可以应用于连续状态的情况和非Markov环境的情况。通过增强学习，不断地搜索策略空间，寻找更优的策略。通过学习获得了与策略相关的数据，然后使用启发式的求解方法来获得优化的策略。实验表明，在没有模型参数的情况下，它可获得优于Q-MDP算法的策略。
　　为了解决POMDP求解算法的复杂性问题，开发高效的求解算法，本文研究了基于核信念的求解算法 KBVI。KBVI通过采样从初始信念状态可达的信念状态获得与具体问题结构相关的信息，基于这些数据通过值迭代求解POMDP来获得最优策略。KBVI把求解POMDP的复杂性降低到多项式级，与其他的基于信念点的算法相比，它可以更高效的获得同等的甚至更优的策略。
　　为了获得求解POMDP的相关数据，使用某种算法求解POMDP和运行某种POMDP策略来对它的性能进行测试，本文开发了一个 Agent运行平台，它由Agent模型和运行环境模型组成。在这个平台上获得了使用基于实例的算法和KBVI算法求解典型的POMDP问题的性能数据，并与其他算法的性能进行了对比，验证了本文算法具有良好的性能。本文也试图通过开发此Agent运行平台来建立POMDP应用的框架和基础组件。

著录项

作者
修国明;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名潘启树;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类人工智能理论;
关键词
近似求解算法; 增强学习; 人工智能; 最优POMDP策略;

相似文献

中文文献
外文文献
专利

1. 基于环境状态分布优化的POMDP值迭代求解算法 [J] . 朱荣鑫 ,王譞 ,刘峰 . 计算机应用研究 . 2022,第2期
2. 基于杂合标准的POMDP值迭代求解算法 [J] . 刘峰 . 模式识别与人工智能 . 2016,第011期
3. 基于实例的POMDP问题的近似求解 [J] . 修国明 ,张积滨 ,潘启树 . 计算机工程与应用 . 2008,第029期
4. 基于采样的POMDP近似算法 [J] . 陈茂 ,陈小平 . 计算机仿真 . 2006,第005期
5. 基于局部有限搜索的无向图近似最大团快速求解算法 [J] . 钟茂生 ,江超 ,陶兰 . 计算机科学 . 2020,第001期
6. 实用一维下料问题模型与求解算法 [C] . 袁月明 ,龙建成 ,许鹏 . 第八届中国青年运筹信息管理学者大会 . 2006
7. 一种实时POMDP求解算法及其应用研究 [A] . 王芬 . 2007

实用POMDP近似求解算法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅