基于策略迭代和值迭代的POMDP算法

孙湧; 仵博; 冯延蓬

首页> 中文期刊> 《计算机研究与发展》 >基于策略迭代和值迭代的POMDP算法

基于策略迭代和值迭代的POMDP算法

AI论文写作 >>

开具论文收录证明 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

部分可观察Markov决策过程是通过引入信念状态空间将非Markov链问题转化为Markov链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支.介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和值迭代的部分可观察Markov决策算法,该算法利用线性规划和动态规划的思想,解决当信念状态空间较大时出现的"维数灾"问题,得到Markov决策的逼近最优解.实验数据表明该算法是可行的和有效的.

著录项

来源
《计算机研究与发展》 |2008年第10期|1763-1768|共6页
作者
孙湧; 仵博; 冯延蓬;
展开▼
作者单位

深圳职业技术学院电子与信息工程学院;

广东深圳;

518055;

深圳职业技术学院电子与信息工程学院;

广东深圳;

518055;

深圳职业技术学院电子与信息工程学院;

广东深圳;

518055;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工智能理论;
关键词
部分可观察Markov决策; 决策算法; 智能体; 值迭代; 策略迭代;

相似文献

中文文献
外文文献
专利

1. 一种基于最优策略概率分布的 POMDP 值迭代算法 [J] . 刘峰 ,王崇骏 ,骆斌 . 电子学报 . 2016,第005期
2. 基于环境状态分布优化的POMDP值迭代求解算法 [J] . 朱荣鑫 ,王譞 ,刘峰 . 计算机应用研究 . 2022,第2期
3. 基于循环卷积神经网络的POMDP值迭代算法 [J] . 于丹宁 ,倪坤 ,刘云龙 . 计算机工程 . 2021,第002期
4. 基于杂合标准的POMDP值迭代求解算法 [J] . 刘峰 . 模式识别与人工智能 . 2016,第011期
5. 基于点的POMDPs在线值迭代算法 [J] . 仵博 ,吴敏 ,佘锦华 . 软件学报 . 2013,第001期
6. 矩阵特征值与多特征值问题牛顿法与Rayleigh商迭代法的一些数值问题 [C] . 征道生 . 中国数学会第四届全国最优化数值方法学术会 . 1987
7. 基于点的值迭代算法在POMDP问题中的研究 [A] . 房俊恒 . 2015

基于策略迭代和值迭代的POMDP算法

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅