一种基于最优策略概率分布的 POMDP 值迭代算法

刘峰; 王崇骏; 骆斌

首页> 中文期刊> 《电子学报》 >一种基于最优策略概率分布的 POMDP 值迭代算法

一种基于最优策略概率分布的 POMDP 值迭代算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

With the enlargement of the scale of POMDP problems in applications,the research of heuristic methods for reachable area based on the optimal policy becomes current hotspot.However,the standard of existing algorithms about choosing the best action is not perfect enough thus the efficiency of the algorithms is affected.This paper proposes a new value iteration method PBVIOP (Probability-based Value Iteration on Optimal Policy).In depth-first heuristic exploration,this method uses the Monte Carlo algorithm to calculate the probability of each optimal action according to the distribution of each action′s Q function value between its upper and lower bounds,and chooses the maximum probability action.Experiment results of four benchmarks show that PBVIOP algorithm can obtain global optimal solution and significantly improve the convergence efficiency.%随着应用中POMDP问题的规模不断扩大，基于最优策略可达区域的启发式方法成为了目前的研究热点．然而目前已有的算法虽然保证了全局最优，但选择最优动作还不够精确，影响了算法的效率．本文提出一种基于最优策略概率的值迭代方法 PBVIOP．该方法在深度优先的启发式探索中，根据各个动作值函数在其上界和下界之间的分布，用蒙特卡罗法计算动作最优的概率，选择概率最大的动作作为最优探索策略．在4个基准问题上的实验结果表明 PBVIOP 算法能够收敛到全局最优解，并明显提高了收敛效率．

著录项

来源
《电子学报》 |2016年第5期|1078-1084|共7页
作者
刘峰; 王崇骏; 骆斌;
展开▼
作者单位

南京大学软件学院;

江苏南京 210093;

南京大学软件新技术国家重点实验室;

江苏南京 210093;

南京大学计算机科学与技术系;

江苏南京 210093;

南京大学软件新技术国家重点实验室;

江苏南京 210093;

南京大学软件学院;

江苏南京 210093;

南京大学软件新技术国家重点实验室;

江苏南京 210093;

展开▼
原文格式 PDF
正文语种 chi
中图分类专用应用软件;
关键词
部分可观测马尔科夫决策过程; 基于最优策略概率的值迭代算法; 蒙特卡罗法;

相似文献

中文文献
外文文献
专利

1. 基于策略迭代和值迭代的POMDP算法 [J] . 孙湧 ,仵博 ,冯延蓬 . 计算机研究与发展 . 2008,第010期
2. SHP-Ⅵ:一种基于最短哈密顿通路的POMDP值迭代算法 [J] . 冯奇 ,周雪忠 ,黄厚宽 . 计算机研究与发展 . 2011,第012期
3. POMDP基于点的值迭代算法中一种信念选择方法 [J] . 冯奇 ,周雪忠 ,黄厚宽 . 北京交通大学学报 . 2009,第005期
4. 基于环境状态分布优化的POMDP值迭代求解算法 [J] . 朱荣鑫 ,王譞 ,刘峰 . 计算机应用研究 . 2022,第2期
5. 基于循环卷积神经网络的POMDP值迭代算法 [J] . 于丹宁 ,倪坤 ,刘云龙 . 计算机工程 . 2021,第002期
6. 一种基于超体积迭代策略的全局寻优算法 [C] . Xiaojun Wang ,王晓军 ,Bowen Ni . 中国力学大会2017暨庆祝中国力学学会成立60周年大会 . -1
7. 基于点的值迭代算法在POMDP问题中的研究 [A] . 房俊恒 . 2015

一种基于最优策略概率分布的 POMDP 值迭代算法

摘要

著录项

相似文献

相关主题

期刊订阅