Policy Search for the Optimal Control of Markov Decision Processes: A Novel Particle-Based Iterative Scheme

Giorgio Manganini; Matteo Pirotta; Marcello Restelli; Luigi Piroddi; Maria Prandini

首页> 外文期刊>Cybernetics, IEEE Transactions on >Policy Search for the Optimal Control of Markov Decision Processes: A Novel Particle-Based Iterative Scheme

【24h】

Policy Search for the Optimal Control of Markov Decision Processes: A Novel Particle-Based Iterative Scheme

机译：Markov决策过程的最优控制的策略搜索：一种新型的基于粒子的迭代方案

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Classical approximate dynamic programming techniques based on state-space gridding become computationally impracticable for high-dimensional problems. Policy search techniques cope with this curse of dimensionality issue by searching for the optimal control policy in a restricted parameterized policy space. We here focus on the case of discrete action space and introduce a novel policy parametrization that adopts particles to describe the map from the state space to the action space, each particle representing a region of the state space that is mapped into a certain action. The locations and actions associated with the particles describing a policy can be tuned by means of a recently introduced policy gradient method with parameter-based exploration. The task of selecting an appropriately sized set of particles is here solved through an iterative policy building scheme that adds new particles to improve the policy performance and is also capable of removing redundant particles. Experiments demonstrate the scalability of the proposed approach as the dimensionality of the state-space grows.

机译：对于高维问题，基于状态空间网格的经典近似动态编程技术在计算上变得不切实际。策略搜索技术通过在受限的参数化策略空间中搜索最佳控制策略来应对这种维数问题。我们在这里关注离散动作空间的情况，并介绍一种新颖的策略参数化，该策略参数化采用粒子来描述从状态空间到动作空间的映射，每个粒子代表状态空间中映射到某个动作的区域。与描述策略的粒子相关联的位置和动作可以通过最近引入的基于参数的探索的策略梯度方法进行调整。在这里，通过迭代的策略构建方案解决了选择适当大小的一组粒子的任务，该策略添加了新的粒子以提高策略性能，并且还能够删除多余的粒子。实验表明，随着状态空间维数的增长，该方法具有一定的可扩展性。

著录项

来源
《Cybernetics, IEEE Transactions on》 |2016年第11期|2643-2655|共13页
作者
Giorgio Manganini; Matteo Pirotta; Marcello Restelli; Luigi Piroddi; Maria Prandini;
展开▼
作者单位

Dipartimento di Elettronica, Informazione e Bioingegneria, Politecnico di Milano, Milano, Italy;

Dipartimento di Elettronica, Informazione e Bioingegneria, Politecnico di Milano, Milano, Italy;

Dipartimento di Elettronica, Informazione e Bioingegneria, Politecnico di Milano, Milano, Italy;

Dipartimento di Elettronica, Informazione e Bioingegneria, Politecnico di Milano, Milano, Italy;

Dipartimento di Elettronica, Informazione e Bioingegneria, Politecnico di Milano, Milano, Italy;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类
关键词
Aerospace electronics; Optimal control; History; Convergence; Stochastic processes; Optimization; Probability distribution;

机译：航空电子;最优控制;历史;收敛;随机过程;优化;概率分布;
入库时间 2022-08-17 23:57:35

相似文献

外文文献
中文文献
专利

1. Average optimality for continuous-time Markov decision processes with a policy iteration approach [J] . Zhu QX Journal of Mathematical Analysis and Applications . 2008,第1期

机译：使用策略迭代方法的连续时间马尔可夫决策过程的平均最优性
2. A pause control approach to the value iteration scheme in average Markov decision processes [J] . Cavazos-Cadena R. Systems and Control Letters . 1998,第4期

机译：平均Markov决策过程中值迭代方案的暂停控制方法
3. Policy Iteration for Decentralized Control of Markov Decision Processes [J] . Amato C., Bernstein D. S., Hansen E. A., The Journal of Artificial Intelligence Research . 2009,第4期

机译：马尔可夫决策过程分散控制的策略迭代
4. A particle-based policy for the optimal control of Markov decision processes [C] . M. Pirotta, G. Manganini, L. Piroddi, IFAC World Congress . 2014

机译：马尔可夫决策过程最优控制的基于粒子的政策
5. Acceleration of Iterative Methods for Markov Decision Processes. [D] . Shlakhter, Oleksandr. 2010

机译：马尔可夫决策过程的迭代方法的加速。
6. Evolving Robust Policy Coverage Sets in Multi-Objective Markov Decision Processes Through Intrinsically Motivated Self-Play [O] . Sherif Abdelfattah, Kathryn Kasmarik, Jiankun Hu 2018

机译：通过内在动机的自我博弈在多目标马尔可夫决策过程中发展稳健的政策覆盖范围
7. Policy Search for the Optimal Control of Markov Decision Processes:udA Novel Particle-Based Iterative Scheme [O] . Manganini Giorgio, Pirotta Matteo, Restelli Marcello, 2016

机译：Markov决策过程的最优控制的策略搜索： ud一种新颖的基于粒子的迭代方案
8. Evolutionary Policy Iteration for Solving Markov Decision Processes [R] . Chang, H. S. , Lee, H. , Fu, M. , 2002

机译：求解马尔可夫决策过程的进化策略迭代

Policy Search for the Optimal Control of Markov Decision Processes: A Novel Particle-Based Iterative Scheme

摘要

著录项

相似文献

相关主题

期刊订阅