Cosine Policy Iteration for Solving Infinite-Horizon Markov Decision Processes

机译：求解无限视野马尔可夫决策过程的余弦策略迭代

获取原文

获取原文并翻译 | 示例

页面导航

摘要
著录项
相似文献
相关主题

摘要

Police Iteration (PI) is a widely used traditional method for solving Markov Decision Processes (MDPs). In this paper, the cosine policy iteration (CPI) method for solving complex problems formulated as infinite-horizon MDPs is proposed. CPI combines the advantages of two methods: i) Cosine Simplex Method (CSM) which is based on the Karush, Kuhn, and Tucker (KKT) optimality conditions and finds rapidly an initial policy close to the optimal solution and ii) PI which is able to achieve the global optimum. In order to apply CSM to this kind of problems, a well- known LP formulation is applied and particular features are derived in this paper. Obtained results show that the application of CPI solves MDPs in a lower number of iterations that the traditional PI.

机译：警察迭代（PI）是解决马尔可夫决策过程（MDP）的一种广泛使用的传统方法。本文提出了用余弦策略迭代（CPI）方法解决无限水平MDP形式的复杂问题。 CPI结合了两种方法的优点：i）基于Karush，Kuhn和Tucker（KKT）最优性条件的余弦单纯形法（CSM），可以迅速找到接近最优解的初始策略，以及ii）PI达到全局最优。为了将CSM应用于此类问题，本文采用了众所周知的LP公式，并推导了其特殊功能。所得结果表明，CPI的应用解决了MPI的迭代次数少于传统PI的迭代次数。

著录项

来源
《MICAI 2009: Advances in artificial intelligence》|2009年|P.75-86|共12页
会议地点 Guanajuato(MX);Guanajuato(MX)
作者
Juan Frausto-Solis; Elizabeth Santiago; Jaime Mora-Vargas;
展开▼
作者单位

Tecnologico de Monterrey Campus Cuernavaca, Autopista del Sol Km 104+06,Colonia Real del Puente, 62790, Xochitepec, Morelos, Mexico;

Tecnologico de Monterrey Campus Cuernavaca, Autopista del Sol Km 104+06,Colonia Real del Puente, 62790, Xochitepec, Morelos, Mexico;

Tecnologico de Monterrey Campus Estado de Mexico;

展开▼
会议组织
原文格式 PDF
正文语种 eng
中图分类人工智能理论;
关键词
markov decision processes; policy iteration; cosine simplex method; hybrid method;

机译：马可夫决策过程；政策迭代；余弦单纯形法混合法;

相似文献

外文文献
中文文献
专利

1. Approximate Robust Policy Iteration Using Multilayer Perceptron Neural Networks for Discounted Infinite-Horizon Markov Decision Processes With Uncertain Correlated Transition Matrices [J] . Li B., Si J. Neural Networks, IEEE Transactions on . 2010,第8期

机译：不确定关联Markov决策过程的多层感知器神经网络的近似鲁棒策略迭代
2. Approximate Policy Iteration with a Policy Language Bias: Solving Relational Markov Decision Processes [J] . Fern A., Givan R., Yoon S. The Journal of Artificial Intelligence Research . 2006,第12期

机译：具有策略语言偏差的近似策略迭代：解决关系马尔可夫决策过程
3. Approximate Policy Iteration with a Policy Language Bias: Solving Relational Markov Decision Processes [J] . A. Fern S. Yoon, R. Givan Journal of Automation, Mobile Robotics & Intelligent Systems . 2006,第5期

机译：具有策略语言偏差的近似策略迭代：解决关系马尔可夫决策过程
4. Cosine Policy Iteration for Solving Infinite-Horizon Markov Decision Processes [C] . Juan Frausto-Solis, Elizabeth Santiago, Jaime Mora-Vargas Mexican International Conference on Artificial Intelligence . 2009

机译：余弦政策迭代，用于解决无限地平线马尔可夫决策过程
5. Acceleration of Iterative Methods for Markov Decision Processes. [D] . Shlakhter, Oleksandr. 2010

机译：马尔可夫决策过程的迭代方法的加速。
6. Evolving Robust Policy Coverage Sets in Multi-Objective Markov Decision Processes Through Intrinsically Motivated Self-Play [O] . Sherif Abdelfattah, Kathryn Kasmarik, Jiankun Hu 2018

机译：通过内在动机的自我博弈在多目标马尔可夫决策过程中发展稳健的政策覆盖范围
7. Approximate Policy Iteration with a Policy Language Bias: Solving Relational Markov Decision Processes [O] . Fern, A., Givan, R., Yoon, S. 2011

机译：使用策略语言偏差进行近似策略迭代：求解关系马尔可夫决策过程
8. Evolutionary Policy Iteration for Solving Markov Decision Processes [R] . Chang, H. S. , Lee, H. , Fu, M. , 2002

机译：求解马尔可夫决策过程的进化策略迭代

Cosine Policy Iteration for Solving Infinite-Horizon Markov Decision Processes

摘要

著录项

相似文献

相关主题

期刊订阅