Lagrange Dual Decomposition for Finite Horizon Markov Decision Processes

机译：有限地平线Markov决策过程的Lagrange对偶分解

获取原文

获取外文期刊封面目录资料

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

Solving finite-horizon Markov Decision Processes with stationary policies is a computationally difficult problem. Our dynamic dual decomposition approach uses Lagrange duality to decouple this hard problem into a sequence of tractable sub-problems. The resulting procedure is a straightforward modification of standard non-stationary Markov Decision Process solvers and gives an upper-bound on the total expected reward. The empirical performance of the method suggests that not only is it a rapidly convergent algorithm, but that it also performs favourably compared to standard planning algorithms such as policy gradients and lower-bound procedures such as Expectation Maximisation.

机译：解决有限地平线马尔可夫决策过程，静止政策是一个计算困难的问题。我们的动态双分解方法使用Lagrange Tuegity将此难题与遗传序列分离成一系列易丢失的子问题。由此产生的程序是标准非静止马尔可夫决策过程求解器的简单修改，并在总预期奖励中提供了上限。该方法的实证性能表明，与标准规划算法（如策略梯度等诸如期望最大化）等标准规划算法相比，它也不仅是迅速收敛算法，而且还表现出有利地执行。

著录项

来源
《European conference on machine learning and knowledge discovery in databases;ECML PKDD 2011》|2011年|p.487-502|共16页
会议地点
作者
Thomas Furmston; David Barber;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类 TP311.13;
关键词
markov decision processes; planning; lagrange duality;

机译：马可夫决策过程;规划;拉格朗日对偶;

相似文献

外文文献
中文文献
专利

1. Optimal decisions for continuous time Markov decision processes overn finite planning horizons [J] . Buchholz Peter, Dohndorf Iryna, Scheftelowitsch Dimitri Computers & operations research . 2017,第jana期

机译：有限规划范围内连续时间马尔可夫决策过程的最优决策
2. Reachability and Safety Objectives in Markov Decision Processes on Long but Finite Horizons [J] . Journal of Optimization Theory and Applications . 2020,第3期

机译：马尔可夫决策过程中的可达性和安全目标长但有限的视野
3. Numerical analysis of continuous time Markov decision processes over finite horizons [J] . Peter Buchholz, Ingo Schulz Computers & operations research . 2011,第3期

机译：有限时间范围内连续时间马尔可夫决策过程的数值分析
4. Lagrange Dual Decomposition for Finite Horizon Markov Decision Processes [C] . Thomas Furmston, David Barber European Conference on Machine Learning and Knowledge Discovery in Databases . 2011

机译：Lagrange双分解有限地平线马尔可夫决策过程
5. Finite memory policies for partially observable Markov decision processes. [D] . Lusena, Christopher David. 2001

机译：用于部分可观察的马尔可夫决策过程的有限内存策略。
6. Decision Making Under Uncertainty: A Neural Model Based on Partially Observable Markov Decision Processes [O] . Rajesh P. N. Rao 2010

机译：不确定性下的决策：基于部分可观察的马尔可夫决策过程的神经模型
7. Lagrange Dual Decomposition for Finite Horizon Markov Decision Processes [O] . Thomas Furmston, David Barber 2012

机译：有限地平线Markov决策过程的Lagrange对偶分解

Lagrange Dual Decomposition for Finite Horizon Markov Decision Processes

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅