首页> 外文会议>International Conference on Autonomous Agents and Multiagent Systems >Reinforcement Learning Algorithms for Regret Minimization in Structured Markov Decision Processes

【24h】

Reinforcement Learning Algorithms for Regret Minimization in Structured Markov Decision Processes

机译：强化学习算法在结构化的马尔可夫决策过程中遗憾最小化

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

A recent goal in the Reinforcement Learning (RL) framework is to choose a sequence of policy to minimize the regret incurred in a finite time horizon. For several RL problems in operation research and optimal control, the optimal policy of the underlying Markov Decision Process (MDP) is characterized by a known structure. The state of the art algorithms do not utilize this known structure of the optimal policy while minimizing regret. In this work, we develop new RL algorithms that exploit the structure of the optimal policy to minimize regret. Numerical experiments on MDPs with structured optimal policies show that our algorithms have better performance and are easy to implement.

机译：钢筋学习（RL）框架中最近的目标是选择一系列政策，以最大限度地减少在有限时间范围内产生的遗憾。对于运营研究和最佳控制中的几个RL问题，底层马尔可夫决策过程（MDP）的最佳政策的特征在于已知的结构。最先进的算法不利用最佳政策的这种已知结构，同时最小化遗憾。在这项工作中，我们开发了新的RL算法，该算法利用最佳政策的结构来最小化遗憾。具有结构化最佳政策的MDP的数值实验表明，我们的算法具有更好的性能，并且易于实现。

著录项

来源
《International Conference on Autonomous Agents and Multiagent Systems 》|2017年|767-1537p|共2页
会议地点
作者
Prabuchandran K. J.; Tejas Bodas; Theja Tulabandhula;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类 TP18-53;
关键词
Algorithms; Performance; Experimentation; Theory; Multi-arm Bandit; Markov Decision Processes; UCB; Thompson Sampling; Renewal Reward Processes; Optimal threshold Policy;

机译：算法;性能;实验;理论;多臂强盗;马尔可夫决策过程;UCB;汤普森采样;续约奖励过程;最优阈值政策;

相似文献

外文文献
中文文献
专利

1. Reinforcement learning based algorithms for average cost Markov Decision Processes [J] . Abdulla MS, Bhatnagar S Discrete event dynamic systems: Theory and applications . 2007 ,第1期

机译：基于增强学习的平均成本马尔可夫决策过程算法
2. Reinforcement Learning Based Algorithms for Average Cost Markov Decision Processes [J] . Mohammed Shahid Abdulla, Shalabh Bhatnagar Discrete Event Dynamic Systems . 2007 ,第1期

机译：基于增强学习的平均成本马尔可夫决策过程算法
3. A Pulse Neural Network Reinforcement Learning Algorithm for Partially Observable Markov Decision Processes [J] . Koichiro Takita, Masafumi Hagiwara Systems and Computers in Japan . 2005 ,第3期

机译：部分可观察的马尔可夫决策过程的脉冲神经网络强化学习算法
4. Reinforcement Learning Algorithms for Regret Minimization in Structured Markov Decision Processes [C] . Prabuchandran K. J., Tejas Bodas, Theja Tulabandhula International Conference on Autonomous Agents and Multiagent Systems . 2017

机译：强化学习算法在结构化的马尔可夫决策过程中遗憾最小化
5. A New Reinforcement Learning Algorithm with Fixed Exploration for Semi-Markov Decision Processes [D] . Encapera, Angelo Michael. 2017

机译：半马尔可夫决策过程的固定探索新强化学习算法
6. Myocardial infarction evaluation from stopping time decision toward interoperable algorithmic states in reinforcement learning [O] . Jong-Rul Park, Sung Phil Chung, Sung Yeon Hwang, 2020

机译：从钢筋学习中停止时间决定的心肌梗死评估
7. Learning the Structure of Factored Markov Decision Processes in Reinforcement Learning Problems [O] . Degris, Thomas, Sigaud, Olivier, Wuillemin, Pierre-Henri 2006

机译：在强化学习问题中学习因式马尔可夫决策过程的结构

Reinforcement Learning Algorithms for Regret Minimization in Structured Markov Decision Processes

摘要

著录项

相似文献

相关主题

期刊订阅