Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes

Nathan Kallus; Masatoshi Uehara

首页> 外文期刊>Journal of machine learning research >Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes

【24h】

Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes

机译：马尔可夫决策过程有效截止政策评估的双重加固学习

获取原文

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Off-policy evaluation (OPE) in reinforcement learning allows one to evaluate novel decision policies without needing to conduct exploration, which is often costly or otherwise infeasible. We consider for the first time the semiparametric efficiency limits of OPE in Markov decision processes (MDPs), where actions, rewards, and states are memoryless. We show existing OPE estimators may fail to be efficient in this setting. We develop a new estimator based on cross-fold estimation of $q$-functions and marginalized density ratios, which we term double reinforcement learning (DRL). We show that DRL is efficient when both components are estimated at fourth-root rates and is also doubly robust when only one component is consistent. We investigate these properties empirically and demonstrate the performance benefits due to harnessing memorylessness.

机译：加强学习中的违规评估（OPE）允许人们在不需要进行勘探的情况下评估新的决策政策，这通常是昂贵或以其他方式不可行的。我们首次考虑首次在马尔可夫决策过程（MDP）中的OPE的半游戏效率限制，其中措施，奖励和状态无记忆。我们显示现有的ope估计在此设置中可能无法高效。我们基于$ Q $的交叉折叠估计和边缘化密度比率开发新的估计，我们术语双加强学习（DRL）。我们显示DRL在第四根速率估计两个组件时，DRL是有效的，并且在只有一个组件一致时也是双重稳健的。我们凭经验调查这些属性，并展示由于利用无核性而导致的性能益处。

著录项

来源
《Journal of machine learning research》 |2020年第a期|共63页
作者
Nathan Kallus; Masatoshi Uehara;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种
中图分类
关键词

相似文献

外文文献
中文文献
专利

1. Optimising darts strategy using Markov decision processes and reinforcement learning [J] . Graham Baird Journal of the Operational Research Society . 2020,第6期

机译：利用马尔可夫决策过程和加强学习优化飞镖策略
2. Reinforcement Learning in Robust Markov Decision Processes [J] . Lim Shiau Hong, Xu Huan, Mannor Shie Mathematics of operations research . 2016,第4期

机译：鲁棒马尔可夫决策过程中的强化学习
3. Variance-penalized Markov decision processes: dynamic programming and reinforcement learning techniques [J] . Abhijit Gosavi International journal of general systems . 2014,第5a6期

机译：方差惩罚的马尔可夫决策过程：动态规划和强化学习技术
4. Double Reinforcement Learning for Efficient and Robust Off-Policy Evaluation [C] . Nathan Kallus, Masatoshi Uehara International Conference on Machine Learning . 2021

机译：双重加固学习高效且强大的脱离政策评估
5. A New Reinforcement Learning Algorithm with Fixed Exploration for Semi-Markov Decision Processes [D] . Encapera, Angelo Michael. 2017

机译：半马尔可夫决策过程的固定探索新强化学习算法
6. Robust and Efficient Transfer Learning with Hidden Parameter Markov Decision Processes [O] . Taylor Killian, Samuel Daulton, George Konidaris, -1

机译：隐马尔可夫决策过程的鲁棒高效转移学习
7. Practical reinforcement learning using representation learning and safe exploration for large scale Markov decision processes [O] . Geramifard Alborz 1980- 2012

机译：使用表示学习和大规模马尔可夫决策过程的安全探索实践强化学习

Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes

摘要

著录项

相似文献

相关主题

期刊订阅