Mean-Variance Problems for Finite Horizon Semi-Markov Decision Processes

Huang Yonghui; Guo Xianping

首页> 外文期刊>Applied mathematics and optimization >Mean-Variance Problems for Finite Horizon Semi-Markov Decision Processes

【24h】

Mean-Variance Problems for Finite Horizon Semi-Markov Decision Processes

机译：有限地平线半马尔可夫决策过程的均值问题

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

This paper deals with a mean-variance problem for finite horizon semi-Markov decision processes. The state and action spaces are Borel spaces, while the reward function may be unbounded. The goal is to seek an optimal policy with minimal finite horizon reward variance over the set of policies with a given mean. Using the theory of -step contraction, we give a characterization of policies with a given mean and convert the second order moment of the finite horizon reward to a mean of an infinite horizon reward/cost generated by a discrete-time Markov decision processes (MDP) with a two dimension state space and a new one-step reward/cost under suitable conditions. We then establish the optimality equation and the existence of mean-variance optimal policies by employing the existing results of discrete-time MDPs. We also provide a value iteration and a policy improvement algorithms for computing the value function and mean-variance optimal policies, respectively. In addition, a linear program and the dual program are developed for solving the mean-variance problem.

机译：本文研究了有限水平半马尔可夫决策过程的均值-方差问题。状态和动作空间是Borel空间，而奖励函数可能是无界的。目标是在具有给定均值的一组策略上寻求具有最小有限水平奖励差异的最优策略。使用逐步收缩理论，我们给出了具有给定均值的策略的特征，并将有限水平奖励的二阶矩转换为由离散时间马尔可夫决策过程（MDP）生成的无限水平奖励/成本的均值）具有二维状态空间，并在合适的条件下提供了新的一步式奖励/费用。然后，我们利用离散MDP的现有结果，建立最优方程和均方差最优策略的存在。我们还提供了值迭代和策略改进算法，分别用于计算值函数和均值方差最优策略。另外，开发了线性程序和对偶程序来解决均方差问题。

著录项

来源
《Applied mathematics and optimization》 |2015年第2期|共27页
作者
Huang Yonghui; Guo Xianping;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类最优化的数学理论;
关键词
Finite horizon semi-Markov decision processes; Mean-variance optimal policy; Dynamic programming; Value iteration; Policy improvement; Linear programming;

机译：有限地平线半马尔可夫决策过程;平均方差最优策略;动态规划;值迭代;策略改进;线性规划;

相似文献

外文文献
中文文献
专利

1. Mean-Variance Problems for Finite Horizon Semi-Markov Decision Processes [J] . Huang Yonghui, Guo Xianping Applied mathematics and optimization . 2015,第2期

机译：有限地平线半马尔可夫决策过程的均值问题
2. Constrained optimality for finite horizon semi-Markov decision processes in Polish spaces [J] . Yonghui Huang, Zhongfei Li, Xianping Guo Operations Research Letters: A Journal of the Operations Research Society of America . 2014,第2期

机译：波兰空间中有限水平半马尔可夫决策过程的约束最优性
3. Non-Stationary Semi-Markov Decision Processes on a Finite Horizon [J] . MRINAL K. GHOSH, SUBHAMAY SAHA Stochastic Analysis and Applications . 2013,第1期

机译：有限视野下的非平稳半马尔可夫决策过程
4. Finite horizon semi-Markov decision processes with multiple constraints [C] . Yonghui Huang World Congress on Intelligent Control and Automation . 2014

机译：具有多个约束的有限水平半马尔可夫决策过程
5. A New Reinforcement Learning Algorithm with Fixed Exploration for Semi-Markov Decision Processes [D] . Encapera, Angelo Michael. 2017

机译：半马尔可夫决策过程的固定探索新强化学习算法
6. Learning to maximize reward rate: a model based on semi-Markov decision processes [O] . Arash Khodadadi, Pegah Fakhari, Jerome R. Busemeyer 2014

机译：学习最大化奖励率：基于半马尔可夫决策过程的模型
7. A risk minimization problem for finite horizon semi-Markov decision processes with loss rates [O] . Qiuli Liu, Xiaolong Zou 2018

机译：有限地平线半马尔可夫决策过程的风险最小化问题

Mean-Variance Problems for Finite Horizon Semi-Markov Decision Processes

摘要

著录项

相似文献

相关主题

期刊订阅