首页> 外文会议> >A class of two-dimensional stochastic approximations and steering policies for Markov decision processes
【24h】

A class of two-dimensional stochastic approximations and steering policies for Markov decision processes

机译:一类用于Markov决策过程的二维随机逼近和控制策略

获取原文
获取外文期刊封面目录资料

摘要

The authors consider a specific multidimensional stochastic approximation scheme of the Robbins-Monro type that naturally arises in the study of steering policies for Markov decision processes. The usual convergence results (in the almost sure sense) do not seem to apply for this simple scheme. Almost sure convergence is established by an indirect argument that blends standard results on stochastic approximations with a version of the law of large number for martingale differences. These convergence properties provide an alternative proof for some of the properties of steering policies.
机译:作者考虑了在研究马尔可夫决策过程的转向策略时自然产生的一种特定的Robbins-Monro型多维随机逼近方案。通常的收敛结果(几乎可以肯定地说)似乎不适用于这种简单方案。几乎可以肯定的收敛是通过一个间接论点建立的,该论点将随机近似上的标准结果与针对mar差异的大数定律的一个版本混合在一起。这些收敛属性为转向策略的某些属性提供了替代证明。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号