gradient methods; adaptive control; Markov processes; decision theory; approximation theory; constraint handling; time-varying systems; policy gradient stochastic approximation; adaptive control; constrained time varying Markov decision processes; average cost finite state Markov decision process; gradient estimation schemes; weak derivatives; augmented Lagrangian methods; gradient projection primal methods;
机译:带有随机单调策略的约束Markov决策过程的$ {Q} $-学习算法:在MIMO传输控制中的应用
机译:约束折扣马尔可夫决策过程的随机逼近
机译:约束Markov决策过程的带函数逼近的在线Actor-Critic算法
机译:基于Markov决策过程的受限时间自适应控制的政策梯度随机近似算法
机译:离散时间部分观察到的马尔可夫决策过程:遍历,自适应和安全控制。
机译:具有控制梯度近似误差的稀疏离散Markov随机场的随机学习
机译:通过双随机梯度上升进行连续时间马尔可夫决策过程中时间可及性的策略学习
机译:随机差分双时间尺度同时扰动随机逼近算法在隐马尔可夫模型仿真优化中的应用。