机译:带有随机单调策略的约束Markov决策过程的$ {Q} $-学习算法:在MIMO传输控制中的应用
机译:约束折扣马尔可夫决策过程的随机逼近
机译:约束Markov决策过程的带函数逼近的在线Actor-Critic算法
机译:受限时变马尔可夫决策过程自适应控制的策略梯度随机逼近算法
机译:离散时间部分观察到的马尔可夫决策过程:遍历,自适应和安全控制。
机译:具有控制梯度近似误差的稀疏离散Markov随机场的随机学习
机译:通过双随机梯度上升进行连续时间马尔可夫决策过程中时间可及性的策略学习
机译:随机差分双时间尺度同时扰动随机逼近算法在隐马尔可夫模型仿真优化中的应用。