机译:带有随机单调策略的约束Markov决策过程的$ {Q} $-学习算法:在MIMO传输控制中的应用
${Q}$ learning; Constrained Markov decision process (CMDP); V-BLAST; delay constraints; monotone policies; randomized policies; reinforcement learning; supermodularity; transmission scheduling;
机译:约束马尔可夫决策过程的非随机策略
机译:随机搜索约束多策略改进的马尔可夫决策过程
机译:一种求解马尔可夫决策过程的进化随机策略搜索算法
机译:单调信道感知传输策略的最优性:约束马尔可夫决策过程
机译:半马尔可夫决策过程的固定探索新强化学习算法
机译:约束单调方程的混合共轭梯度算法及其在压缩感知中的应用
机译:带有随机单调策略的约束Markov决策过程的Q学习算法:在MIMO传输控制中的应用