Dept. of Electr. Comput. Eng., McGill Univ., Montreal, QC, Canada;
Markov processes; computer aided instruction; decision making; decision theory; probability; Markov decision process; arbitrarily changing reward; decision-making; online learning; transition probability;
机译:具有任意奖励过程的马尔可夫决策过程
机译:带有任意奖励过程的马尔可夫决策过程
机译:具有任意奖励的连续马尔可夫决策过程的期望最大化算法
机译:在马尔可夫决策过程中在线学习,任意改变奖励和转换
机译:马尔可夫奖励过程的自适应在线优化及其在多类亏损网络服务定价中的应用。
机译:学习最大化奖励率:基于半马尔可夫决策过程的模型
机译:马尔科夫决策过程中的在线学习,任意改变奖励和转换
机译:马克思主义决策过程具有不确定的过渡概率或奖励