...
机译:具有平均样本路径奖励的遍历连续时间马尔可夫链的最优控制
average sample-path reward; continuous-time Markov chain; optimal stationary policy; policy and value iteration algorithms; CONTROLLED QUEUING-SYSTEMS; COUNTABLE STATE-SPACE; DECISION-PROCESSES; SENSITIVITY-ANALYSIS; BIAS OPTIMALITY; COST CRITERION; POTENTIALS; POLICIES; MODELS;
机译:具有平均样本路径奖励的遍历连续时间马尔可夫链的最优控制
机译:具有平均奖励标准的稳定马尔可夫决策链中样本路径最优的反例
机译:带有平均奖励标准的稳定马尔可夫决策链中的样本路径最优平稳策略
机译:具有平均奖励标准的可数控制马尔可夫链:样本路径最优
机译:具有风险敏感平均成本准则的受控马尔可夫链。
机译:使用最佳控制和马尔可夫链蒙特卡洛方法进行药物发现的输入估计
机译:具有无穷回报的可数马尔可夫决策链中的平均,敏感和布莱克韦尔最优策略
机译:具有Borel状态空间和无界奖励的马尔可夫决策链中所有策略类的Blackwell最优性