机译:连续MDP的政策评估,具有高效的脑级梯度时间差异
机译:跨熵优化用于连续值MDPS的动作修改策略
机译:具有多个标准的无原子折扣和均匀吸收MDP的确定性政策的充分性
机译:学习深度优先搜索:确定性和非确定性环境中启发式搜索的统一方法及其在MDP中的应用
机译:ECA渲染与自我调整POMDP政策的唇部同步
机译:GMDPtoolbox:用于设计空间管理策略的Matlab库。在空气传播疾病的长期集体管理中的应用
机译:连续MDP的政策评估,具有高效的脑级梯度时间差异