机译:最佳政策的独特性作为折扣马尔可夫决策流程的通用财产:ekeland的变分原理方法
机译:最优政策的唯一性是马尔可夫决策过程的一般性质:EKELAND的变分原理方法
机译:最优政策作为折现马尔科夫决策过程的通用属性的唯一性:Ekeland的变分原理方法
机译:凸折扣马尔可夫决策过程中最优策略的非唯一性与唯一性
机译:波兰空间中连续时间马尔可夫决策过程的折扣最优性
机译:马尔可夫决策过程和近似动态规划方法进行最优处理设计
机译:通过使用τ距离及其应用来推广Ekeland的变分原理
机译:折扣马尔可夫决策过程中最优平稳策略的存在:职业测度的方法