机译:使用马尔可夫决策过程和模仿学习的电子叫车平台上的最佳客流策略
Columbia Univ Dept Civil Engn & Engn Mech New York NY 10027 USA;
Columbia Univ Dept Civil Engn & Engn Mech New York NY 10027 USA|Columbia Univ Data Sci Inst New York NY 10027 USA;
Didi Chuxing Inc Beijing Peoples R China;
Tongji Univ Natl Maglev Transportat Engn R&D Ctr Shanghai Peoples R China;
Univ Michigan Transportat Res Inst Ann Arbor MI 48109 USA|Univ Michigan Ford Sch Publ Policy Ann Arbor MI 48109 USA;
Markov Decision Process (MDP); Imitation learning; E-hailing;
机译:通过价值函数发现学习马尔可夫决策过程中的最优策略
机译:马尔可夫决策过程最优动作的收敛性与(s,S)库存策略的最优性
机译:离散时间马尔可夫决策过程中最优方程和最优策略的性质
机译:学习线性时序逻辑下马尔可夫决策过程的最优控制策略
机译:离散马尔可夫决策过程的次优策略的性能保证及其在机器人监视问题中的应用。
机译:马尔可夫决策过程框架中的最佳信息收集策略
机译:通过价值函数发现学习马尔可夫决策过程中的最优策略
机译:评离离散马尔可夫决策过程的最优成本敏感性和最优策略。