机译:带有时间惩罚的资产组合管理的连续时间强化学习方法
Inst Politecn Nacl, Escuela Super Fis & Matemat, Bldg 9 UP Adolfo Lopez Mateos, Mexico City 07730, DF, Mexico|Natl Polytech Inst, Sch Phys & Math, Mexico City, DF, Mexico;
Inst Politecn Nacl, Escuela Super Fis & Matemat, Bldg 9 UP Adolfo Lopez Mateos, Mexico City 07730, DF, Mexico|Natl Polytech Inst, Sch Phys & Math, Mexico City, DF, Mexico;
Inst Politecn Nacl, Escuela Super Fis & Matemat, Bldg 9 UP Adolfo Lopez Mateos, Mexico City 07730, DF, Mexico|Natl Polytech Inst, Sch Phys & Math, Mexico City, DF, Mexico;
Portfolio; Reinforcement learning; Transaction costs; Continuous-time; Markov chains;
机译:随着时间的惩罚,投资组合管理的连续时间加固学习方法
机译:具有交易成本的连续时间均值方差组合:涉及时间惩罚的近端方法
机译:具有交易成本的连续时间平均方差组合:涉及时间惩罚的近端方法
机译:未知非线性连续时间系统的事件触发强化学习方法
机译:用于随机连续时间增强学习问题的平滑框架
机译:实时任务分配方法利用强化学习和演化策略使雾计算中的长期延迟最小化
机译:连续时间平均值 - 方差组合选择:加强学习框架
机译:将分层强化学习扩展到连续时间,平均奖励和多智能体模型