Heuristic methods; Learning; Reinforcement(Structures); Algorithms; Test beds; Industries; Markov processes; Chemical agent detectors; Hierarchies; Policies; Time; Discrete distribution;
机译:勘误至:使用顾问,辅导员和工人的层次结构的多主体合作强化学习模型
机译:使用顾问,导师和工人的层次结构的多主体协作强化学习模型
机译:沟通学习何时需要分层多功能深度加强学习
机译:基于模型的等级普通奖励强化学习
机译:基于模型的合作多智能经纪人规划的强化学习:利用层次结构,偏见和时间采样
机译:多主体强化学习和近似模型学习的竞技游戏
机译:将分层强化学习扩展到连续时间,平均奖励和多智能体模型