Control Intell. Process. Center of Excellence, Univ. of Tehran, Tehran, Iran;
Markov processes; decision theory; intelligent robots; knowledge acquisition; learning (artificial intelligence); learning systems; mobile robots; predictive control; POMDP; TD network; knowledge extraction; partially observable Markov decision process; predictive model; reinforcement learning agent method; robot wall-following; temporal-difference network; Concept; MDP; Reinforcement Learning;
机译:在时间差异增强学习中最小化重播内存的相关性
机译:CO2允许市场下具有溶剂基碳捕集的电厂的最优竞价和运营:基于强化学习的Sarsa时差算法的解决方案
机译:利用多层的感知驱动增强学习改善网络微电网运行中的初级频率响应
机译:使用时间差异网络欧元兑2009改善钢筋学习
机译:使用强化学习来提高网络持久性。
机译:分布式表示的时差强化学习
机译:在时间差异增强学习中最小化重播内存的相关性