Reinforcement learning; Robots; Training; Legged locomotion; Probability distribution; Approximation algorithms; Measurement uncertainty;
机译:具有多种深度确定性政策梯度算法的深度集成钢筋学习
机译:基于跨越蒙特 - 卡洛深度确定性政策梯度的批量学习基于批处理流程的最优控制
机译:使用政策梯度优化和Q-Learning避免深增强学习碰撞
机译:通过最低限度深度确定性政策梯度求解鲁棒多功能钢筋学习
机译:关于游戏的深度加固学习:多重政策头部深度Q学的泛化
机译:控制动态双足行走的深度确定性策略梯度的实现
机译:稳健的多功能钢筋通过Minimax深度确定性政策梯度学习