首页> 外文期刊>Journal of robotics and mechatronics >Off-Policy Natural Policy Gradient Method for a Biped Walking Using a CPG Controller
【24h】

Off-Policy Natural Policy Gradient Method for a Biped Walking Using a CPG Controller

机译:使用CPG控制器的Biped步行的非政策自然政策梯度方法

获取原文
获取原文并翻译 | 示例
       

摘要

Referring to the mechanism of animals' rhythmic movements, motor control schemes using a central pattern generator (CPG) controller have been studied. We previously proposed reinforcement learning (RL) called the CPG-actor-critic model, as an autonomous learning framework for a CPG controller. Here, we propose an off-policy natural policy gradient RL algorithm for the CPG-actor-critic model, to solve the "exploration-exploitation" problem by meta-controlling "behavior policy." We apply this RL algorithm to an automatic control problem using a biped robot simulator. Computer simulation demonstrated that the CPG controller enables the biped robot to walk stably and efficiently based on our new algorithm.
机译:关于动物的节奏运动机制,已经研究了使用中央模式发生器(CPG)控制器的运动控制方案。我们之前提出了称为CPG-actor-critic模型的强化学习(RL),作为CPG控制器的自主学习框架。在此,我们为CPG-行为者-批评模型提出了一种政策外的自然政策梯度RL算法,以通过元控制“行为政策”来解决“探索-利用”问题。我们使用双足机器人模拟器将此RL算法应用于自动控制问题。计算机仿真表明,基于我们的新算法,CPG控制器使两足动物机器人能够稳定高效地行走。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号