首页> 中文期刊> 《计算机应用研究》 >基于LSTM与非对称网络的改进DDPG算法研究

基于LSTM与非对称网络的改进DDPG算法研究

         

摘要

针对深度强化学习算法在复杂动态环境中训练时,由于环境的部分可观测性原因导致智能体难以获得有用信息而不能学习到良好策略且算法收敛速度慢等典型问题,提出一种基于LSTM和非对称actor-critic网络的改进DDPG算法。该算法在actor-critic网络结构中引入LSTM结构,通过记忆推理来学习部分可观测马尔可夫状态中的隐藏状态,同时在actor网络只使用RGB图像作为部分可观测输入的情况下,critic网络利用仿真环境的完全状态进行训练构成非对称网络,加快了训练收敛速度。通过在ROS中进行机械臂抓取仿真实验,结果显示该算法相比于DDPG、PPO和LSTM-DDPG算法获得了更高的成功率,同时具有较快的收敛速度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号