首页> 中文学位 >基于社区感知网络的多机器人系统Q-学习与运动控制研究
【6h】

基于社区感知网络的多机器人系统Q-学习与运动控制研究

代理获取

摘要

近年来,基于网络的多机器人系统领域研究取得了很好的成果,但从整体来看基于网络环境下的多机器人系统研究仍然面临许多亟需解决的问题,主要包括:如何应对实际环境复杂性所带来的静态节点无法全部连通问题;如何处理网络信息传输带来的时延、噪声、数据包丢失等困扰;如何增强网络化环境下机器人的环境理解能力;在网络化系统的框架下,如何高效的实现多机器人之间的运动控制等。
  增强学习是多机器人系统通过与外界环境交互的一类有效的机器学习方法。Q-学习作为增强学习的一种典型算法,由于其不用建立环境模型,通过试错法与环境的不断交互获得策略的改进和完善,最终实现对机器人的运动控制。通过在环境中部署静态节点,构建可相互连通的静态节点群组形成一个社区,通过无线通信方式形成多跳的社区感知网络。针对维数灾和学习不充分等问题,本硕士论文采用ε-半径近邻分类方法对机器人的历史状态进行分类和降维,同时将信息交互与共享等方法有机结合,提高机器人的Q-学习效率。最后,考虑学习信息在静态节点社区感知网络传输存在时滞特性,将拓扑网络的时滞假设为等时滞和异时滞两种情况,分别讨论多机器人系统在两种时滞社区感知网络环境下的Q-学习算法与运动控制。主要研究工作如下:
  第一,针对基于网络的多机器人系统存在的不足,给出了社区感知网络架构。利用静态智能节点提供社区内其他机器人的历史学习信息进行综合决策进而加快自身学习,提出了一种改进的多机器人Q-学习算法实现对机器人的运动控制。
  第二,针对社区感知网络环境下的多机器人强化学习中存在的维数灾和对社区网络内智能节点提供的其他机器人的历史信息学习不充分等问题,提出一种在线ε-半径近邻状态分类方法,对机器人历史状态进行实时的降维分类;同时利用社区近邻集更充分的学习其他机器人的历史信息;最后分析了Q值矩阵收敛性问题。
  第三,针对社区网络感知环境下机器人之间的信息交互的问题,通过融合社区网络内的机器人的学习信息,提出社区信息共享机制及社区Q值表更新规则,从而减小网络计算量和复杂度。同时考虑到学习信息在社区网络内的传输存在时滞特性,给出基于等时延的社区网络Q-学习算法更新规则,最后通过实验实现了对机器人实时的运动控制。
  第四,在社区感知网络环境下,考虑信息在静态感知节点间传输的异时滞特性,定义且计算社区拓扑网络的时延矩阵,针对多机器人编队行为的一致性任务要求,设计基于行为一致性的奖赏函数,提出基于异时滞社区网络的多机器人行为一致性Q-学习算法,实现多机器人在异时滞社区网络感知环境下的行为一致性控制。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号