首页> 中国专利> 基于图像隐变量概率模型的分布式强化学习社交导航方法

基于图像隐变量概率模型的分布式强化学习社交导航方法

摘要

本发明公开了一种基于图像隐变量概率模型的分布式强化学习社交导航方法。本发明通过引入图像隐变量概率预测模型替代传统的决定性预测模型,一方面增强模型的合理性,使得预测更逼近于存在随机性的行人运动模型,另一方面通过增强模型的探索能力来进一步加强策略性能,避免过拟合。同时,本发明通过图像序列解耦移动机器人自身运动来实现动态障碍物的判别,省去了存在不稳定性的高层行人检测模块,可以实现效果良好的迁移。另外,本发明设计了策略共享的多智能体仿真环境来模拟行人动态环境,增强仿真与真实人群交互的相似程度。环境中多智能体同步进行数据采集,因此训练时间可以得到进一步缩减。

著录项

  • 公开/公告号CN112947081A

    专利类型发明专利

  • 公开/公告日2021-06-11

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN202110163391.9

  • 发明设计人 熊蓉;崔瑜翔;王越;

    申请日2021-02-05

  • 分类号G05B13/04(20060101);

  • 代理机构33200 杭州求是专利事务所有限公司;

  • 代理人傅朝栋;张法高

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-06-19 11:22:42

说明书

技术领域

本发明属于移动机器人导航领域,具体涉及一种基于图像隐变量概率模型的分布式强化学习社交导航方法。

背景技术

随着计算机和自动化技术的飞速发展,机器人技术逐渐渗透进入各行各业,也走进人们的日常生活。它们不仅在传统的制造业中辅助或代替人类进行复杂繁重的工作,还在娱乐、医疗和安防等领域逐步取代人类。在劳动力成本激增的趋势下,机器人技术的推广无疑将大幅缓解随之而来的压力。因此机器人技术正逐步成为当前的热门研究方向,而服务型机器人作为其中的重要分支,其发展更是吸引了无数的关注。

服务型机器人作为机器人领域的重要一员,其定位核心在于服务,也即辅助甚至替代人类进行工作。近年来,服务型机器人已实验性地进入医疗、餐饮、家居等多个领域,在各自的岗位上较好地完成了预期工作。但是由于相关技术的发展尚不成熟,当前服务机器人的智能程度相对较低,只能处理一些相对简单的任务。面对复杂的工作环境和多样的人类需求,服务机器人的发展任重道远。

服务型机器人的定位决定了其工作环境的一大特性,人机混杂。在人机共融的环境下,一方面,服务机器人要能够通过和谐的人机交互及时了解人类的需求,找到最佳方案,高效且高质量地辅助人类进行工作,另一方面,服务机器人也要能够在工作过程中不对人类的正常运动产生阻碍,保证人类的安全。

近年来,随着强化学习算法的提出与推广,研究人员开始尝试让机器人具备像人一样从试错过程中逐步学习正确的决策方法,在多个领域取得了一定的成效,但是仍存在训练耗时长,易过拟合,难以实现仿真到实物的迁移等缺点。在移动机器人导航领域,尤其是人机共存环境下的服务型机器人的导航决策领域,强化学习的应用与落地仍有较多问题等待解决。

强化学习类方法在与环境交互的过程中学习导航策略。通过真实环境中的不断试错,智能体可以获取大量的交互经验,用于深度策略网络的迭代优化。试错经验由预先设定的奖惩函数进行标注,引导网络更新迭代,收敛至具有期望特性的策略。强化学习类方法根据是否对于世界动态模型进行建模可以分类为无模型的强化学习算法和基于模型的强化学习算法两类。

无模型的强化学习算法仅通过在环境中的不断探索来进行策略学习,而不对于状态间切换的动态模型进行学习。网络以试错的方式逐步了解环境,根据环境的反馈信息进行迭代优化,最终得到期望策略。在社交导航问题中,策略网络指引智能体在动态环境中进行运动,不断获取其与周围静态障碍物、动态行人以及目标点的交互状态对应的奖惩信息反馈,最终学会动态躲避障碍物并安全到达目标点的策略。根据是否对行人进行检测,无模型的强化学习社交导航算法又可以分为基于检测的和无检测的两类。

基于检测的无模型强化学习类方法在实时获取机器人周围行人的位置以及速度的基础上进行策略学习。Yu Fan Chen等人提出以价值函数网络描述人机交互的安全和舒适程度以及到达目标位置的所需时间,通过选取对应较高评分的决策指令来进行导航决策。在后续工作中,他们一方面通过引入LSTM网络处理可变数目的行人分布,将其应用扩展到更一般的的人群场景中,另一方面通过引入向右避让等社交准则进入奖惩函数设计,来使得机器人的避障行为更符合行人社会习惯。除了人机交互带来的影响,Changan Chen等人提出将不直接对当前机器人产生影响的人群内部交互引入考量,网络设计了具有注意力机制的池化层对场景内所有智能体之间的两两交互进行加权处理,使得最终决策得到更为综合的场景信息,从而得到更为得体的避障策略。

无检测的无模型强化学习类方法则直接以原始传感器信息为输入,端到端地输出机器人控制指令。Lei Tai等人采用稀疏的单帧激光数据作为环境感知,利用策略梯度的方法实现了无地图的机器人导航算法。然而该方法中,稀疏的单帧激光数据仅包含少量环境信息,且不能分辨环境中的动态障碍物状态,因此仅适用于静态场景或低速场景。PinxinLong等人则采用连续三帧激光数据作为网络输入,一定程度上提升策略对于动态障碍物的应对能力。他们利用PPO算法在分布式多智能体环境中训练避障策略,并在后续工作中将强化学习习得策略融入混合控制架构,配合PID控制算法实现更为灵活高效的社交导航策略。华为诺亚实验室的Jun Jin等人选择引入更多帧的激光数据并对时序观测数据进行机器人自身运动解耦来帮助网络更好地理解传感器信息,进而掌握包含了静态障碍物分布以及动态障碍物状态的综合环境信息。网络在考虑了社交舒适度的奖惩函数引导下迭代训练,最终能够在复杂的人机共融环境中安全地完成导航任务。

无模型的强化学习算法可以得到较为鲁棒的策略,应用于复杂多变的环境。然而该类算法的训练往往需要仿真环境中的大量交互数据,在真实环境中或者有限的时间内,这样的要求是难以满足的。基于模型的强化学习算法通过建立世界转换模型的方式,对环境的状态转移机制进行学习,进而对环境的变化进行预测,帮助智能体对环境进行探索,加速策略网络的训练。这样的方法可以实现更高的采样效率,使得网络在更少的真实交互数据中实现网络的收敛。

近年来,基于模型的强化学习算法在Atari游戏以及机器人控制领域都取得了不错的成果。与无模型强化学习算法相比,策略可以在显著减小的数据量中实现收敛,并达到同等水平的性能,采样效率获得大幅提升。Lukasz Kaiser等人利用MBPO训练框架解决了Atari游戏的控制问题,可以在极少数的真实交互下学习Atari游戏的控制策略,达到较好的完成水准。该算法利用真实交互数据训练深度世界模型,紧接着直接在深度世界模型中训练策略网络,循环往复。在深度世界模型产生的大量虚拟交互数据的帮助下,采样效率得到大幅提升。除了直接在预测模型上训练策略,一些方法选择利用深度世界模型来做模型预测控制。Junhyuk Oh等人提出了以控制指令为条件的视频序列预测模型,应用于Atari游戏的控制任务中,通过根据离散控制指令的影响来进行实际动作选择,实现Atari游戏的控制。Felix Leibfried则通过引入奖惩信息预测,进一步扩展了该方法。在机器人控制领域,研究人员尝试通过学习图像序列模型来实现动态特性复杂的运动控制。Frederik Ebert等人通过建立基于图像的预测模型,判断控制指令序列影响下的图像观测变换,通过选择最符合目标要求的动作序列来对机械臂进行控制,实现抓取和折叠等操作任务。

发明内容

本发明的目的在于解决现有技术中存在的问题,并提供一种基于图像隐变量概率模型的分布式强化学习社交导航方法。

为了实现上述发明目的,本发明具体采用的技术方案如下:

一种基于图像隐变量概率模型的分布式强化学习社交导航方法,所述方法包括共享策略的分布式多机器人仿真环境构建、社交导航策略网络训练和多机器人现实场景应用三部分;

所述共享策略的分布式多机器人仿真环境构建方法如下:

S11:构建多种分布静态场景,包括走廊、大厅和迷宫导航场景,并在场景内对各个机器人的位置进行随机初始化;

S12:搭建多机器人的通讯框架,实现机器人个体间以及机器人与环境之间交互的实时状态反馈;

S13:搭建多机器人的控制框架,实现满足机器人动力学的运动控制执行器;

S14:在所述通讯框架下进行策略共享,多机器人分布式进行导航决策,通过策略网络的自我博弈来模拟人机共存环境;

所述社交导航策略网络训练方法如下:

S21:多机器人在所述共享策略的分布式多机器人仿真环境中进行随机探索,初始化真实交互数据集;

S22:利用当前真实交互数据集作为训练数据,对预先构建的图像隐变量概率预测模型进行多步迭代训练;

S23:以当前交互真实数据集的采样数据为起点,利用图像隐变量概率预测模型进行预测推演,得到虚拟交互数据集,将虚拟交互数据集与当前真实交互数据集结合得到综合数据集;

S24:利用综合数据集作为训练数据,对策略网络进行迭代优化;

S25:在仿真环境中进行测试,若策略网络收敛则停止迭代,若策略网络未收敛,则进一步补充真实交互数据集,重新回到S22;

所述多机器人现实场景应用方法如下:

S31:搭建多机器人的车载主控机与传感器及控制器间的信息互联,实现各机器人的环境感知;

S32:搭建本地计算机与多机器人的车载主控机间的信息互联,利用本地计算机上训练后的策略网络进行控制决策,实现社交导航。

作为优选,在所述的共享策略的分布式多机器人仿真环境构建部分中,采用Gazebo仿真来搭建训练环境,场景内包含四个动态障碍物用于行人的模拟,同时设置多个形状以及位置随机的静态障碍物来为场景增添随机性;仿真中选用Turtlebot2移动机器人来验证导航决策效果,由相同的导航决策方法通过ROS通讯架构进行控制;环境接收控制指令后按照运动学模型进行更新迭代一次,并返回机器人当前观测以及奖励函数值,形成反馈。

作为优选,在所述共享策略的分布式多机器人仿真环境中,多机器人独立进行导航决策,个体间不进行通讯以及信息共享;策略网络在所有机器人的交互经验数据上进行迭代优化,在多机器人的相互对抗与合作过程中逐步学习社交导航策略。

作为优选,在所述共享策略的分布式多机器人仿真环境中,该仿真环境下的社交导航被视为一个部分可观马尔科夫决策过程,表示为元组(S,A,P,R,Ω,O),其中S表示状态空间,A表示动作空间,R表示奖惩函数,Ω表示观测空间,O表示指定状态基础上的观测概率;P表示状态转移方程,由真实环境的动力学模型和基于图像隐变量的深度模型机制共同构成;仿真环境按照该决策过程的设定进行迭代更新并进行反馈,用于网络的训练;

所述观测空间由激光读数,目标相对位置和机器人自身速度构成,其中激光读数以局部障碍物地图序列进行表示;

所述动作空间由机器人的线速度和角速度构成;

所述奖惩函数由三部分构成,分别为接近目标奖励,靠近障碍物惩罚以及违反社交规范惩罚:

R(s

R

其中r

为了保证运动的安全性,机器人在靠近或者碰到障碍物时会得到一定程度的惩罚:

其中r

最后,为了保证机器人运动的社交属性要求,增添了社交距离惩罚,避免机器人过度靠近其他动态机器人:

其中ω

作为优选,在所述的步骤S22中,所述图像隐变量概率预测模型的结构以及预测流程如下:

输入层包括局部障碍物地图序列的帧间差值构成的前景信息、最新的局部障碍物地图构成的背景信息、当前时刻的目标相对位置、当前时刻的机器人状态,输出层为下一时刻的局部障碍物地图、目标相对位置、机器人状态以及奖励值反馈的预测结果;在该模型中,前景信息用于生成多层级的卷积核,而背景信息被处理为多层级的背景特征图;其中多层级的卷积核由前景信息编码得到的均值和方差,通过随机采样以及分割得到,用于卷积处理相应层级的背景特征图,得到多层级的动作预测特征图;随后,经由对应卷积核处理的多个动作预测特征图再通过上采样恢复到统一大小,最终输入解码器,得到原机器人坐标系下的局部障碍物地图预测结果;将当前时刻的目标相对位置和当前时刻的机器人状态结合控制指令,通过机器人的运动学模型推算下一时刻的目标相对位置和机器人状态以及机器人坐标系变换,将原机器人坐标系下的局部障碍物地图预测结果根据机器人坐标系变换进行旋转平移,得到下一时刻最终的局部障碍物地图、目标相对位置、机器人状态以及奖励值反馈的预测结果。

作为优选,在所述的步骤S23中,利用S22中构建的图像隐变量概率预测模型,对采样数据进行多次推演,生成大量虚拟交互数据,扩充数据集,从而减少对于真实交互的需求量。

作为优选,所述策略网络选用包含Actor网络和Critic网络的TD3架构,用于学习社交导航策略;该策略网络中,以解耦机器人自身运动的局部障碍物地图序列,机器人自身状态以及目标相对位置为输入,以决策指令为输出;其中,Actor网络采用3D-CNN模块处理局部障碍物地图序列,编码得到环境信息隐变量,后续结合目标位置信息以及机器人速度信息,得到当前整体状态信息,经由全连接层处理,输出控制指令;Critic网络则在整体状态信息的基础上,拼接Actor网络输出的控制指令,由全连接层处理得到当前策略的质量评估即Q值;网络的输入信息均进行归一化处理。

作为优选,在所述的多机器人现实场景应用中,搭建基于iLoboke A100 AGV机器人的导航控制系统对策略网络进行实际应用;该系统在全局层面利用UDP通讯协议建立本地计算机与车载主控机间的信息互联,各个AGV机器人局部层面利用ROS通讯架构实现车载主控机和传感器以及控制器间的信息互联;整个系统由一台本地计算机和多个AGV机器人组成,本地计算机同时与所有机器人通讯,不同IP地址对应不同的机器人,不同的端口对应不同类型的数据,包括传感器数据和速度控制指令;各个AGV机器人向本地计算机IP对应端口发送传感器数据,本地计算机向不同机器人对应IP和端口发送速度控制指令,所有数据均通过UDP协议进行传输;训练后的策略网络内置于本地计算机中;单个机器人的实际运行过程中,车载主控机从传感器获取环境感知信息,在局域网通过UDP将信息传递至本地计算机的特定端口;本地计算机在对应端口接收数据,并根据当前传感器信息,利用策略网络进行处理,得到控制指令并传递回车载主控机;最终,车载主控机将控制指令下达至底盘控制器,实现AGV机器人的运动控制;其中车载主控机与传感器以及底盘控制器在ROS框架下进行通讯,二维激光传感器信息上传至第一话题,轮子编码器获取机器人当前的速度信息上传至第二话题,AGV速度控制指令上传至第三话题,实现ROS框架下信息的实时传递以及更新。

本发明提供的基于图像隐变量概率模型的分布式强化学习社交导航方法通过建立概率世界模型,更加合理地产生大量的虚拟交互数据,结合少量的真实交互数据构成综合的策略训练数据集。策略网络在综合的数据集上进行迭代训练,最终回到仿真环境进行效果验证,并采集新的数据用于下一轮训练,循环往复直至网络收敛至期望状态。世界模型方面,选用图像隐变量概率模型对局部障碍物地图形式的激光信息进行预测,通过引入概率分布的方式,更好地模拟行人运动中存在的不确定性,帮助网络更好地理解环境状态,区分静态和动态障碍物。仿真环境方面,选用策略共享的多智能体仿真环境来模拟人群环境,用于环境数据采集以及策略的评估。

在该方法的帮助下,图像隐变量概率模型可以更为准确以及合理地预测行人运动,从而更为高效且稳定的进行交互数据集的扩充,帮助策略网络更好地理解环境,加速网络收敛,并提高最终的策略性能。

附图说明

图1为基于图像隐变量概率模型的分布式强化学习社交导航方法实验框架图;

图2为基于图像隐变量概率模型的分布式强化学习社交导航方法实验流程图;

图3为解耦机器人自身运动的局部障碍物地图序列堆叠示意图;

图4为概率预测效果图;

图5为基于图像隐变量概率模型的世界模型结构图;

图6为策略网络结构图;

图7为预测效果对比示意图;

图8为仿真实验示意图;

图9为实物实验示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。

在本发明的一个较佳实施例中,提供了一种基于图像隐变量概率模型的分布式强化学习社交导航方法,

现有的强化学习社交导航方法通过环境中移动机器人的大量试错来学习期望的社交导航策略。由于实物实验会对行人的安全产生威胁,并且实物机器人的造价较高,该类方法一般选择在仿真环境中进行训练迭代。然而,强化学习算法依然存在训练耗时,易过拟合,难以实现仿真到实物的迁移等缺点。针对于这些问题,本发明采用基于模型的强化学习方法,提高样本利用率,加速策略收敛。方法中通过引入图像隐变量概率预测模型替代传统的决定性预测模型,一方面增强模型的合理性,使得预测更逼近于存在随机性的行人运动模型,另一方面通过增强模型的探索能力来进一步加强策略性能,避免过拟合。同时,由于该模型基于仿真与实物差距较小的二维激光雷达恢复得到的局部障碍物地图序列,通过图像序列解耦移动机器人自身运动来实现动态障碍物的判别,省去了存在不稳定性的高层行人检测模块,可以实现效果良好的迁移。另外,本发明设计了策略共享的多智能体仿真环境来模拟行人动态环境,增强仿真与真实人群交互的相似程度。环境中多智能体同步进行数据采集,因此训练时间可以得到进一步缩减。

如图1所示,该方法包括共享策略的分布式多机器人仿真环境构建、社交导航策略网络训练和多机器人现实场景应用三部分。下面对三部分的具体实现形式进行展开描述。

一、共享策略的分布式多机器人仿真环境构建方法如下:

S11:构建多种分布静态场景,包括走廊、大厅和迷宫导航场景,并在场景内对各个机器人的位置进行随机初始化;

S12:搭建多机器人的通讯框架,实现机器人个体间以及机器人与环境之间交互的实时状态反馈;

S13:搭建多机器人的控制框架,实现满足机器人动力学的运动控制执行器;

S14:在所述通讯框架下进行策略共享,多机器人分布式进行导航决策,通过策略网络的自我博弈来模拟人机共存环境;

二、社交导航策略网络训练方法如下:

S21:多机器人在所述共享策略的分布式多机器人仿真环境中进行随机探索,初始化真实交互数据集;

S22:利用当前真实交互数据集作为训练数据,对预先构建的图像隐变量概率预测模型进行多步迭代训练;

S23:以当前交互真实数据集的采样数据为起点,利用图像隐变量概率预测模型进行预测推演,得到虚拟交互数据集,将虚拟交互数据集与当前真实交互数据集结合得到综合数据集;

S24:利用综合数据集作为训练数据,对策略网络进行迭代优化;

S25:在仿真环境中进行测试,若策略网络收敛则停止迭代,若策略网络未收敛,则进一步补充真实交互数据集,重新回到S22;

三、多机器人现实场景应用方法如下:

S31:搭建多机器人的车载主控机与传感器及控制器间的信息互联,实现各机器人的环境感知;

S32:搭建本地计算机与多机器人的车载主控机间的信息互联,利用本地计算机上训练后的策略网络进行控制决策,实现社交导航。

该社交导航方法的框架图如图2所示,该方法基于图像隐变量概率模型来完成激光局部障碍物地图的预测任务。智能体按照随机策略进行探索,多智能体随机进行采样,获得初始真实交互数据集,用于策略网络以及图像隐变量概率预测网络的初始化训练。随后,通过策略网络与世界转换模型的交互,产生大量的虚拟交互数据,用于策略网络的训练。得到的策略网络进一步回到真实环境中进行评估,同时采集新的交互数据,扩充真实交互数据集,用于世界转换模型的继续优化迭代。这样循环往复直至策略网络收敛。下面对上述各步骤在本实施例中的具体实现形式进行展开描述。

在上述共享策略的分布式多机器人仿真环境构建部分中,采用Gazebo仿真来搭建训练环境,场景内包含四个动态障碍物用于行人的模拟,同时设置多个形状以及位置随机的静态障碍物来为场景增添随机性;仿真中选用Turtlebot2移动机器人来验证导航决策效果,由相同的导航决策方法通过ROS通讯架构进行控制;环境接收控制指令后按照运动学模型进行更新迭代一次,并返回机器人当前观测以及奖励函数值,形成反馈。

其中,在上述共享策略的分布式多智能体仿真环境中,多智能体独立进行导航决策,个体间不进行通讯以及信息共享;策略网络在所有智能体的交互经验数据上进行迭代优化,在多智能体的相互对抗与合作过程中逐步学习社交导航策略。

在上述共享策略的分布式多智能体仿真环境中,该仿真环境下的社交导航被视为一个部分可观马尔科夫决策过程,表示为元组(S,A,P,R,Ω,O),其中S表示状态空间,A表示动作空间,R表示奖惩函数,Ω表示观测空间,O表示指定状态基础上的观测概率;P表示状态转移方程,由真实环境的动力学模型和基于图像隐变量的深度模型机制共同构成;仿真环境按照该决策过程的设定进行迭代更新并进行反馈,用于网络的训练。

观测空间由激光读数,目标相对位置和机器人自身速度构成,其中激光读数以局部障碍物地图序列进行表示;

动作空间由机器人的线速度和角速度构成;考虑到机器人的动力学限制以及人机共存环境下的安全性要求,实验中将线速度控制在[-1,1],角速度控制在[-1.5,1.5]。

奖惩函数由三部分构成,分别为接近目标奖励,靠近障碍物惩罚以及违反社交规范惩罚:

R(s

R

其中r

为了保证运动的安全性,机器人在靠近或者碰到障碍物时会得到一定程度的惩罚:

其中r

最后,为了保证机器人运动的社交属性要求,增添了社交距离惩罚,避免机器人过度靠近其他动态智能体:

其中ω

与接近目标奖励不同的,靠近障碍物惩罚以及违反社交规范惩罚为稀疏的奖惩信息。当机器人与障碍物间距较大时,不受到R

在上述步骤S22中,图像隐变量概率模型选用基于交错卷积网络的条件变分自编码器(Cross convolutional Variational Auto-Encoder)为生成器来完成激光局部障碍物地图的预测任务。

图像隐变量概率模型作为世界转换模型以机器人的当前状态和控制指令为输入,以未来的状态以及对应的奖惩信息为输出,对机器人的状态转变过程进行预测。

该图像隐变量概率模型的结构以及预测流程如下:

输入层包括局部障碍物地图序列的帧间差值构成的前景信息、最新的局部障碍物地图构成的背景信息、当前时刻的目标相对位置、当前时刻的机器人状态,输出层为下一时刻的局部障碍物地图、目标相对位置、机器人状态以及奖励值反馈的预测结果;在该模型中,前景信息用于生成多层级的卷积核,而背景信息被处理为多层级的背景特征图;其中多层级的卷积核由前景信息编码得到的均值和方差,通过随机采样以及分割得到,用于卷积处理相应层级的背景特征图,得到多层级的动作预测特征图;随后,经由对应卷积核处理的多个动作预测特征图再通过上采样恢复到统一大小,最终输入解码器,得到原机器人坐标系下的局部障碍物地图预测结果;将当前时刻的目标相对位置和当前时刻的机器人状态结合控制指令,通过机器人的运动学模型推算下一时刻的目标相对位置和机器人状态以及机器人坐标系变换,将原机器人坐标系下的局部障碍物地图预测结果根据机器人坐标系变换进行旋转平移,得到下一时刻最终的局部障碍物地图、目标相对位置、机器人状态以及奖励值反馈的预测结果。

参见图5所示,在该网络模型内部的原理以及数据处理流程详述如下:

当前环境下,机器人的状态信息包含二维激光数据,目标相对位置以及当前速度三项。其中未来的目标位置和速度信息可以直接根据当前状态和控制指令,结合机器人的运动学模型进行推算。然而对于激光观测的预测来说,其状态转换不仅受到自身运动的影响,也受到周围动态障碍物运动的影响。其中自身运动对应于视野范围的平移与旋转,可以直接依据速度信息进行推算。而动态障碍物的运动信息对应于固定视角下激光读数的变化,须要根据历史的激光信息进行推理和预测。

本实施例中采用连续十帧激光数据作为网络输入,引入时序的环境信息,帮助网络获取动态障碍物的历史运动信息,应对单帧观测所带来的部分可观马尔科夫问题。激光序列后续被处理为局部障碍物地图的形式,并根据里程计获取的机器人自身位姿变化进行解耦,得到同一观测坐标系下的堆叠局部障碍物地图序列,如图3所示。该表达形式下,静态障碍物和动态障碍物可以得到明显区分,其中静态障碍物呈现为堆叠重影,而动态障碍物则呈现为一条运动轨迹。这样的表达形式一方面可以帮助网络更好地理解环境状况,另一方面也能够显著提升网络的预测准确度。

时序的局部障碍物地图被处理为前景和背景两部分,进一步帮助网络区分静态和动态障碍物,实现有针对性的预测。

其中,前景主要指环境中的运动障碍物状态,包括其位置以及运动方向和速度大小等,由相邻帧的局部障碍物地图做差得到的差值图进行描述。静态障碍物部分因为不存在帧间差异而对应为差值图中的零值。动态障碍物则对应于差值图中的非零值部分,负值代表障碍物消失,也即动态障碍物的离开,而正值表示障碍物新增,也即动态障碍物的到来。按照时序排列的差值图即为仅包含场景内动态障碍物信息的前景部分。背景则主要指环境中的静态障碍物分布情况,由最新一张局部障碍物地图代表。

网络选用改进的基于交错卷积网络的条件变分自编码器为生成器来完成激光局部障碍物地图的预测任务。该生成器根据当前观测得到具有多种可能性的未来观测,代替前文图像隐变量模型中的图像预测模块,实现概率性的预测效果,更合理地模拟存在不确定性的行人运动。

条件变分自编码器以当前观测为输入,对其进行编码,并根据条件概率分布,随机采样出预测隐变量,进一步解码生成预测观测。网络假设其参数的分布符合多元高斯分布,训练过程中通过拟合条件概率分布或者条件概率分布的上界来进行迭代优化。条件变分自编码器基于交错卷积神经网络,以输入图像为条件,利用分层的运动场来对图像序列进行预测,实现多个语义模块的区别预测处理。

该网络同样以局部障碍物地图序列的帧间差值构成的前景信息和最新的局部障碍物地图构成的背景信息为输入,以局部障碍物地图的预测结果为输出。但是,在该网络中,前景信息用于生成不同层级的卷积核,而背景信息被处理为多层级的特征图。其中多层级的卷积核由前景信息编码得到的均值和方差,通过随机采样以及分割得到,用于卷积处理相应层级的背景特征图,从而实现多层级的动作预测。随后,经由对应卷积核处理的多个特征图再通过上采样恢复到统一大小,最终输入解码器,得到预测。

图4为本实施例中的概率预测效果图。

在上述步骤S23中,利用S22中构建的图像隐变量概率预测模型,对采样数据进行多次推演,生成大量虚拟交互数据,扩充数据集,从而减少对于真实交互的需求量。由于引入了概率模型,多次推演的结果不相同,但均包含在合理的数据分布内,更好地模拟了行人运动中存在的不确定性。

在上述社交导航策略网络中,策略网络选用包含Actor网络和Critic网络的TD3架构,用于学习社交导航策略。策略网络结构参见图6所示,该策略网络中,以解耦机器人自身运动的局部障碍物地图序列,机器人自身状态以及目标相对位置为输入,以决策指令为输出;其中,Actor网络采用3D-CNN模块处理局部障碍物地图序列,编码得到环境信息隐变量,后续结合目标位置信息以及机器人速度信息,得到当前整体状态信息,经由全连接层处理,输出控制指令;Critic网络则在整体状态信息的基础上,拼接Actor网络输出的控制指令,由全连接层处理得到当前策略的质量评估即Q值;网络的输入信息均进行归一化处理。

在上述多机器人现实场景应用中,搭建基于iLoboke A100 AGV机器人的导航控制系统对策略网络进行实际应用;该系统在全局层面利用UDP通讯协议建立本地计算机与车载主控机间的信息互联,各个AGV机器人局部层面利用ROS通讯架构实现车载主控机和传感器以及控制器间的信息互联;整个系统由一台本地计算机和多个AGV机器人组成,本地计算机同时与所有机器人通讯,不同IP地址对应不同的机器人,不同的端口对应不同类型的数据,包括传感器数据和速度控制指令;各个AGV机器人向本地计算机IP对应端口发送传感器数据,本地计算机向不同机器人对应IP和端口发送速度控制指令,所有数据均通过UDP协议进行传输;训练后的策略网络内置于本地计算机中;单个机器人的实际运行过程中,车载主控机从传感器获取环境感知信息,在局域网通过UDP将信息传递至本地计算机的特定端口;本地计算机在对应端口接收数据,并根据当前传感器信息,利用策略网络进行处理,得到控制指令并传递回车载主控机;最终,车载主控机将控制指令下达至底盘控制器,实现AGV机器人的运动控制;其中车载主控机与传感器以及底盘控制器在ROS框架下进行通讯,二维激光传感器信息上传至第一话题,轮子编码器获取机器人当前的速度信息上传至第二话题,AGV速度控制指令上传至第三话题,实现ROS框架下信息的实时传递以及更新。

在上述多机器人现实场景应用中,本实施例迭代收敛得到的最终策略在Gazebo仿真内的多场景下以及实物差分机器人上均进行性能测试以验证导航方法的性能。而且为了验证局部障碍物地图形式的激光表示的优点,本部分将其与角度范围形式的激光表示在预测准确度方面进行对比。实验中选择基于LSTM实现了以角度范围形式激光为输入的预测网络与基于图像隐变量的预测模型进行对比。网络的输入均进行机器人自身运动解耦以及归一化处理,且训练至完全收敛。

对比实验利用两个预测模型进行了连续五帧展开预测,结果统一以局部障碍物地图形式呈现,如图7所示。预测结果中深灰色部分为网络输入的十帧历史轨迹,浅灰色部分为前四帧预测,白色部分为第五帧预测。动态障碍物则因运动的速度大小和方向而呈现为不同方向的拖尾,而静态障碍物则呈现为无拖尾的白色点线分布。对比可以发现,局部障碍物地图形式的激光表示可以更清晰地区分动静障碍物,也可以更加准确合理地预测动态障碍物运动轨迹,而角度范围形式的激光表达难以达到相同水准。定量分析中,局部障碍物地图形式的激光表示可以达到更小的重建误差,如表1所示。

表1为预测准确度对比结果

为了进一步测试本方法下习得策略的性能,实验在图8的环境中选择了多个常见行人交互场景进行测试,并将本方法与两个现有算法进行对比,结果如表2所示。

表2为策略性能对比结果

测试结果显示,本文提出的方法可以在相似的时间长度内,实现更高的成功率。并且,本文提出的方法可以保证较高的安全评分以及社交舒适评分。这意味着局部障碍物地图形式的激光表示方式可以帮助策略网络更清晰地认识环境动态信息,并且在世界转移模型的帮助下,网络可以更加全面地探索环境,得到更稳定的最终策略。

在实际的差分机器人验证试验中,本方法习得策略的效果也得到了验证。测试场景包括多种常见的行人交互场景,例如超越,反向以及交错等场景。实验结果如图9所示,可以观察到多智能体通过相互协作的轨迹调整完成碰撞躲避,实现具有社交特性的导航规划。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号