首页> 中国专利> 一种基于模型学习的清洁机器人最优目标路径规划方法

一种基于模型学习的清洁机器人最优目标路径规划方法

摘要

本发明公开了一种基于模型学习的清洁机器人最优目标路径规划方法,针对目前市场中清洁机器人效率不高的问题,在Dyna?H算法的基础上,提出一种基于自模拟度量和R?MAX的Dyna算法,该路径规划方法可驱动机器人优先处理垃圾可能最多的地点,以强化学习框架和Dyna?H算法为基础,使用R?MAX算法中的探索机制,在状态间距离的度量方法上,使用自模拟度量改进Dyna?H中的欧式距离度量方法,从而提高模型的学习效率。本发明的优点是模型学习效率较高,适用确定环境和随机环境,在复杂的环境下能够较为高效地使机器人快速得到较为准确的环境模型,以规划出到达垃圾最多地点的最优路径。

著录项

  • 公开/公告号CN105740644A

    专利类型发明专利

  • 公开/公告日2016-07-06

    原文格式PDF

  • 申请/专利权人 苏州大学;

    申请/专利号CN201610171859.8

  • 发明设计人 刘全;周谊成;朱斐;

    申请日2016-03-24

  • 分类号G06F19/00(20110101);

  • 代理机构32221 苏州市新苏专利事务所有限公司;

  • 代理人朱亦倩

  • 地址 215000 江苏省苏州市工业园区仁爱路199号

  • 入库时间 2023-06-19 00:02:20

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-20

    专利权的转移 IPC(主分类):G06F19/00 专利号:ZL2016101718598 登记生效日:20220908 变更事项:专利权人 变更前权利人:苏州大学 变更后权利人:海博(苏州)机器人科技有限公司 变更事项:地址 变更前权利人:215000 江苏省苏州市工业园区仁爱路199号 变更后权利人:215000 江苏省苏州市相城区经济技术开发区澄阳街道澄阳路116号阳澄湖国际科技创业园2号楼313-314室

    专利申请权、专利权的转移

  • 2018-04-13

    授权

    授权

  • 2016-08-03

    实质审查的生效 IPC(主分类):G06F19/00 申请日:20160324

    实质审查的生效

  • 2016-07-06

    公开

    公开

说明书

技术领域

本发明涉及一种涉及机器学习中的强化学习方法,具体涉及一种基于模型学习的 清洁机器人最优目标路径规划方法。

背景技术

强化学习(ReinforcementLearning,RL)是一种学习环境状态到动作映射的机器 学习方法。Agent选择动作作用于环境,改变环境的状态,迁移到新的环境状态,并得到环境 的反馈信号。这个反馈信号通常称为奖赏或强化信号,Agent利用它通过一定的算法强化自 己已经学习到的经验,它的目标是最大化累计期望奖赏。

传统的强化学习方法利用Agent与环境交互得到的信息进行学习,不断更新值函 数使之趋近最优解,例如动态规划(DynamicProgramming,DP),蒙特卡洛(MonteCarlo, MC),和时间差分(TemporalDifference,TD)。这些方法是强化学习的基本方法,许多算法 都由它们衍生而来。

模型学习方法的出现使强化学习的算法效率提高了一个台阶,它在近年来已成为 强化学习中的一个研究热点。

模型学习的最初思想(Dyna-Q算法)是将采集到的历史样本保存下来,在随后的更 新步骤中,除了更新当前时间步的样本外,还从历史样本中抽取一些样本进行更新。这样, 样本的利用率得到增加,提高了值函数收敛的效率。在这样的思想下之后进一步演化为对 模型的构建,即利用当前得到的样本构建一个环境的模型。在对真实环境的不断探索中,构 建的模型会越来越精确和完整,这个模型就可以代替真实环境被充分地利用,节省与真实 环境交互的开销。

那么,模型学习的效率就取决于模型构建的速度,模型构建得越快,算法从模型中 得到的信息就越有价值。显然,交互获得的样本广度直接影响到模型构建的速度。Dyna-H使 用了一种启发式的规划方法,通过预测做出动作后到达的下一个状态与终点之间的欧式距 离,来使Agent尽量远离终点,这样就可以使Agent在一个情节中尽可能多地探索环境,避免 过早到达终点。

然而,Dyna-H算法是有局限性的。在有障碍物的情况下,两点间的欧式距离并不能 很好的反映它们之间的真实距离。可能由于一墙之隔,位于墙一侧的Agent可能需要绕一个 大弯才能到达墙另一侧的终点,而欧式距离则显示它们离得很近。另外,Dyna-H保留了 Dyna-Q中取历史样本的方法,而没有去为环境建立真正的模型。基于此,算法的性能还可以 进一步提高。

在模型学习的方法中,R-MAX是一种高效探索的方法,它的核心思想是假设所有未 知的状态-动作所获得的奖赏为最大奖赏Rmax,并转移到终止状态。这样,当选择值最大的动 作时,就会选择这个未知动作,从而隐式地达到了探索的目的。当状态-动作对被访问到m次 时,则标记该状态-动作对为已知,将来不再探索。这样,所有状态-动作对都能被快速均匀 地探索,从而学习到较为精确的模型。

针对Dyna-H中计算状态间距离的局限性,本发明采用更为精确的自模拟度量的方 法。首先介绍自模拟关系:若两个状态满足自模拟关系,则它们拥有相同的最优值函数和最 优动作。Ferns等人在在自模拟关系的基础之上,利用Kantorovich距离衡量两个概率分布 之间的距离,提出了一种可用于衡量两个状态之间远近关系的自模拟度量方法 (BisimulationMetric)。相比于欧式距离,自模拟度量引入了奖赏函数,状态转移函数等 要素,能更精确地表示状态之间的距离。

发明内容

本发明目的是:提供一种基于模型学习的清洁机器人最优目标路径规划方法,通 过将自模拟度量和R-MAX相结合来改进搜索方式,提高模型学习的效率,从而最终提高值函 数的搜索效率,效率的提高使得机器人能够快速地建立环境模型,从而优先选择垃圾最多 的地点,并计算出达到该地点的最优路径。

本发明的技术方案是:一种基于模型学习的清洁机器人最优目标路径规划方法, 其特征在于,包括如下步骤:

步骤1)初始化模型,设置R(x,u)=Rmax,f(x,u,x′)=1,其中R(x,u)为奖赏函数,f (x,u,x′)为状态转移函数,Rmax为最大奖赏值,x、u为状态动作对,x′为执行x、u后转移到的 下一个状态;

步骤2)初始化环境,设置机器人的起始位置;

步骤3)判断当前的探索完全度η,若达到阈值I,转入步骤4),否则转入步骤(5);

步骤4)使用自模拟度量方法,计算当前机器人可做的所有动作所到达的地点与最 多垃圾堆的距离,选择使距离最大的动作,转入步骤(6);

步骤5)使用ε-Greedy策略选择动作,转入步骤(6);

步骤6)如果该状态动作对被标记为已知,则放弃该动作,并随机选择一个动作;

步骤7)机器人根据动作进行移动,通过传感器判断当前地点是否有垃圾和移动之 后的地点;

步骤8)通过R-MAX方法统计不同地点的访问次数和奖赏和,标记已知地点,并计算 状态转移函数f(x,u,x′)和奖赏函数R(x,u);

步骤9)机器人行动结束,若到达垃圾堆,转入步骤(10),否则转入步骤(2);

步骤10)执行值迭代算法;

步骤11)若运行时间允许,转入步骤(2),否则通过Greedy方法计算最优路线。

作为优选的技术方案,步骤3)中所述探索完全度其中C(x,u)为状 态动作对(x,u)被访问的次数,|X|为状态空间大小,|U|为动作空间大小,m为状态被标记为 已知前需要被访问的次数。

作为优选的技术方案,步骤4)中所述距离最大的动作其中,d(x,x′)为状态x与x′之间的自模拟度量,Model(x,u)为从构建的模型中得到下一个 状态,xg为终结状态。

作为优选的技术方案,步骤8)中计算状态转移函数f(x,u,x′)和奖赏函数R(x,u) 的具体步骤如下:

设置C(x,u,x′)增加1,C(x,u)增加1,RSUM(x,u)增加r;

如果C(x,u)≥m,则R(x,u)←RSUM(x,u)/C(x,u),对所有x′∈C(x,u,·),f(x,u, x′)←C(x,u,x′)/C(x,u);

否则R(x,u)←Rmax,f(x,u,x′)←1;

其中C(x,u,x′)为在状态x下执行动作u后转移到状态x′的次数,RSUM(x,u)为访问 状态动作对x、u得到的所有奖赏之和。

本发明基于模型学习的清洁机器人最优目标路径规划方法可驱动机器人优先处 理垃圾可能最多的地点,以强化学习框架和Dyna-H算法为基础,使用R-MAX算法中的探索机 制,在状态间距离的度量方法上,使用自模拟度量改进Dyna-H中的欧式距离度量方法,这两 种方法的结合不仅使机器人对环境的探索更完全,而且避免了在早期的探索中过早到达终 点使情节结束,从而提高模型的学习效率,另外在有模型的情况下,使用动态规划算法更新 值函数,以得到更精确的解,本发明的优点是模型学习效率较高,适用确定环境和随机环 境,在复杂的环境下能够较为高效地使机器人快速得到较为准确的环境模型,以规划出到 达垃圾最多地点的最优路径。

本发明的优点是:

1.本发明对多样的环境(包括垃圾堆地点固定或随机的情况)有较强的适用性,在 模型学习的效率上有很大提高,对机器人探索环境的速度和精度有显著改善,从而能够准 确地优先处理垃圾最多的地点。

附图说明

下面结合附图及实施例对本发明作进一步描述:

图1为本发明实施例中的布局示意图;

图2为本发明的系统工作流程图。

具体实施方式

实施例:

参见图1所示,其黑边为墙,机器人不能到达;两个R点为垃圾较少的地点,达到目 标时的奖赏为0;G点为垃圾较多的地点,达到目标时的奖赏为50;到达其余格子奖赏为-1。

参照图2所示,该实施例基于模型学习的清洁机器人最优目标路径规划方法,包括 如下步骤:

步骤1)初始化模型,设置R(x,u)=Rmax,f(x,u,x′)=1,其中R(x,u)为奖赏函数,f (x,u,x′)为状态转移函数,Rmax为最大奖赏值,x、u为状态动作对,x′为执行x、u后转移到的 下一个状态;

步骤2)初始化环境,设置机器人的起始位置为地图最左上方的格子;

步骤3)判断当前的探索完全度其中C(x,u)为状态动作对(x,u)被 访问的次数,,|X|为状态空间大小,|U|为动作空间大小,m为状态被标记为已知前需要被访 问的次数,若探索完全度η达到阈值I,转入步骤4),否则转入步骤(5);

步骤4)使用自模拟度量方法,计算当前机器人可做的所有动作所到达的地点与最 多垃圾堆的距离,选择使距离最大的动作转入步骤(6),其中 d(x,x′)为状态x与x′之间的自模拟度量,Model(x,u)为从构建的模型中得到下一个状态, xg为终结状态;

步骤5)使用ε-Greedy策略选择动作,转入步骤(6);

步骤6)如果该状态动作对被标记为已知,则放弃该动作,并随机选择一个动作;

步骤7)机器人根据动作进行移动,通过传感器判断当前地点是否有垃圾和移动之 后的地点,并观察奖赏r和下一个状态x′;

步骤8)通过R-MAX方法统计不同地点的访问次数和奖赏和,标记已知地点,并计算 状态转移函数f(x,u,x′)和奖赏函数R(x,u),设置C(x,u,x′)增加1,C(x,u)增加1,RSUM(x, u)增加r;

如果C(x,u)≥m,则R(x,u)←RSUM(x,u)/C(x,u),对所有x′∈C(x,u,·),f(x,u, x′)←C(x,u,x′)/C(x,u);

否则R(x,u)←Rmax,f(x,u,x′)←1,其中C(x,u,x′)为在状态x下执行动作u后转移 到状态x′的次数,RSUM(x,u)为访问状态动作对x、u得到的所有奖赏之和;

步骤9)机器人行动结束,若到达垃圾堆,转入步骤(10),否则转入步骤(2);

步骤10)执行值迭代算法;

步骤11)若运行时间允许,转入步骤(2),否则通过Greedy方法计算最优路线。

上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟 悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因 此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完 成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号