首页> 中国专利> 基于Skinner操作条件反射原理的机器人避障导航方法

基于Skinner操作条件反射原理的机器人避障导航方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及了一种基于Skinner操作条件反射原理的机器人避障导航方法。首先，建立机器人的动作集合概率，并令其符合均匀分布；然后，随机选择一个动作，计算相应的位置变化，进而根据与障碍及目标点距离计算出新位置对应的负理想度，并由此得出取向函数值，根据取向函数值按照操作条件反射理论调整动作概率分布，计算系统熵；当系统熵趋于最小值时，选择概率最大动作所指角度前行；重复学习过程，直至抵达目的地。本发明能够很好地模拟人及动物的操作条件反射行为，提高机器人的智能水平，使其具备较强的自学习、自组织、自适应能力，能够在无导师信号的情况下自主探索环境，成功避障导航。

著录项

公开/公告号CN103792846A

专利类型发明专利
公开/公告日2014-05-14

原文格式PDF
申请/专利权人北京工业大学;
展开▼

申请/专利号CN201410055115.0
发明设计人阮晓钢;黄静;于乃功;魏若岩;薛坤;张晓平;范青武;
展开▼

申请日2014-02-18
分类号G05B13/04(20060101);G05D1/02(20060101);
代理机构11203 北京思海天达知识产权代理有限公司;
代理人张慧
地址 100124 北京市朝阳区平乐园100号
入库时间 2024-02-20 00:02:49

法律信息

法律状态公告日

法律状态信息

法律状态
2016-05-18

授权

授权
2014-06-11

实质审查的生效 IPC(主分类):G05B13/04 申请日:20140218

实质审查的生效
2014-05-14

公开

公开

说明书

技术领域

本发明涉及移动机器人避障导航领域，具体涉及一种基于Skinner（斯金纳）操作条件反射原理的机器人避障导航方法。

技术背景

近年来，避障导航已成为智能机器人领域的研究热点。避障导航的目的在于使机器人能够穿越环境地图中的各种障碍，安全、无碰撞的从起点到达终点。传统的避障导航方法根据工作环境提供信息程度不同，可分为全局信息已知类，全局信息未知类及部分未知类。在信息未知类导航中，机器人需要使用自身的感知系统检测所处的外界环境，从而得到障碍物的方位、距离等位置信息，最后，通过一定的算法得出一条无障碍路径。因此，信息未知类导航对智能化程度具有很高的要求。

常用的导航方法包括可视图法、自由空间法、最优控制法、拓扑法及栅格法等。针对未知环境的导航问题，人工势场法、模糊逻辑算法、神经网络算法及遗传算法等也常引入进行研究。申请号CN201110218625.1的发明专利公开了一种室内移动机器人自主导航避障系统及方法，该项发明采用采用分段极大似然质心算法对机器人定位，建立三维环境地图和栅格地图，构造路径网格，基于膨胀算法和Dijkstra算法规划全局路径，实现智能避障；申请号为 CN201110210600.7的专利公开了一种基于模糊神经网络的智能轮椅避障方法，该项发明根据设定的模糊神经网络控制规则，规划轮椅的轮速和转角信息，完成轮椅的动态避障，以一定的方法将这些互补或冗余的传感器信息进行融合，由此实现智能轮椅的避障。它们存在的共同问题是：需要提供专家信息，机器人的智能化程度不高，无法自主地探索未知环境完成避障导航任务。

1938年，美国著名心理学家斯金纳（B.F.Skinner）在其著作《The Behavior of Organisms: an experimental analysis》中首次提出了操作条件反射（Operant Conditioning）的概念，并由此创立了操作条件反射理论。斯金纳借鉴了巴甫洛夫的“强化”（reinforcement）概念，并把这一概念的内涵进行了革新。他把“强化”分为正强化（positive reinforcement）和负强化（negative reinforcement）两种，正强化促使有机体对刺激的反应概率增加，而负强化则促使有机体消除该刺激的反应增加。刺激产生反应，反应影响刺激出现的概率，这正是斯金纳操作条件反射理论的核心，它体现了人或动物自学习的能力，反映了智能体对环境的自适应性。如果能将 Skinner提出的操作条件反射原理应用于机器人避障导航，将会有效提高导航的智能化程度。

发明内容

针对现有技术中存在的机器人避障导航智能化程度不高等问题，本发明提出了一种基于 Skinner操作条件反射原理的机器人避障导航方法，使机器人能够在没有导师信号的情况下，以“learning-by-doing”的试错式方式与环境交互，建立操作条件反射，完成避障及导航。

一种基于Skinner操作条件反射原理的机器人避障导航方法，包括以下步骤：

步骤1，获得机器人在时刻t的状态及动作集合。

在时刻t获得机器人在环境地图中的坐标位置，记作s_i|t＝(x_i,y_i)，以及可能的前进方向（角度），记作A＝{a_k|k＝1,2,…,n_a}，n_a为动作集大小，以此作为机器人在时刻t的状态及动作集合。令动作集的初始概率分布为均匀分布。

步骤2，从动作集中随机选择一动作，即拟选择前行的角度a_k。

步骤3，计算状态转移，公式如下：

$(\begin{matrix} x_{new} = x_{old} + v * t_{s} * \cos θ_{k} \\ y_{new} = y_{old} + v * t_{s} * \sin θ_{k} \end{matrix}) - - - (1)$

式中，x_new、y_new分别代表动作选择后机器人新的横、纵坐标，类似的，x_old、y_old分别代表选择前机器人的横、纵坐标；v为机器人移动速度，t_s为机器人传感器采样时间，θ_k表示机器人表示第k个感知器在以机器人圆心（机器人为圆形）为极点、前进方向为极轴建立的坐标系中所处位置的弧度值。

步骤4，计算状态转移前后的负理想度差值。

“负理想度”是本发明中为计算取向函数进而反映所感知到的刺激是否为正强化而设立的概念，记作ε＝ε(S)＝{ε(s_i)|i＝1,2,…,n_s}∈R，n_s为机器人状态集大小，用来表征状态s_i远离理想状态的程度，数值越大，则状态s_i相对设定目标越不理想。负理想度的计算公式为：

$ϵ (s_{i}) = (\begin{matrix} w_{i} d_{goal} + w_{2} * \exp (- \min (d_{1}, d_{2}, \cdot \cdot \cdot, d_{n_{o}})), & \min (d_{1}, d_{2}, \cdot \cdot \cdot, d_{n_{o}}) > r \\ punishment + w_{1} d_{goal} + w_{2} * \exp (- \min (d_{1}, d_{2}, \cdot \cdot \cdot, d_{n_{o}})), & otherwise \end{matrix}) - - - (2)$

式中，d_goal表示机器人在该状态（位置）与目的地的距离；函数d_k为机器人与第k个障碍的距离值，k＝1,2,...,n_o，n_o为环境中障碍物数量；r为机器人半径；w₁、w₂为权值系数， w₁,w₂＞0，其中w₁用来设定机器人与目标距离在负理想度计算中所占据的比重，w₂则用来设定机器人与障碍距离在负理想度计算中所占据的比重，可以通过调整这两个参数来控制算法是更倾向于避障抑或导航；punishment为一个较大正常数。负理想度计算公式的含义是：当机器人与周边障碍没有发生碰撞时，则负理想度随机器人与目的地距离单调递增，且随与障碍的距离单调递减；一旦发生碰撞，则负理想度在此基础上增加一个较大正常数，该常数等于punishment，通常取punishment＞10000。

当机器人的状态（位置）由s_i转移到s_j时，负理想度发生变化，变化量为：Δε_ij＝ε_j-ε_i。

步骤5，计算取向函数δ值。

取向函数δ＝δ(S,A)＝{δ_ik|i＝1,2,…,n_s;k＝1,2,…,n_a}，模拟了自然界中生物的取向性，其中，δ_ik表示状态s_i∈S执行动作a_k∈A后系统性能的变化。和生物取向性概念一致，δ＞0时，为正取向，说明系统性能趋向变好；δ＜0时，为负取向，说明系统性能趋向变差；δ＝0时，为零取向，说明系统性能没有变化。

取向函数δ的计算公式为：

$δ_{ik} = δ (Δ ϵ_{ij}) (\begin{matrix} \exp (1 / {Δϵ}_{ij}), & {Δϵ}_{ij} < 0 \\ = 0, & {Δϵ}_{ij} = 0 \\ - \exp (- 1 / {Δϵ}_{ij}), & {Δϵ}_{ij} > 0 \end{matrix}) - - - (3)$

式中，Δε_ij＝ε(s_j)-ε(s_i)，取向函数δ为定义区间上的单调递减函数，其绝对值随Δε_ij绝对值单调递增。当Δε_ij＞0时，负理想度增大，系统性能趋向变差，因而取向函数δ＜0，且Δε_ij越大，取向函数δ越小；反之，当Δε_ij＜0时，负理想度变小，系统性能趋向变好，因而取向函数δ＞0，且Δε_ij越大，取向函数δ越小；当Δε_ij＝0时，负理想度不变，系统性能趋向也不变化，因而取向函数δ＝0。

步骤6，根据Skinner操作条件反射理论调整动作集概率分布。

动作集概率分布的调整规则为：正强化时，动作概率增加；负强化时，动作概率减少。

设t时刻状态s_m选择动作a_k执行，感知到来自环境的刺激记为θ，同时状态转移到s_n，

①若θ为正强化（δ_mk＞0），则：

当a(t)＝a_k时：

$p_{mk} (t + 1) = p_{mk} (t) + \frac{1 - p_{mk} (t)}{1 + \exp (- η_{1} δ_{mk} \cdot t)} - - - (4)$

反之：

$p_{m k^{'}} (t + 1) = p_{m k^{'}} (t) - \frac{1 - p_{mk} (t)}{1 + \exp ({- η}_{1} δ_{mk} \cdot t)} \cdot \frac{1}{n_{a} - 1} - - - (5)$

②若θ为负强化（δ_mk＜0），则：

当a(t)＝a_k时：

$p_{mk} (t + 1) = p_{mk} (t) - \frac{p_{mk} (t)}{1 + \exp (η_{2} δ_{mk} \cdot t)} - - - (6)$

反之：

$p_{m k^{'}} (t + 1) = p_{m k^{'}} (t) - \frac{p_{mk} (t)}{1 + \exp (η_{2} δ_{mk} \cdot t)} \cdot \frac{1}{n_{a} - 1} - - - (7)$

③若θ为非强化刺激（δ_mk＝0），则概率保持不变，即：

$(\begin{matrix} p_{mk} (t + 1) = p_{mk} (t), & a = (t) \\ p_{m k^{'}} (t + 1) = p_{{mk}^{'}} (t), & a \neq (t) \end{matrix}) - - - (8)$

式中p_mk(t)表示t时刻状态s_m选择动作a_k执行的概率。η₁、η₂为学习速率，且η₁,η₂＞0。

步骤7，计算t时刻系统熵。

本发明采用系统熵H(t)描述系统自组织程度，进而说明模型的自适应性。计算公式为：

$H (t) = - Σ_{i = 1}^{n_{s}} p (s_{i}) Σ_{k = 1}^{n_{a}} p (a_{k} | s_{i}) lo g_{2} p (a_{k} | s_{i}) - - - (9)$

式中，p(s_i)为机器人处于状态s_i的概率，p(a_k|s_i)为机器人在状态s_i下选择动作a_k的概率。

步骤8，判断系统熵是否已趋于最小值H_min，如果是，标志着系统已达到自组织，机器人已形成操作条件反射习得最优动作，则停止本次学习，转下一步；否则，转步骤2。

步骤9，从动作集中选择概率最大的动作执行（真实执行该动作），按公式（1）计算的状态移动机器人，记新状态为机器人当前状态，令各动作概率均匀分布。

步骤10，判断机器人当前位置是否为终点，如果是，则结束；否则，转步骤2，进入下一轮学习。

与现有技术相比，本发明具有以下优点：很好地模拟了人及动物的操作条件反射行为，提高了机器人的智能水平，使其具备较强的自学习、自组织、自适应能力，能够在无导师信号的情况下自主探索环境，成功避障导航。本发明简单易行，效果良好，具有较高的工程应用价值。

附图说明

图1为本发明所涉及的方法流程图；

图2为实施例选用的“轮式圆形机器人”的结构俯视图；

图3为实施例的第1种环境地图及导航轨迹图；

图4为实施例的第2种环境地图及导航轨迹图；

图5为实施例的第3种环境地图及导航轨迹图；

图6为一次学习过程中熵的变化曲线。

具体实施方式

下面结合附图和具体实施方式作进一步说明。

本发明所述方法的流程图如图1所示，包括以下步骤：

步骤1，令机器人从起始点出发，选择起始点坐标为机器人的当前状态，令机器人的动作集合为A＝{a_k|k＝1,2,…,n_a}，即从1～n_a个传感器分布位置中选择相应角度前进，初始化动作概率分布为均匀分布。

步骤2，从动作集中随机选择一个动作，记为a_k。

步骤3，按公式（1）计算执行a_k后机器人的位置。

步骤4，按公式（2）计算出负理想度差值Δε_ij＝ε_j-ε_i，这里取w₁＝5,w₂＝1， punishment＝100000。

步骤5，根据Δε_ij按公式（3）计算出取向函数值δ_ik＝δ(Δε_ij)。

步骤6，根据δ_ik按公式（4）～（8）调整机器人动作集概率分布，并按公式（9）计算系统熵H(t)。这里取η₁＝η₂＝10

步骤7，判断H(t)是否已趋于最小值H_min，如果是，则标志着机器人已习得最优动作，结束本轮学习，转向步骤8；如果不是，则转向步骤2，继续学习。

步骤8，选择概率最大的动作执行（真实执行该动作），即选择该动作对应的角度前行。

步骤9，按公式（1）计算机器人新的位置，并标记为当前位置，初始化动作概率分布为均匀分布。

步骤10，判断是否已抵达终点，如果是，则结束程序运行；否则，转向步骤2。

下面给出应用本发明进行机器人导航的实例。

不失一般性，选择一个带有6个测距传感器的轮式圆形机器人，该机器人半径为0.2m，周围均匀分布了6个测距传感器，可通过发射和接受超声波测定前方障碍物距离，其有效测量距离为15cm-10m（覆盖仿真实验环境）；行走机构采用双轮差动式运动底盘，在机器人左右两侧安装有轮w_L和w_R，由直流伺服电机驱动，尾部有一个起支撑作用的万向轮w_F。该机器人机械结构简化示意图如图2所示（图中深色编号圆圈表示测距传感器）。

为充分展示本方法的避障导航效果，选择三种不同的环境地图进行实施。环境1为一个 8m×8m大小的空间，从出发点到目的地沿途设置了10个障碍，如图3所示。环境2缩小了空间大小，使障碍相对更加密集，同时改变了目的地位置，使其位于环境地图的一角，如图 4所示。环境3保持环境2空间大小及目的地位置不变，但障碍位置不再固定，而是随机给出，如图5所示。

3种环境的导航轨迹分别如图3～5所示。从图3～5可以看出，在不同的环境中，即使改变环境大小、障碍位置、目的地位置等，本发明所述方法控制的机器人仍然能够在没有导师信号的情况下成功的穿越障碍到达目的地，从而证明了本发明的有效性及实用性。

图6为一轮学习中系统熵的变化情况。从此图中可以看出，系统经近30次学习之后达到收敛，系统熵收敛至0，说明机器人已习得最优动作，建立起操作条件反射，同时系统自组织程度也达到最大。避障导航的过程就是机器人自学习、自组织、自适应的过程。在这个过程中，自学习是手段，自组织是表现，自适应才是目的。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于Skinner操作条件反射原理的机器人避障导航方法 [P] . 中国专利： CN103792846B . 2016.05.18
2. 基于Skinner操作条件反射原理的机器人避障导航方法 [P] . 中国专利： CN103792846A . 2014-05-14
3. Obstacle avoiding apparatus, obstacle avoiding method, obstacle avoiding program, and mobile robot apparatus [P] . 美国专利： US7769491B2 . 2010-08-03

机译：避障装置，避障方法，避障程序及移动机器人装置
4. Obstacle avoiding apparatus, obstacle avoiding method, obstacle avoiding program and mobile robot apparatus [P] . 美国专利： US2006241827A1 . 2006-10-26

机译：避障装置，避障方法，避障程序及移动机器人装置
5. OBSTACLE AVOIDING APPARATUS FOR FLYING-ROBOT AND OBSTACLE AVOIDING METHOD FOR FLYING-ROBOT [P] . 世界知识产权组织专利： WO2017215323A1 . 2017-12-21

机译：飞行机器人的避障装置和飞行机器人的避障方法