首页> 中国专利> 一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法

一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法，首先通过faster‑RCNN进行行人检测，进一步利用行人的运动信息搜索感兴趣目标，提取感兴趣目标的运动序列、周围交通场景序列以及轨迹位置；其次设计了一种三维卷积神经网络来处理感兴趣目标的运动序列，得到与行人穿越马路意图相关的行为特征；然后本发明根据行人所处的局部交通场景的要素以及车辆行驶速度得到两个权重，来修正人‑车距离，并将修正后的距离送到多层感知机进行编码，得到与行人穿越马路意图相关的距离特征；最后将行为特征和距离特征进行信息融合，利用全连接层将融合后的特征降维，并通过softmax操作得到行人是否穿越马路的结果。

著录项

公开/公告号CN112329682A

专利类型发明专利
公开/公告日2021-02-05

原文格式PDF
申请/专利权人常州大学;
展开▼

申请/专利号CN202011276593.6
发明设计人杨彪;杨吉成;徐黎明;陈阳;吕继东;毕卉;
展开▼

申请日2020-11-16
分类号G06K9/00(20060101);G06K9/32(20060101);G06K9/62(20060101);G06N3/04(20060101);
代理机构32258 常州市英诺创信专利代理事务所(普通合伙);
代理人王美华
地址 213164 江苏省常州市武进区滆湖中路21号
入库时间 2023-06-19 09:49:27

说明书

技术领域

本发明涉及智能交通技术领域，具体涉及行人检测与分析领域，尤其是一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法。

背景技术

随着人工智能、传感器以及控制理论的不断发展，无人车引起了学界和工业界的广泛关注，具有光明的应用前景。但是，无人车也需要保证其它道路使用者的权利，尤其是要保证较为弱势的行人的权利，这就要求无人车可以理解行人的行为。在行人的诸多行为中，行人穿越马路是发生最为频繁、而且与行人的安全息息相关的行为。驾驶员可以通过简单的语言/非语言沟通感知行人是否会穿越马路，但是无人车仍然难以在高效通行和保证行人安全两者间达到较好的平衡。

行人穿越马路意图得到了交通领域的深入研究，通常分为外部因素(交通场景的布局、交通流量以及天气情况等)和内部因素(性别、年龄、时间压力等)。完全准确地感知行人是否有穿越马路的意图非常困难，但是，行人的注视来车、摆手以及腿部运动等行为揭示了其有较强的可能会进行穿越；同时，交通场景对行人是否穿越也有较大的影响。在红绿灯路口或者设有行人标志的路口，行人穿越的可能性越高；另外，行人距离车的距离越远，车辆的行驶速度越慢，行人就越有可能穿越马路。

利用计算机视觉技术，研究者可以提取行人的轮廓信息、形状信息以及历史运动信息来判断行人是否有穿越马路的意图，但是精度不高。随着深度学习技术的发展，研究者提取了行人的骨骼图，并根据骨骼图的运动模式来判断行人是否会进行穿越，具有较高的精度，但是准确提取骨骼图受到距离因素的限制。

发明内容

本发明要解决的技术问题是：为了克服现有技术中之不足，本发明提供一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法，以其能够结合行人的动作信息、行人周围交通场景的信息、行人与车辆的距离信息以及车辆本身的速度信息来综合判断行人是否有穿越马路的意图，从而提高无人车对行人的保护能力。

本发明解决其技术问题所采用的技术方案是：一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法，包括以下步骤：

S1、基于运动目标检测算法，检测行人并根据其运动信息确定感兴趣目标，提取感兴趣目标序列及其局部交通场景信息；

S2、基于三维卷积神经网络提取与行人的穿越动作相关的特征；

S3、综合行人周围交通场景的信息、行人与车辆的距离信息以及车辆本身的速度进行编码，编码的特征可以反映行人是否有穿越马路的意图；

S4、融合动作识别结果与局部交通场景上下文因素对行人穿越马路的意图进行识别。

进一步，所述步骤S1具体包括：

(1)、行人检测

首先对输入图像序列进行处理，提取其中的感兴趣行人，以减少算法处理非感兴趣行人的时间开销，使用faster-RCNN目标检测器检测输入图像序列每一帧的行人，记录行人在每一帧的位置信息，并将连续帧内所有行人的位置变化信息送到下一步进行感兴趣目标搜索。

(2)、感兴趣目标搜索

得到某段时间范围内所有行人的位置变化信息后，根据该信息确定感兴趣目标，其中的感兴趣目标定义为在路边等待的行人，而不关注其它行走或奔跑的行人目标。假设行人的位置变化信息由其若干帧内的轨迹表示，令D

所述步骤S2具体包括：

(1)、三维卷积神经网络的搭建

通过检测行人即将穿越马路的早期动作(譬如摆手、抬腿、注视来车等) 作为判断行人是否穿越马路的主要因素。为了完成早期穿越动作的检测，需要搭建三维卷积神经网络进行动作识别，本方案搭建了34层的残差三维卷积神经网络，网络由若干基本模块组成，对于每个基本模块，假设输入信号为X，首先经过F(F表示该基本模块的三维卷积滤波器数目，每个基本模块的F不同)个 3×3×3的三维卷积滤波器进行处理，然后接上批量标准化(BatchNorm)层以及线性整流函数(Rectified Linear Unit，ReLU)层进行归一化和激活操作，接着再使用F个3×3×3的三维卷积滤波器进行处理，输出的结果通过BatchNorm 层归一化处理后，和基本模块的输入进行逐元素相加操作以实现残差连接，相加后的结果经过ReLU层激活后输出。在定义了基本模块的前提下，34层的残差三维卷积神经网络结构如下：首先对输入信号使用64个3×3×3的三维卷积滤波器进行卷积处理，然后经过3×3×3的三维最大池化后输出信号；输出的信号送入第二个数据处理组块，该组块由3个基本模块串联组成，滤波器数目F 等于64；然后信号送入第三、四、五个数据处理组块，这些组块分别由4、6、 3个基本模块串联组成，基本模块的滤波器数目分别为128、256、512；最后对第五个数据处理组块输出的特征图用自适应平均池化处理得到一串向量，然后接全连接(Fullyconnected layer，FC)层进行降维操作。

(2)、基于行人分块的穿越动作识别

上述步骤搭建的三维卷积神经网络可以用于动作识别，涉及到行人穿越动作识别，需要根据先验经验对行人进行分块。考虑到行人的注视动作和腿部动作对于判断其是否有穿越意图至关重要，首先将行人分为上半身、下半身以及完整身体三个部分，分别提取这三个部分的连续图像序列，然后分别送入三维卷积神经网络进行处理，提取出与行人穿越意图相关的特征，过程可用如下公式表示：

其中，f

所述步骤S3具体包括：

(1)、基于目标检测的交通场景上下文识别

交通场景上下文识别指识别出当前场景的交通要素，包括交通灯、斑马线以及行人标志等。常用的识别交通场景上下文的方法包括目标检测和语义分割，考虑到实时性的需求，在此利用faster-RCNN目标检测算法检测感兴趣行人的局部交通场景内的交通要素。定义交通场景权重w

(2)、基于上下文因素的人-车距离编码

车辆与行人的距离很大程度上影响了行人是否会穿越马路的决策，一般来说：车辆距离行人越远，行人越倾向于穿越；车辆的速度越慢，行人越倾向于穿越；感兴趣行人的局部交通场景内有交通要素，行人越倾向于穿越。

针对人和车之间距离的计算，定义x

其中，W和H分别表示图像的宽和高，w和h分别表示感兴趣行人的外接矩形框的宽和高，用来克服图像的透视畸变效应。

针对车速对行人穿越决策的影响，定义车速权重w

结合感兴趣行人和车之间的横向和纵向距离x

得到修正后的横向和纵向距离

其中，f

所述步骤S4具体包括：

(1)、融合动作识别与交通场景上下文因素的行人穿越马路意图识别

通过搭建的三维卷积神经网络从行人的动作中提取出与行人穿越意图相关的编码特征f

采用直接拼接的方式融合f

LOSS＝L

其中，F表示所使用的全连接网络，W

本发明的有益效果是：

(1)、利用faster-RCNN进行行人检测，进一步利用检测到行人的运动信息来确定感兴趣目标，大大提高了行人穿越马路意图识别算法的效率；

(2)、利用三维卷积神经网络识别行人穿越马路的早期动作，可以有效判断行人是否有穿越马路的倾向；

(3)、通过综合分析感兴趣行人周围的交通场景要素、人-车距离因素以及车辆的速度，可以有效改善利用行为识别行人穿越马路意图的准确性。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明的系统流程图。

图2是本发明中提出的基于运动目标检测的感兴趣目标搜索的示意图。

图3是本发明中提出的用于动作识别的三维卷积神经网络示意图。

图4是本发明中提出的结合动作特征与距离特征进行行人穿越意图识别的示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1所示，一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法，该方法综合考虑了影响行人做出是否穿越马路决策的多个因素，包括：行人穿越马路前的一些肢体动作(摆臂、抬腿、头部注视等)、行人所处的局部交通场景的要素(红绿灯、斑马线、行人标识等)、人-车距离以及车辆行驶速度。通过faster-RCNN进行行人检测，进一步利用行人的运动信息搜索感兴趣目标，提取感兴趣目标的运动序列、周围交通场景序列以及轨迹位置。通过设计一种三维卷积神经网络来处理感兴趣目标的运动序列，得到与行人穿越马路意图相关的行为特征；并根据行人所处的局部交通场景的要素以及车辆行驶速度得到两个权重，来修正人-车距离，并将修正后的距离送到多层感知机进行编码，得到与行人穿越马路意图相关的距离特征；最后将行为特征和距离特征进行信息融合，利用全连接层将融合后的特征降维，通过softmax操作得到行人是否穿越马路的结果。

本发明的具体操作步骤如下：

图2给出了基于运动目标检测的感兴趣目标搜索的示意图。

1)、基于faster-RCNN的行人检测。

首先要对输入图像序列进行处理，提取其中的感兴趣行人，以减少算法处理非感兴趣行人的时间开销。然后使用faster-RCNN目标检测器检测输入图像序列每一帧的行人，记录行人在每一帧的位置信息，并将连续帧内所有行人的位置变化信息送到下一步进行感兴趣目标搜索。

2)、基于目标运动轨迹的感兴趣目标搜索。

得到某段时间范围内所有行人的位置变化信息后，根据该信息确定感兴趣目标。所述感兴趣目标定义为在路边等待的行人，而不关注其它行走或奔跑的行人目标。假设行人的位置变化信息由其若干帧内的轨迹表示，令D

图3给出了用于动作识别的三维卷积神经网络示意图。

3)、三维卷积神经网络的搭建。

通过检测行人即将穿越马路的早期动作(譬如摆手、抬腿、注视来车等) 作为判断行人是否穿越马路的主要因素，为了完成早期穿越动作的检测，需要搭建三维卷积神经网络进行动作识别。

采用搭建34层的残差三维卷积神经网络，网络由若干基本模块组成，对于每个基本模块，假设输入信号为X，首先经过F(F表示该基本模块的三维卷积滤波器数目，每个基本模块的F不同)个3×3×3的三维卷积滤波器进行处理，然后接上批量标准化(BatchNorm)层以及线性整流函数(Rectified Linear Unit，ReLU)层进行归一化和激活操作，接着再使用F个3×3×3的三维卷积滤波器进行处理，输出的结果通过BatchNorm层归一化处理后，和基本模块的输入进行逐元素相加操作以实现残差连接，相加后的结果经过ReLU层激活后输出。在定义了基本模块的前提下，34层的残差三维卷积神经网络结构如下：首先对输入信号使用64个3×3×3的三维卷积滤波器进行卷积处理，然后经过3×3×3 的三维最大池化后输出信号；输出的信号送入第二个数据处理组块，该组块由3 个基本模块串联组成，滤波器数目F等于64；然后信号送入第三、四、五个数据处理组块，这些组块分别由4、6、3个基本模块串联组成，基本模块的滤波器数目分别为128、256、512；最后对第五个数据处理组块输出的特征图用自适应平均池化处理得到一串向量，然后接全连接(Fully connected layer，FC)层进行降维操作。

图4给出了结合动作特征与距离特征进行行人穿越意图识别的示意图。

4)、基于行人分块的穿越动作识别。

搭建的三维卷积神经网络可以用于动作识别，涉及到的行人穿越动作识别，需要根据先验经验对行人进行分块。考虑到行人的注视动作和腿部动作对于判断其是否有穿越意图至关重要，在此将行人分为上半身、下半身以及完整身体三个部分，分别提取这三个部分的连续图像序列，然后分别送入三维卷积神经网络进行处理，提取出与行人穿越意图相关的特征，过程可用如下公式表示：

其中，f

5)、基于目标检测的交通场景上下文识别。

交通场景上下文识别指识别出当前场景的交通要素，包括交通灯、斑马线以及行人标志等。常用的识别交通场景上下文的方法包括目标检测和语义分割，考虑到实时性的需求，利用faster-RCNN目标检测算法检测感兴趣行人的局部交通场景内的交通要素。定义了交通场景权重w

6)、基于上下文因素的人-车距离编码。

车辆与行人的距离很大程度上影响了行人是否会穿越马路的决策。一般来说：车辆距离行人越远，行人越倾向于穿越；车辆的速度越慢，行人越倾向于穿越；感兴趣行人的局部交通场景内有交通要素，行人越倾向于穿越。

针对人和车之间距离的计算，定义x

其中，W和H分别表示图像的宽和高，w和h分别表示感兴趣行人的外接矩形框的宽和高，用来克服图像的透视畸变效应。

针对车速对行人穿越决策的影响，本发明定义了车速权重w

结合感兴趣行人和车之间的横向和纵向距离x

得到修正后的横向和纵向距离

其中，f

7)、融合动作识别与交通场景上下文因素的行人穿越马路意图识别。

通过搭建的三维卷积神经网络从行人的动作中提取出了与行人穿越意图相关的编码特征f

采用直接拼接的方式融合f

LOSS＝L

其中，F表示所使用的全连接网络，W

本发明借鉴了卷积神经网络在通用动作识别上的成功，搭建了三维卷积神经网络来预测行人穿越前的早期动作，得到与行人穿越意图相关的动作特征；为了提高识别行人穿越意图的准确性，利用人-车距离作为辅助判断依据，并根据先验信息添加了交通场景要素和车辆速度要素对人-车距离进行加权修正，并将修正后的人-车距离进行编码后得到距离特征；最后综合考虑动作特征和距离特征，得到行人是否要穿越马路的结果。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法 [P] . 中国专利： CN112329682A . 2021-02-05
2. 一种基于注视检测和交通场景识别的行人穿越马路意图识别方法 [P] . 中国专利： CN112329684A . 2021-02-05
3. System for determining action based on context, vehicle for performing action determined based on context, and method of determining action based on context [P] . US11044325B2 . 2021-06-22

机译：基于上下文确定动作的系统，用于执行基于上下文确定的动作的车辆以及基于上下文确定动作的方法
4. SYSTEM FOR DETERMINING ACTION BASED ON CONTEXT, VEHICLE FOR PERFORMING ACTION DETERMINED BASED ON CONTEXT, AND METHOD OF DETERMINING ACTION BASED ON CONTEXT [P] . 美国专利： US2018352039A1 . 2018-12-06

机译：基于上下文的动作确定系统，基于上下文的动作执行车辆，以及基于上下文的动作确定方法
5. TRAFFIC SAFETY APPARATUS FOR PEDESTRIAN CROSSING AND VARIABLE LANE [P] . 韩国专利： KR20120024365A . 2012-03-14

机译：行人穿越和可变车道的交通安全装置