首页> 中国专利> 基于语义分割和神经网络技术的路况识别方法和系统

基于语义分割和神经网络技术的路况识别方法和系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供了一种基于语义分割和神经网络技术的路况识别方法和系统。方法包括：获取待进行路况识别的视频；对所获取的视频进行抽帧以得到帧序列；对所述帧序列进行语义分割以得到将路况对象与背景对象区分开的蒙板帧序列，其中所述路况对象包括道路、行人以及车辆中的一者或多者；使用所述蒙板帧序列对帧序列进行蒙板处理以去除背景对象；对经蒙板处理的帧序列进行特征提取；以及基于所提取的特征识别路况。

著录项

公开/公告号CN113850111A

专利类型发明专利
公开/公告日2021-12-28

原文格式PDF
申请/专利权人天翼智慧家庭科技有限公司;
展开▼

申请/专利号CN202110436451.X
发明设计人张继东;曹靖城;史国杰;周帅;
展开▼

申请日2021-04-22
分类号G06K9/00(20060101);G06K9/34(20060101);G06K9/62(20060101);G06N3/04(20060101);
代理机构31100 上海专利商标事务所有限公司;
代理人蔡悦;陈斌
地址 201702 上海市青浦区双联路158号3层
入库时间 2023-06-19 13:26:15

法律信息

法律状态公告日

法律状态信息

法律状态
2022-02-11

专利申请权的转移 IPC(主分类):G06K 9/00 专利申请号:202110436451X 登记生效日:20220126 变更事项:申请人变更前权利人:天翼智慧家庭科技有限公司变更后权利人:天翼数字生活科技有限公司变更事项:地址变更前权利人:201702 上海市青浦区双联路158号3层变更后权利人:200072 上海市静安区万荣路1256、1258号1423室

专利申请权、专利权的转移

说明书

技术领域

本发明涉及人工智能图像处理领域，更具体地，涉及基于语义分割和神经网络技术进行图像降噪以提高行车记录仪路况识别精度的方法和系统。

背景技术

交通路况状态(即道路是否畅通或拥堵)会影响用户对出行时间、路线，甚至是出行方式的判断和选择。国内被广泛使用的地图软件高德地图和百度地图每天为用户提供海量的定位和路线导航规划服务，其所提供的路况状态信息主要是靠路况的采集，其中主要模型是浮动车模型，也就是用GPS记录浮动车的速度和方向，然后根据道路匹配计算出路况。目前主要的浮动车都是出租车公司提供。此外，还有一些成本较高的路况采集方法，包括设置地感线圈、测速摄像头，这些数据一般都在国家部门。

传统的路况信息检测方法，就是在城市的主干道上安装地感线圈、测速雷达和视频监测工具，这些装置主要是来检测道路的占用率、车流量、车速等传统的路况信息。或者是依靠车辆自带的GPS上传驾车用户的轨迹信息和公共信息等要素并通过算法处理后提供给用户。这些基于GPS的路况信息的采集和监测，主要就是依赖于行驶车辆上的GPS。

然而，在用户少、驾驶行为异常的道路上和一些未被采集的道路上或者出行较少的乡镇车道上，这些地图软件对路况的识别就会严重依赖当前道路是否覆盖地感线圈和浮动车是否有采集这些道路信息，这将不能保证用户在行驶过程中所获得地图数据的准确性，这将会严重影响用户在出行过程中的体验。

车载视频图像包含了更多的信息量，给了我们另外一个解决问题的视角。通过视频或图片，可以观察到路面的真实状态，包括机动车数量、道路宽度和空旷度等等。基于车载视频图像可以获取更准确的路况状态，为用户出行提供更高质量的服务。

纵观近年来有关路况识别的研究，将行驶路况的研究重点放在对路况中运动车辆的识别，此时就将运动车辆的识别转化一个运动目标识别的问题。当前对此问题的研究现状如下：

(1)帧间差分法：此方法是使用帧差分法对运动目标进行识别，但是该算法不能提取出运动对象的完整区域，仅能提取轮廓；算法效果严重依赖所选取的帧间时间间隔和分割阈值。其次该算法不能应用于运动的摄像头中，无法识别静止或者是运动速度很慢的目标。

(2)背景差分法：最初的背景差分法是建立一个固定的背景模型，利用当前的帧与背景帧进行识别运动目标。随着研究的深入，目前已有采用自适应背景帧更新，其达到了对背景帧实时的更新，进而来识别运动的目标，一定程度解决了实际的问题。但是该方法不能应用于运动的摄像头，同时背景帧的实时更新存在一定的困难。

(3)光流法：最初能够有效的识别和跟踪运动目标的是基于计算位移矢量的光流法，其利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息。但是基于光流法的运动目标跟踪方法有两个基本的假设：1)亮度恒定不变。2)时间连续或者运动是小运动，也就是随着时间变化，目标位置不会产生太大的变化。这在基于行车记录仪的路况识别中是很难满足的。

题为“基于视频的实时路况直播方法及系统”的中国专利申请(CN105681763A)，通过在车辆上安装智能网络行车记录仪并能自动与平台服务器建立通信连接，采集车辆的车辆状态信息，并定时发送至平台服务器；平台服务器接收来自车辆的车辆状态信息，将该车辆在地图相应位置上设置可共享标识并向当前请求用户分享实时视频流进而展示路况信息。这种识别的方式受限于网络环境，以及服务器的处理速度，因而在真实的场景中并不适用。

题为“基于视频追踪及目标雷达信息的自动追踪驾驶方法”的中国专利申请(CN110889372A)。该方法提出的是一种自动驾驶过程中跟随前车来识别路况的方法。主要采用视频追踪以及雷达探测获取前方目标车辆的空间追踪坐标信息进而判断前车路线规划信息是否与当前车辆规划信息一致，通过跟踪一致行车规划信息车辆的行车情况来对路况进行间接的识别。这种方法严重依赖前方车辆的驾驶行为，因此不能准确的反应前方路况的真实情况。

题为“一种以视觉为中心的基于深度学习的路况分析方法及系统”的中国专利申请(CN107368890A)提出了通过接收来自一摄像头的实时交通环境的视觉输入；使用循环YOLO引擎，通过使用CNN训练方法，从所述的实时交通环境的视觉输入中确认至少一个初始兴趣区域；在所述至少一个的初始兴趣区域中，验证在所述至少一个的初始兴趣区域内的检测对象是否为所追踪的候选对象；使用LSTMs来跟踪基于实时交通环境视觉输入的所述检测对象，并通过使用CNN训练方法，预测所述检测对象的未来状态。

上述提到的技术以及3个专利，无论通过视频直播方式，行车路线匹配的方式还是车辆追踪的方法都有一定的局限性。受限于1)网络环境。2)复杂的行车环境和驾驶员特殊的驾驶行为。3)算法输入的视频数据，摄像头都是固定不变的(即背景不变)且变化的幅度是比较小的。因此在实际的行车过程中存在一定的局限性，这将会使得识别的准确性大大降低。事实上，车辆行驶在城市道路，乡镇道路和高速道路上，前车背景是在不断变化的，这些背景中包含很大的噪声，如果能够有效的降低噪声影响，采用降噪之后的视频帧可有效的提高路况识别的准确性。

发明内容

提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

为了改善现有的路况识别技术中背景噪声大的问题以及不能有效利用行车记录仪的视频内容并利用图像处理技术识别路况的问题，本发明提出一种基于语义分割和深层神经网络进行图像降噪以提高路况识别准确度的方法。实际的路况视频是使用车载摄像头或者是行车记录仪收集的，收集的视频首先以抽帧的方式抽取一定数量的图像，然后通过语义分割的方式识别图像中行驶道路中的人，道路和车等影响车辆行驶的物体。经过语义分割的图像与原图像进行对比，保留原图像在语义分割阶段识别的物体而忽略其他的背景信息。然后将处理后的图像序列输入到金字塔结构的卷积神经网络中提取图像的特征，考虑到图像序列的连续性，帧与帧之间的关系，这里将图像的特征输入到LSTM以提取序列的特征信息，最后使用全连接层对路况进行分类。

根据本发明的一个方面，提供了一种路况识别方法，包括：

获取待进行路况识别的视频；

对所获取的视频进行抽帧以得到帧序列；

对所述帧序列进行语义分割以得到将路况对象与背景对象区分开的蒙板帧序列，其中所述路况对象包括道路、行人以及车辆中的一者或多者；

使用所述蒙板帧序列对帧序列进行蒙板处理以去除背景对象；

对经蒙板处理的帧序列进行特征提取；以及

基于所提取的特征识别路况。

根据本发明的另一方面，提供了一种路况识别系统，包括：

视频捕捉模块，所述视频捕捉模块被配置成捕捉实时路况视频；

路况识别模块，所述路况识别模块被配置成：

对所述视频捕捉模块所捕捉的实时路况视频进行抽帧以得到帧序列；

对所述帧序列进行语义分割以得到将路况对象与背景对象区分开的蒙板帧序列，其中所述路况对象包括道路、行人以及车辆中的一者或多者；

使用所述蒙板帧序列对帧序列进行蒙板处理以去除背景对象；

对经蒙板处理的帧序列进行特征提取；以及

基于所提取的特征识别路况；以及

通信模块，所述通信模块用于将所述路况识别模块的识别结果发送给路况监测平台。

根据本发明的进一步实施例，对所述帧序列进行语义分割以得到将路况对象与背景对象区分开的蒙板帧序列进一步包括：

使用预训练的路况语义分割模型来将路况对象与背景对象区分开，其中所述路况语义分割模型是使用残差金字塔结构的学习网络。

根据本发明的进一步实施例，使用所述蒙板帧序列对帧序列进行蒙板处理以去除背景对象进一步包括：

对所述蒙板帧序列进行二值化操作；

将经二值化后的蒙板帧序列调整到原图大小；以及

使用经调整的蒙板帧序列对原图进行蒙板操作以将原图中的背景对象替换为黑色。

根据本发明的进一步实施例，对经蒙板处理的帧序列进行特征提取进一步包括：

通过卷积神经网络对所述经蒙板处理的帧序列进行图像特征提取，以得到图像特征矩阵；

通过循环神经网络对所述卷积神经网络提取的图像特征进行序列语义特征提取，以得到序列语义特征矩阵；以及

融合所述得到图像特征矩阵以及所述序列语义特征矩阵，以得到经融合的序列特征矩阵。

根据本发明的进一步实施例，基于所提取的特征识别路况进一步包括：

将所提取的特征输入预训练的路况分类器模型以得到路况识别结果。

与现有技术中的方案相比，本发明所提供的路况识别方法和系统至少具有以下优点：

(1)在使用卷积神经网络提取图像序列特征的过程中更过关注图像本身局部的语义信息，而忽略了图像序列之间的序列语义。本发明使用深层的循环神经网络从全局的角度提取图像序列中包含的序列语义信息；

(2)识别的准确率高，本发明针对目前路况识别过程中，车载摄像头在移动，背景信息不断变化的情况下，背景信息严重影响了路况的识别，通过使用RPNet模型可以对视频帧进行有效的语义分割，进而去除图像中的噪声内容，有效的提高了模型的准确性；

(3)inception可以在严格的内存和计算条件下执行，相比于VGGNet使用了更少的参数量，仅仅使用了VGGNet参数的1/36参数量。这使得inception模型适用于各种大数据场景；

(4)相比于现有的发明，可以大大节约网络的带宽，不再受限于网络的环境，仅仅需要在本地行车记录仪部署针对该场景的模型并嵌入式的提供一定的计算能力即可实时的识别路况。

通过阅读下面的详细描述并参考相关联的附图，这些及其他特点和优点将变得显而易见。应该理解，前面的概括说明和下面的详细描述只是说明性的，不会对所要求保护的各方面形成限制。

附图说明

为了能详细地理解本发明的上述特征所用的方式，可以参照各实施例来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中示出。然而应该注意，附图仅示出了本发明的某些典型方面，故不应被认为限定其范围，因为该描述可以允许有其它等同有效的方面。

图1是根据本发明的一个实施例的路况识别方法的流程图。

图2是根据本发明的一个实施例的可用于进行帧序列特征提取的深度学习网络的模型框架。

图3是根据本发明的一个实施例的路况识别系统的示意结构图。

具体实施方式

下面结合附图详细描述本发明，本发明的特点将在以下的具体描述中得到进一步的显现。

图1是根据本发明的一个实施例的路况识别方法100的流程图。方法开始于步骤102，获取待识别的视频。作为一个示例，待识别的视频可以是由行车记录仪或安装在汽车上的相机或其他图像捕获设备所捕捉的实时路况视频。典型地，路况视频通常捕捉汽车正前方一定视角范围内的环境画面，环境中一般包括道路、行人、车辆等路况对象以及道路两旁的建筑物、树木等背景对象。

在步骤104，对获取的视频进行抽帧。视频是由多个连续帧组成的，常见的视频格式帧速率一般为每秒钟24帧/30帧/60帧。对于路况场景，连续的帧不能全局代表当前的行驶路况。因此，可以指定抽取的帧率，例如每隔几秒(例如3秒、5秒)或者是一定的帧数(例如24fps的视频可以每隔72帧或120帧)从视频中抽取一定数量的帧。在一个示例中，可以对视频的时长进行限定，例如每段视频为30秒或60秒。如果超过这一时长，可以先对视频进行分割。当视频时长是固定的，从视频中抽取出的帧的数量也将是固定的。在另一示例中，视频的时长可以不固定，但抽取出的帧的数量可以被限定，例如抽取10帧或其他数量的帧。

在步骤106，对抽取的帧序列进行语义分割得到将路况对象与背景对象区分开的蒙板帧序列。如之前提到的，路况对象可包括但不限于道路、行人以及车辆，背景对象可包括但不限于建筑物、树木、以及不属于路况对象的任何其他对象。作为一个示例，语义分割可使用经训练的路况语义分割模型对抽取的帧序列中的每一帧逐一进行。将帧输入模型后，模型能够输出将路况对象与背景对象区分开的二分类分割图，其中路况对象可被标记为一种颜色，背景可被标记为另一种颜色。该帧在后续将作为蒙板使用，因此被称为蒙板帧，对抽取的帧序列的每一帧进行处理后即得到蒙板帧序列。作为一个优选示例，为了提高分割的效率，本发明可基于例如RPNet来搭建使用残差金字塔结构的学习网络。类似于目标检测中的SSD模型，该模型通过在不同层的backbone网络上也使用single backbone网络以近似不同水平的残差进而可以实现single-shot的分割，进而改善了分割的效率。此外，该RPNet模型可使用不同场景的车载图像训练而来，因此模型可以完美的适应本发明处理的场景。本领域技术人员可以理解，此处的RPNet仅仅是一个优选示例，也可以基于其他合适的分割网络架构(例如U-Net或SegNet)来搭建本发明的路况语义分割网络。

随后，在步骤108，使用蒙板帧序列对帧序列进行蒙板处理，以去除背景对象。作为一个示例，蒙板处理可进一步包括对蒙板帧序列进行二值化操作(例如处理为0和1)，接着使用经调整的二值化图对原图进行蒙板(mask)操作，以将原图中的背景对象替换为黑色，而原图中的路况对象保留为原始颜色。可以理解，此处背景替换为黑色只是一个示例，也可以是其他任何能够便于区分背景对象与路况对象的颜色。通过这一步骤，经处理后的帧序列中仅保留了道路、人、车辆等路况对象，其余的背景信息(即噪声)通过蒙板处理被有效滤除。

在步骤110，对经蒙板处理的帧序列进行特征提取。作为一个示例，可对经蒙板处理的帧序列应用各种特征提取算法和技术，例如可以输入到任何现有的或合适的特征提取模型。作为一个示例，特征提取模型可以是卷积及循环神经网络模型。一方面，通过卷积神经网络CNN，对对经蒙板处理的帧序列中的每一帧进行图像特征提取，另一方面，为了提取帧序列之间的关系语义信息，可将提取到的特征输入到长短期记忆网络(Long Short-TermMemory，LSTM)，提取出序列语义信息，最后将CNN提取的图像特征和LSTM提取的序列语义信息进行融合。

在步骤112，基于所提取的特征识别路况。例如，将经融合之后的特征输入到全连接神经网络中进行路况分类。在一个示例中，路况可分为畅通、一般、拥堵三类。本领域技术人员可以理解，也可以根据实际需要设置更多或更少的分类数量。最终的输出可以是每一帧路况分类的预测概率。

图2是根据本发明的一个实施例的可用于进行帧序列特征提取的深度学习网络的模型框架。如图2中所示，该特征提取网络是一种卷积及循环神经网络。首先，输入端输入的数据是经过在原图上进行语义分割之后去掉背景噪声的图像序列，例如背景部分已经被黑色替代而只保留路况部分的帧序列。输入的图像首先输入到由多个卷积层和池化层组成的输入层中进行图像特征提取。

作为一个示例，特征提取可由多个block模块来实现。考虑到不同卷积层提取的特征包含的语义特征和空间信息不同，每个block模块内采用不同的卷积层来提取不同水平的特征，使得图像的空间特征和语义特征得以保留。作为一个示例，这里可采用inceptionv3、ResNet50或EfficientNet等block模块。其中，inception可以在严格的内存和计算条件下执行，相比于VGGNet使用了更少的参数量，仅仅使用了VGGNet参数的1/36参数量。这使得inception模型适用于各种大数据场景。输入层的输出是输入图像帧序列的图像特征矩阵。

路况场景中仅仅提取图像的语义特征和空间特征是不能判别路况的，需要将图像序列之间的序列语义信息考虑在内才能反应路况的真实状态。因此，输入层提取出的图像特征被提供给序列特征提取层来进行序列语义信息提取。为了有效的提取序列的序列语义特征，此处序列特征提取层可使用表现力更强的对角递归神经网络DRNN，其中每层使用RNN变体LSTM。DRNN的输出为序列语义特征矩阵。

为了能够有效地保留并利用卷积神经网络提取的图像语义特征和循环神经网络提取的序列语义信息，可进一步通过矩阵拼接的方式进行融合，最终的输出当前图像序列的特征矩阵。例如，CNN提取的输入图像帧序列的图像特征矩阵和DRNN提取的序列语义特征矩阵可通过concatenate操作进行拼接。融合之后得到的最终的特征矩阵可被输入到全连接神经网络中进行分类。

图3是根据本发明的一个实施例的路况识别系统300的示意结构图。如图3中所示，系统300可包括视频捕捉模块302、路况识别模块304、以及通信模块306。作为一个示例，视频捕捉模块302可以是行车记录仪或安装在汽车上的相机或其他图像捕获设备，用于捕捉实时路况视频。路况识别模块304可被配置成集成在行车记录仪或汽车中的硬件或软件，用于根据视频捕捉模块302所捕捉的实时路况视频进行路况识别，例如可通过以上结合图1和图2描述的方法对当前路况进行识别，并给出相应路况的预测概率。通信模块306也可被集成在行车记录仪或汽车中，用于将路况识别模块304所输出的识别结果和/或其他相关数据报告给云端，例如可上报给路况监测平台或交通管理部门下属的其他智慧管理平台(例如智能城市平台、智慧城市大脑等等)，通过汇总不同汽车上报的路况，路况监测平台可以生成全局实时路况，智慧管理平台可以根据上传的数据做进一步分析和处理，例如用于生成交通管理决策(例如，车道设置、交通信号灯设置等等)。

以上所已经描述的内容包括所要求保护主题的各方面的示例。当然，出于描绘所要求保护主题的目的而描述每一个可以想到的组件或方法的组合是不可能的，但本领域内的普通技术人员应该认识到，所要求保护主题的许多进一步的组合和排列都是可能的。从而，所公开的主题旨在涵盖落入所附权利要求书的精神和范围内的所有这样的变更、修改和变化。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于语义分割和神经网络技术的路况识别方法和系统 [P] . 中国专利： CN113850111A . 2021-12-28
2. 一种基于语义分割的航拍输电线路散断股识别方法及系统 [P] . 中国专利： CN112926556A . 2021-06-08
3. CLOTHING COLOR RECOGNITION METHOD, DEVICE AND SYSTEM BASED ON SEMANTIC SEGMENTATION [P] . WO2021164283A1 . 2021-08-26

机译：基于语义分割的服装颜色识别方法，装置和系统
4. An Implementation Method for the Adaptive Learning System Based on Artificial Neural Network Technology [P] . KR20210115265A . 2021-09-27

机译：基于人工神经网络技术的自适应学习系统的实现方法
5. OPTIMUM TENDER PRICE AUTOMATION EVALUATION SYSTEM USING NEURAL NETWORK TECHNIQUE [P] . 韩国专利： KR20080071220A . 2008-08-04

机译：基于神经网络技术的最优标价自动化评估系统