首页> 中国专利> 一种基于深度学习的驾驶员分心行为检测方法

一种基于深度学习的驾驶员分心行为检测方法

摘要

本发明属于交通安全技术领域,公开了一种基于深度学习的驾驶员分心驾驶行为检测方法。构建了一个驾驶员分心行为检测网络,在原有的YOLOv5网络的骨干网络中增加了一组模块化结构,这些模块对输入特征图执行多个不同的卷积操作,以增强网络提取特征的能力。将Swin Transformer模块引入到特征融合网络的C3模块中,取代了原有的Bottleneck模块,Swin Transformer模块降低了计算量,提高了网络的运行速度。通过采用滑动窗口注意力机制来增加感受野,使得模型在特征提取过程中能够从整个特征图中感知全局信息。最后对特征融合网络的连接进行修改,增强了模型的特征融合能力。本发明显著提高了驾驶员分心驾驶行为检测的准确性,可辅助驾驶员驾驶,减少交通事故的发生。

著录项

  • 公开/公告号CN116935361A

    专利类型发明专利

  • 公开/公告日2023-10-24

    原文格式PDF

  • 申请/专利权人 长春理工大学;

    申请/专利号CN202310882445.6

  • 发明设计人 段锦;李仲伦;张昊;

    申请日2023-07-18

  • 分类号G06V20/59(2022.01);G06V10/764(2022.01);G06V10/774(2022.01);G06V10/80(2022.01);G06V10/82(2022.01);G06N3/0464(2023.01);G06N3/08(2023.01);

  • 代理机构

  • 代理人

  • 地址 130022 吉林省长春市朝阳区卫星路7089号

  • 入库时间 2024-04-18 19:48:15

说明书

技术领域

本发明属于交通安全技术领域,具体涉及一种基于深度学习的驾驶员分心行为检测方法。

背景技术

近年来,随着我国工业水平和交通运输行业水平的不断提高,社会经济发展迅速。与此同时,汽车的数量也与日俱增。交通工具在给人们交通带来便利的同时,交通事故越来越频繁,在众多交通事故中,驾驶员的分心驾驶是造成交通事故的重要原因之一。因此,检测驾驶员的分心驾驶行为,并实时做出提醒具有重大的意义。

目前,针对驾驶员分心行为检测这一任务,主要采用四种方法:基于驾驶操作行为的检测方法、基于生理信号的检测方法、基于图像处理的检测方法和基于深度学习的检测方法。基于驾驶操作行为的检测方法主要利用汽车行驶数据来监测驾驶员的驾驶行为,包括车辆速度、方向盘转角和车辆横纵位移等。然而,这种方法需要在车辆上安装多种数据采集传感器,成本较高。此外,该方法容易受到驾驶环境和车辆类型等外在因素的影响,可能导致误判的情况发生。基于生理信号的检测方法主要通过给驾驶员佩戴生理信号采集装置,来获取驾驶员的生理信息,如脑电图、心电图和肌电图等,从而实现对分心行为的检测。然而,这种方法需要驾驶员佩戴生理信号装置,会给驾驶员造成不适,对干扰驾驶员的正常驾驶。基于图像处理的检测方法主要通过分析车载摄像头采集的驾驶员面部特征或身体姿态特征来监测驾驶员的驾驶行为。然而,该方法在获取驾驶员面部信息时容易受到复杂的光照条件等外部环境因素的影响,因此具有一定的局限性。此外,该方法通常依赖于手动提取的纹理或形状特征来提取驾驶员图像特征,而往往难以捕捉复杂、高级的特征,导致检测性能下降。

基于深度学习的驾驶员分心行为识别方法具备广泛的优势。但是,现有的深度学习方法,实时性不高、网络参数较大,普遍难以应用到资源有限的设备中,并且对不同尺寸的目标适应能力弱,对小尺寸目标容易导致误检或者漏检。

发明内容

为了克服相关技术中存在的问题,本发明提供了一种基于深度学习的驾驶员分心行为检测方法,构建一个驾驶员分心行为检测网络,能够准确的识别出驾驶员的分心驾驶行为。

为了实现上述目的,本发明采用如下技术方案:

一种基于深度学习的驾驶员分心行为检测方法,包括以下步骤,且按以下步骤顺序执行;

步骤S1,数据集准备,收集包含驾驶员分心驾驶行为的图像,并进行标注;

步骤S2,图像预处理,对收集到的图像进行一系列的操作和变换,以改善图像的质量,并为网络提供更好的输入数据;

步骤S3,构建一个驾驶员分心行为检测网络,在原有的YOLOv5网络的骨干中增加模块化结构,将Swin Transformer模块引入到特征融合网络的C3模块中,取代了原有的Bottleneck模块,并对特征融合网络连接进行修改;

步骤S4,设计联合损失函数,训练模型,把准备的训练集输入到驾驶员行为检测网络中进行训练;

步骤S5,网络测试,把准备的测试集输入到网络中进行识别、得到结果。在步骤S1中,获取驾驶员分心驾驶行为的图像,具体包括以下子步骤:

S101:采集驾驶员分心驾驶图像。在驾驶舱内,以驾驶员正前方、顶部和右部三个视角分别放置Kinect可见光相机,拍摄驾驶员的分心驾驶行为。我们将采集到的图片进行筛选,分心行为不明显的图片进行删除。

S102:驾驶行为图像标注。将得到的图片进行分类,相同驾驶行为划分到同一类中。使用LabelImg对得到的图片进行标注。其中,将打电话命名为“Phone”,吸烟命名为“Smoking”,喝水定义为“Drinking”,吃东西定位为“Eating”。最后得到图片4000张,训练集、测试集的比例约为4:1。

在步骤S2中,对收集到的驾驶员图像进行预处理,具体包括以下子步骤:

S201:对收集到的图像大小进行裁剪。为了有效地利用图像数据,使输入图像的大小与输入层大小匹配,使模型的训练和推理过程更高效。将步骤S1中得到的图片裁剪成640×640的图像。

S202:利用马赛克数据增强技术对图像进行模糊处理,模糊图像中的敏感信息。这样可以在保持图像整体结构的同时,对特定区域进行像素化处理,以增强数据的多样性和泛化能力,防止过拟合。

S203:利用自适应锚框计算技术,生成适合不同尺度和纵横比的锚框。通过在不同层次的特征图上生成不同尺度的锚框,可以提高检测算法对于尺度变化的鲁棒性。通过生成适应不同纵横比的锚框,以处理各种形状的目标。这样可以增加驾驶员行为检测网络对目标形状变化的适应性。

在步骤S3中,构建一个驾驶员分心行为检测网络。为了实现对小尺寸目标的准确检测,在原有的YOLOv5骨干网络SPPF结构之后增加了一组模块化结构,增强了特征提取能力。这些模块对输入特征映射执行多个不同的卷积操作,以增强网络提取特征的能力。通过多尺度感受野感知不同的特征信息,可以增强网络提取特征的能力,特别是对小尺寸物体的检测。给定输入特征信息X后,模块输出信息为Y,计算公式如下:

Y=X

其中,变量X

其中,缩写cv代表不同的卷积运算,符号“+”代表将这些变量连接起来。

在步骤S3中,构建一个驾驶员分心行为检测网络。将Swin Transformer模块引入到特征融合网络的C3模块中,取代了Bottleneck模块。这样增强了模型对全局信息的感知能力。Swin Transformer的基本结构由三个模块组成,分别是Patch Embedding、SwinTransformer Block和Patch Merging。Swin Transformer Block是其主要模块。

在步骤S3中,构建一个驾驶员分心行为检测网络。对特征融合网络的网络连接进行修改。在原有的YOLOv5网络模型的颈部,只有20×20、40×40和80×80三种尺寸的特征图在特征融合阶段被结合起来。为了使网络模型能够更充分地整合信息,增加了一个更大的特征图,大小为160×160,用于特征融合。此外,在原始特征融合网络的基础上,增强了融合不同大小特征图的能力。这提高了检测小物体的能力,如香烟、手机、水杯。

在步骤S4中,设计联合损失函数,由三部分组成,分别是分类损失、置信度损失和回归损失。其中分类损失和置信度损失都是使用BCE(Binary Cross Entropy,二进制交叉熵)损失函数来计算的。在本发明中定位损失使用的是基于距离交互比的损失函数(L

所述基于距离交互比的损失函数L

其中IoU表示的是预测框和真实框的交并比,b和b

所述权重系数α,长宽比的相似性v为:

其中w

在步骤S5中,向训练好的驾驶员分心行为检测网络中输入驾驶员分心图像,识别驾驶员是否存在分心行为以及具体类别。

通过上述设计方案,本发明可以带来如下有益效果:一种基于深度学习的驾驶员分心行为检测方法,在驾驶员分心驾驶图像收集上,通过多个视角联合判断,增加了检测的准确率,避免了视野盲区。构建一个驾驶员分心行为检测网络,提高了对小目标物体检测的准确率。本发明有助于降低由于驾驶员分心驾驶而引起交通事故发生的概率,有助于保障交通安全。

附图说明:

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理;

图1是本发明实施例提供的一种基于深度学习的驾驶员分心行为检测方法的流程图;

图2是本发明实施例提供的驾驶员分心行为数据集采集示意图;

图3是本发明实施例提供的驾驶员分心行为检测网络结构示意图;

图4是本发明实施例提供的驾驶员分心行为检测网络的骨干网络中加入的模块化结构示意图;

图5是本发明实施例提供的驾驶员分心行为检测网络中特征融合网络中引入的Swin Transformer结构中Swin Transformer Block架构图;

图6是本发明实施例提供的驾驶员分心行为检测网络中原C3模块结构示意图;

图7是本发明实施例提供的驾驶员分心行为检测网络中改进之后的C3模块结构示意图;

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。

下面结合附图1-附图7,对本发明实施例提供的一种基于深度学习的驾驶员分心行为检测方法进行详细的介绍。

请参见图1,本发明实施例提供了一种基于深度学习的驾驶员的分心行为检测方法的流程图。如图1所示,本发明的实施例的所述方法可以包括以下步骤S1-S5。

在步骤S1中:收集包含驾驶员的分心驾驶行为的图像。如图2所示,在驾驶舱内,以驾驶员正前方、顶部和右部三个视角分别放置Kinect可见光相机,拍摄驾驶员的分心驾驶行为。我们将采集到的图片进行筛选,分心行为不明显的图片进行删除。驾驶舱内共采集20个驾驶员的分心驾驶行为,包括10为男生和10位女生,年龄在20-25岁之间。驾驶员的分心驾驶行为包括:打电话、吸烟、喝水、吃东西四种。将得到的图片进行分类,相同驾驶行为划分到同一类中。使用LabelImg对得到的图片进行标注。最后得到图片4000张,训练集、测试集的比例约为4:1。

在步骤S2中,图像预处理包括以下步骤:

S201:对收集到的图像的大小进行裁剪,使之与驾驶员分心行为检测网络输入保持一致。这样可以去除不相关的背景,使模型更关注驾驶员本身,可以使驾驶员分心行为检测网络更好地学习和处理图像。

S202:通过马赛克数据增强数据的多样性和复杂性,提高模型对不同场景和目标的泛化能力。马赛克数据增强是一种通过将多个图像合成为一个马赛克图像,并将其用作训练数据的方法。这种方法在训练过程中,将多张图像随机裁剪并拼接在一起,形成一个合成的马赛克图像。这样可以增加数据的多样性和复杂性,使得模型能够更好地处理各种不同场景和目标的情况。

S203:通过自适应锚盒预处理更好地匹配目标的尺寸和比例,使得模型能够更准确地检测目标。自适应锚盒预处理(Adaptive Anchor Box Preprocessing)是一种用于目标检测任务的预处理方法。在目标检测中,锚盒(anchor box)是用于表示可能包含目标的矩形框,通过在图像上采样一组锚盒,并将其与真实标注框进行匹配。自适应锚盒预处理方法会根据输入图像中目标的尺寸和比例信息,自动调整锚盒的尺寸和比例,以更好地适应目标的特征。

在步骤S3中,通过驾驶员分心行为检测网络对驾驶员分心行为进行检测,可以获取驾驶员是否存在各类分心驾驶行为的结果。驾驶员分心行为检测网络结构图如图3所示。

进一步的,为了实现驾驶员行为识别检测网络对小尺寸物体的检测精度,在原有的YOLOv5骨干网络的SPPF结构后增加一组模块化结构,以增加特征提取能力。其中该模块的结构示意图如图4所示。其中,输入被分成两个分支,一个分支通过卷积操作和设置的模块,另一个分支只经过一个卷积操作。最后,通过拼接操作后再进行一次卷积操作。指定的模块包含了6个不同的卷积操作。通过对输入特征图进行这6个不同的卷积操作,可以得到不同的感受野。通过叠加卷积层,扩大了感受野,并利用不同的感受野进行特征提取。

进一步的,在特征融合网络中,在C3模块中引入了Swin Transformer模块来取代的原有的瓶颈模块。Swin Transformer的基本结构由三个模块组成,分别是PatchEmbedding、Swin Transformer Block和Patch Merging。Swin Transformer Block是其主要模块,并且Transformer块成对出现,其构架图如图5所示。Swin Transformer可以作为计算机视觉的通用骨干网络,并且通过滑动操作和分层设计来解决由于视觉实体规模增加和高分辨率引起的计算复杂性问题。在特征融合网络的C3模块中引入Swin Transformer模块,取代原有的Bottleneck模块。原C3模块和改进之后的C3模块如图6、图7所示。

进一步的,对特征融合网络的网络连接进行修改。在原有的YOLOv5网络模型的颈部网络,特征融合阶段只结合了三种尺寸的特征图,即80×80、40×40和20×20。为了使网络模型更充分地整合信息,增加了一个更大的特征图,尺寸为160×160,用于特征融合。

在步骤S4中,设计联合损失函数,由三部分组成,分别是分类损失、置信度损失和回归损失。其中分类损失和置信度损失都是使用BCE(Binary Cross Entropy,二进制交叉熵)损失函数来计算的。原有的YOLOv5中定位损失使用的是CIoU损失函数。但CIoU计算过程较为复杂。它涉及到目标边界框的中心点、宽度、高度等多个参数的计算,增加了计算的复杂性和计算资源的消耗,并且由于CIoU考虑了目标的完整性和覆盖率,它对于小目标的评估可能更为敏感。当目标尺寸较小时,CIoU可能会受到边界框位置微小变化的影响,导致结果的不稳定。为了解决以上问题,本发明中定位损失使用的是基于距离交互比的损失函数(L

所述基于距离交互比的损失函数L

其中IoU表示的是预测框和真实框的交并比,b和b

所述权重系数α,长宽比的相似性v为:

其中w

在步骤S5中,把准备的驾驶员分心行为图像输入到网络中进行识别、得到行为检测的结果。

对于领域内的技术人员而言,本发明并不仅限于上述示范性实施例所描述的细节。在不违背本发明的原则或基本特征的前提下,本发明可以以其他具体形式进行实现。因此,从任何角度来看,示范性实施例都应该被视为示例性的、非限制性的。本发明的范围由所附权利要求所定义,而不受上述说明的限制。因此,本发明的目的是将落在权利要求的等同要件的含义和范围内的所有变化都包含在内。

此外,需要理解的是,尽管本说明书按照实施方式进行描述,但并非每个实施方式仅限于一个独立的技术方案。说明书的叙述方式仅出于清晰起见,并不排除本领域技术人员将整个说明书作为一个整体,并通过适当的组合形成其他可理解的实施方式。因此,本领域技术人员可以根据需要将各个实施例中的技术方案进行适当组合,以形成其他实施方式。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号