首页> 中国专利> 基于深度学习的司机驾驶行为检测与识别方法

基于深度学习的司机驾驶行为检测与识别方法

摘要

本发明公开了一种基于深度学习的司机驾驶行为检测与识别方法,基于深度学习的司机驾驶行为检测与识别方法,包括:步骤1.获取司机在驾驶过程中的视频帧序列,所述视频帧序列包括司机在驾驶过程中的行为图像;步骤2.对所述视频帧序列进行预处理;步骤3.构建由ResNet‑18、多层LSTM网络和全连接层级联组成的深度学习模型,利用所述深度学习模型对预处理后的视频帧序列进行检测和识别。本发明采用ResNet‑LSTM的网络结构,消除了因网络深度增加带来的梯度爆炸或者梯度消失的影响,对ResNet‑18和LSTM网络分别引入通道注意力、空间注意力和时序注意力机制,充分利用视频的空间和时序信息,提高模型的性能。

著录项

  • 公开/公告号CN113128360A

    专利类型发明专利

  • 公开/公告日2021-07-16

    原文格式PDF

  • 申请/专利权人 苏州乐达纳米科技有限公司;

    申请/专利号CN202110343377.7

  • 申请日2021-03-30

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构32257 苏州市中南伟业知识产权代理事务所(普通合伙);

  • 代理人郭磊

  • 地址 215000 江苏省苏州市工业园区金鸡湖大道99号苏州纳米城西北区02栋301

  • 入库时间 2023-06-19 11:52:33

说明书

技术领域

本发明涉及深度学习和图像处理领域,具体涉及一种基于深度学习的司机驾驶行为检测与识别方法。

背景技术

近年来,视频行为识别技术开始应用于越来越多的领域,包括视频监控、车辆跟踪、行为识别等,司机驾驶行为识别也同样依赖视频行为识别技术。视频行为识别是深度学习在图像识别领域上的进一步发展。同时,随着计算机硬件技术的不断提高,尤其是GPU的快速发展,使得基于深度学习的图像识别算法逐渐成为主流的算法。

视频行为识别的研究主要包括设计更加高效的深度学习模型和学习算法。从空间特征和时间特征两个方面去考虑,模型需要具备很强的特征学习能力,合适的网络结构需具有良好的泛化性能才能满足实际应用的需求,要在不同的环境中对不良驾驶行为有敏感性,同时还要降低漏报、错报的比例。一般来讲,深度学习模型训练与识别的时间较长,单纯从算法角度难以满足实时性的要求。为了达到应用的需求,我们需要对所设计的深度学习模型进行轻量化处理。另外,在减小参数量的同时,模型的识别准确率也势必会降低。在便携式终端设备实现方面,需要解决识别准确率高、计算速度快、设备功耗小以及内存需求等问题。

因此,根据实际问题,设计一种具有高识别准确率,同时能够满足实时性要求的司机不良驾驶行为检测和的深度学习模型具有非常重要的意义。

对于司机驾驶行为的识别,目前相关研究主要是着重提高深度学习模型在提取视频数据的空间特征以及视频的时序特征上的能力,不同的网络结构有着不同的特征学习能力,将不同网络进行适当的结合

(1)卷积神经网络

卷积神经网络(Convolutional neural network,CNN)在图像领域的发展已较为成熟,对于由一系列连续的帧组成的视频同样可以采用CNN进行学习,以提取视频帧当中包含的显性特征

文献[4]将FCNN(Fully convolutional neural networks)与三级级联的深度卷积神经网络结合识别司机违规行为。首先利用FCNN网络对数据进行语义分割,再由前两级卷积网络剔除大量的正常驾驶行为,最后一级网络给出分类结果。文献[5]采用多网络特征融合进行分类的方法,利用ResNet、VGG16、Inception 三种不同的卷积网络组合成并行网络,同时对相同的数据进行特征提取并进行特征融合

为了能够捕捉视频中的动作,双流法采用了RGB图像和光流(Optic flow) 作为模型的输入,在最后进行特征融合。双流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法,因此光流也包含的帧与帧之间的时序关系。TSN

CNN-RNN是将卷积神经网络与递归神经网络进行级联。RNN能够用于时序预测,语音识别等领域,但是其存在梯度消失、内存溢出等问题,因此一般采用变种的LSTM(Longshort-term memory)或者GRU模型作为RNN模型用于司机驾驶行为检测。首先由CNN对输入的堆叠的视频帧提取空间特征,之后利用RNN模型进行时序建模,采用最后一个时刻的结果作为输出。为了能够提高CNN-RNN网络的性能,提取出关键帧,常常在模型中加入注意力机制,采用权重的方式让LSTM网络获取和学习不同序列帧之间的重要性。文献[10] 首先利用MTCNN(Multi-task cascaded convolutional networks)裁剪出图像的感兴趣区域(如眼部区域),再利用改进的残差网络提取特征,经由LSTM时间建模检测司机是否存在疲劳驾驶。

传统的2D卷积操作的输入为四维[batch,height,width,channel],在运算之后通常会丢失输入的时间信息。3D卷积操作的输入为五维[batch,depth, heigth,width,channel],卷积和池化操作都在时空上进行,能够很好地进行时间建模。另外3D卷积将完整的视频帧作为输入,并且不依赖于任何预处理,因此容易扩展到大型数据集。文献[11]以Inception-V1为骨架利用3D卷积实现了对司机注意力分散的检测,在State Farm dataset上达到了94.4%的正确率。

参考文献

[1]Wang Y,Ho I W H.Joint deep neural network modelling andstatistical analysis on characterizing driving behaviors[C].2018IEEEIntelligent Vehicles Symposium(IV).IEEE,2018:1-6.

[2]Valeriano L C,Napoletano P,Schettini R.Recognition of driverdistractions using deep learning[C].The 8th International Conference onConsumer Electronics,IEEE,2018:1-6.

[3]Christoph R P W,Pinz F A.Spatiotemporal residual networks forvideo action recognition[J].Advances in Neural Information ProcessingSystems,2016: 3468-3476.

[4]李俊俊,杨华民,张澍裕,等.基于神经网络融合的司机违规行为识别[J].计算机应用与软件,2018,35:12.

[5]Vijayan V,Sherly E.Real time detection system of driver drowsinessbased on representation learning using deep neural networks[J].Journal OfIntelligent&Fuzzy Systems,2019,36(3):1977-1985.

[6]Liu F,Li X,Lv T,et al.A Review of driver fatigue detection:Progress and prospect[C].2019IEEE International Conference On ConsumerElectronics,IEEE, 2019:1-6.

[7]Ulhaq A,He J,Zhang Y.Deep actionlet proposals for driver'sbehavior monitoring[C].2017International Conference On Image and VisionComputing, IEEE,2017:1-6.

[8]Wang L,Xiong Y,Wang Z,et al.Temporal segment networks:Towards goodpractices for deep action recognition[C].European Conference On ComputerVision.Springer,Cham,2016:20-36.

[9]Hu Y,Lu M Q,Lu X.Spatial-temporal fusion convolutional neuralnetwork for simulated driving behavior recognition[C].201815th InternationalConference On Control,Automation,Robotics andVision.IEEE,2018:1271-1277.

[10]Xiao Z,Hu Z,Geng L,et al.Fatigue driving recognition network:Fatigue driving recognition via convolutional neural network and long short-term memory units[J].IET Intelligent Transport Systems,2019,13(9):1410-1416.

[11]Moslemi N,Azmi R,Soryani M.Driver distraction recognition using3D convolutional neural networks[C].20194th International Conference OnPattern Recognition and Image Analysis(IPRIA).IEEE,2019:145-151.

目前针对司机行为识别主要采用深度学习的方法,一般所设计的深度学习模型结构复杂,参数量以及计算量庞大,不适合在便携设备上实现。这些现有技术存在以下几个缺点:

(1)基于CNN的网络模型只能学习到单帧图像的空间特征,忽略了时序特征,因此识别效果并不理想。

(2)双流法在视频识别上取得的准确率较好,但是双流法一般是由两种相同的网络组合而成,结构复杂,同时计算视频帧的光流时会占用大量的资源,这对于内存有限的移动设备来说不现实。

(3)3D网络同时具备了提取空间特征和时序特征的能力,但是相比与2D 卷积,采用了五维的输入,因此在参数量上会过于庞大。

发明内容

本发明要解决的技术问题是提供一种基于深度学习的司机驾驶行为检测与识别方法,提高对视频数据的空间特征和时序特征的提取能力,实现准确分类;由于移动设备资源有限,在保证检测和识别准确率的情况下,对深度学习模型的结构进行优化以及参数量的删减;所设计的司机驾驶行为识别系统能够满足实时性的需求;通过结构优化有效降低了移动设备调用网络固化模型所占的内存资源。

为了解决上述技术问题,本发明提供了一种基于深度学习的司机驾驶行为检测与识别方法,包括:

步骤1.获取司机在驾驶过程中的视频帧序列,所述视频帧序列包括司机在驾驶过程中的行为图像;

步骤2.对所述视频帧序列进行预处理;

步骤3.构建由ResNet-18、多层LSTM网络和全连接层级联组成的深度学习模型,利用所述深度学习模型对预处理后的视频帧序列进行检测和识别。

在其中一个实施例中,所述ResNet-18网络由五部分组成,第一部分由卷积网络和最大池化层组成;下面四部分为结构相同的卷积网络,每部分有四层卷积层,每部分的输出通道数依次翻倍;每两层卷积层的输入与输出进行直接相加,成为残差模块,所述残差模块的输入通道数与输出通道数应与该部分特征图的输入输出通道数分别对应。

在其中一个实施例中,所述ResNet-18网络用于提取所述视频帧序列的空间特征,在所述ResNet-18网络的每个残差模块中都加入了卷积注意模块,所述卷积注意模块分别在通道上和空间上对特征图进行加权处理。

在其中一个实施例中,所述通道卷积注意模块在通道上的输入是一个 H×W×C的特征F,先对输入的每个通道特征分别进行全局平均池化和最大池化操作得到两个1×1×C的通道描述;接着,再将两个1×1×C的通道描述分别送入一个两层的卷积神经网络,第一层神经元个数为C/r,r为缩放因子,激活函数为ReLU,第二层神经元个数为C,然后将得到的两个特征相加经过Sigmoid非线性函数映射得到维度为C,值为0-1之间的权重向量Mc,每个向量元素值反应了该通道的重要程度,将原来的特征F乘以权重系数得到缩放后的特征;Mc的计算公式为:

其中,A为全局平均池化操作,M为最大池化操作,G为卷积操作,W

在其中一个实施例中,所述空间卷积注意模块在空间上的输入是一个 H×W×C的特征F,对通道分别进行最大池化和平均池化操作,得到两个H×W×1 的通道描述,将两个矩阵在通道上级联,即矩阵在最后一个维度上进行叠加,通过一个7x7的卷积和Sigmoid函数得到值分布在0-1之间的空间特征权重系数Ms,每个元素值代表对应区域特征的重要性,并与特征图相乘;Ms的计算公式为:

其中,A是平均池化操作,M是最大池化操作,f

在其中一个实施例中,所述LSTM网络用于提取所述视频帧序列的时序信息,所述LSTM网络有三层,每层LSTM输入都要经过时序注意力模块,对时序采取系数加权的处理办法。

在其中一个实施例中,所述时序注意力模块的输入是一个T×C的特征F,首先在最前面增加一个维度便于进行卷积运算,变为1×T×C,再将矩阵维数重新调整为[1,C,T],然后对每个时序特征分别进行全局平均池化和最大池化得到两个1×1×T的时序描述;再将两个1×1×T的时序描述分别送入一个两层的卷积神经网络,第一层神经元个数为T/r,r为缩放因子,激活函数为ReLU,第二层神经元个数为T,然后将得到的两个特征相加经过Sigmoid函数映射得到维度为T,值为0-1之间的权重向量M

其中,A是平均池化操作,M是最大池化操作,G为卷积操作,W

基于同样的发明构思,本申请还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。

基于同样的发明构思,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。

基于同样的发明构思,本申请还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。

本发明的有益效果:

(1)本发明采用ResNet-LSTM的网络结构,消除了因网络深度增加带来的梯度爆炸或者梯度消失的影响,对传统的LSTM网络采用残差模块的思想进行改进,充分利用时序信息,提高网络的性能。

(2)本发明采用深度可分离卷积对网络进行参数删减并与模型压缩相结合优化网络结构,在保证网络足够的学习能力同时,减小网络规模,提高模型的运行速率,从而更易于部署到移动设备上。

(3)将卷积网络中的CBAM注意力模块引入到LSTM中,提出了时序注意力模块TBAM,有效地提高了网络的识别准确率和收敛速度。

(4)本发明对CNN网络采用混合替换的方式,将不同算法的优点进行结合,对空间特征提取网络进行区域化改进。

附图说明

图1是本发明基于深度学习的司机驾驶行为检测与识别方法的流程示意图。

图2是本发明中的ResNet-18网络结构图。

图3是本发明中的Block1结构图。

图4是本发明中的Block2结构图。

图5是本发明中的Block3结构图。

图6是本发明中的Block4结构图。

图7是本发明中的通道注意力操作流程示意图。

图8是本发明中的空间注意力操作流程示意图。

图9是本发明中的可分离卷积操作流程示意图。

图10是本发明中的TBAM结构示意图。

图11是本发明中的时序注意力操作流程示意图。

图12是本发明中的训练流程图。

图13是本发明中的驾驶行为识别网络的结构图。

图14是本发明中的CBAM与残差模块结合示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。

本发明提出了一种由ResNet-18网络和LSTM网络进行级联实现司机驾驶行为检测与识别的方案,技术方案由图1所示的流程图给出。

本发明采用树莓派作为车载设备,在移植到树莓派前,利用采集到的数据集对所设计的深度学习模型进行训练,并将训练好的网络保存为checkpoint模型。由于该类型文件将网络模型和网络参数保存为不同部分,不利于硬件设备的调用,因此需要将该模型转化为固化的PB文件,以达到网络权重和网络模型保存在同一文件中的目的。上述步骤只是进行了模型文件的转化,文件规模并没有降低。为提高树莓派的运行速率同时降低模型调用的内存资源,需要将 PB模型转化为适用于安卓、微型处理器等移动端设备的TensorflowLite模型。同时,利用模型量化的方式,进一步降低模型文件的大小,选用float32数据类型转float16数据类型的转换方案,模型大小变为一半。

步骤1.从启动车载设备开始,摄像头以间隔固定帧数的形式,实时截取并保存连续的两到三秒司机在驾驶过程中的行为图像。

步骤2.对视频帧序列进行图像处理,摄像头截取的视频帧像素为640x480,为满足网络输入的需求进行裁剪,缩放成224x224,同时对图片进行灰度化、归一化处理,得到的网络输入x为[batch,height,width,channel]。

步骤3.构建由ResNet-18、多层LSTM网络和全连接层级联组成的用于司机驾驶行为识别的深度学习模型。Resnet-18由五部分组成,第一部分由一层卷积核为7x7,通道数为64,步长(stride)为2的卷积网络和一层卷积核为3x3, stride为2的最大池化层(Max-pooling)组成,下面四部分为结构大致相同的卷积网络,每部分有四层卷积层,卷积核大小为3x3,每部分的输出通道数依次翻倍,分别为64,128,256,512。每两层卷积层的输入与输出进行直接相加,成为残差模块,其输入通道数与输出通道数应与该部分特征图的输入输出通道数分别对应。从第三部分开始,第一个卷积层的stride为2,同时其残差部分也对特征图大小进行缩减,由卷积核为1x1,stride为2的卷积层实现。网络最终输出的通道数为512。图2到图6是Resnet-18以及各模块的结构图。

ResNet-18网络用于提取视频帧序列的空间特征。为了提高卷积网络的特征提取能力,在ResNet-18网络的每个残差模块中都加入了卷积注意力模块 (ConvolutionalBlock Attention Module)。CBAM分别在通道上和空间上对特征图进行加权处理。

通道注意力模块输入是一个H×W×C的特征F,先分别对每个通道特征进行全局平均池化和最大池化得到两个1×1×C的通道描述。接着,再将它们分别送入一个两层的卷积神经网络,第一层神经元个数为C/r,r为缩放因子,激活函数为ReLU,第二层神经元个数为C,然后将得到的两个特征相加经过Sigmoid 函数映射得到维度为C,值为0-1之间的通道权重向量Mc,将原来的特征F乘以权重系数得到缩放后的特征。Mc的计算公式为:

其中,A为全局平均池化操作,M为最大池化操作,G为卷积操作,W

图7是相关操作流程:

空间注意力模块对特征图F进行通道最大池化和平均池化,得到两个H×W×1的通道描述,将两个矩阵在通道上级联,即矩阵在最后一个维度上进行叠加,通过一个7x7的卷积和Sigmoid函数得到值分布在0-1之间的空间特征权重系数Ms,并与特征图相乘。Ms的计算公式为:

其中,A是平均池化操作,M是最大池化操作,f

在ResNet-18的实现过程中,为了提高网络的运行速度,优化网络结构,减少网络参数,采用了可分离卷积替换传统的卷积操作,用深度卷积和点卷积替换原本的3x3卷积,同时借鉴Mobile V2,在残差模块的下采样阶段,用线性函数替换最后一层卷积原本的ReLU激活函数,有效降低了ReLU函数使得输出神经元大量死亡(即神经元权重为0)的概率。具体操作如图9所示。

上图右边3x3卷积为深度卷积,下面的1x1卷积为点卷积,将传统的卷积操作替换为深度可分离卷积既能达到原本的效果又能大大减少网络的参数量,同时以线性函数作为激活函数能有效避免特征中部分有效信息被忽略。

ResNet-18经最后一层卷积层以及7x7最大池化层后输出为 [batch*time_steps,1,1,512]。为满足LSTM的输入,ResNet-18模型的最后输出重新调整为[batch,time_steps,512]。LSTM网络用于提取视频帧序列的时序信息,有三层,每层有512个隐层神经元,每层LSTM输入都要经过时序注意力模块 (Temporal Block Attention Module,TBAM),对所有时序特征采取系数加权操作。时序注意力模块的结构如图10所示。

时序注意力模块输入是一个T×C的特征F,首先在最前面增加一个维度方便进行卷积运算,变为1×T×C,再将矩阵维数重新调整为[1,C,T],然后对每个时序特征分别进行全局平均池化和最大池化得到两个1×1×T的时序描述。继而,再将它们分别送入一个两层的神经网络,第一层神经元个数为T/r,r为缩放因子,激活函数为ReLU,第二层神经元个数为T,然后将得到的两个特征相加经过Sigmoid函数得到维度为T,值为0-1之间的权重向量M

其中,A是平均池化操作,M是最大池化操作,G为卷积操作,W

不同于空间卷积的局部注意力,只对一张图像的某一区域进行关注,时序注意力模块是基于全局也就是视频级的层次上,对所有的视频帧进行筛选,当某一时序对应的视频帧特征较为明显时,其对网络的贡献度也越大,这样就能够使得网络能够重点学习其特征,从而提高网络的特征提取能力并加快网络的收敛速度。

时序注意力机制的操作流程如图11所示:

LSTM模型一般取最后一个时序作为输出。本发明中,我们采用时间池化的方式作为最终的输出,先对所有时序特征求和再取平均,为 K[sum/time_steps,512]。若有15帧图像,则为[1,512]。

全连接层有五个神经元,代表了识别任务的五个类别,设输入序列为 X{X

计算公式为

Z=FC(X)=W·X,W∈R

其中,X为输入特征,维度为T×t,FC为全连接操作,W是维度t×5的权值矩阵,Z是全连接输出,维度为T×5。

步骤4.通过一个softmax层得到对应的类别Y{Y

Y

本发明所提出的用于司机驾驶行为识别的深度学习模型的训练和移植过程为:

1、首先将采集到的视频数据集进行逐帧裁剪,并挑选包含司机驾驶行为的 15帧图像,保存在以视频名称命名的文件夹中,格式为action_序号_标签.mp4,同时将所有视频名称写入txt文本中。

2、逐行读取包含视频名称的文本文档,并提取该视频的标签类别,之后打乱所有的数据。

3、设置训练batch大小为13,初始学习率l

4、采用Adam优化算法,经过一千次训练后,学习率衰减为0.001l

5、网络训练结束,将网络的模型参数以checkpoint格式保存,并转化成 PB格式,将网络结构图文件和权值合并为一个文件,之后通过 tf.lite.TFLiteconverter函数将模型转化为.tflite模型文件。为了提高运行效率,在转化的同时,选择float16作为网络参数的量化标准。

6、将模型移植到树莓派中并完成调试。

具体流程图见图12。

下面结合附图13到14对本发明作进一步描述:

1、打开树莓派电源,程序加载,启动摄像头。

2、树莓派摄像头帧率为30FPS,每间隔4帧抽取一帧共抽取15帧图像,并在树莓派的显示屏上实时显示。

3、CSI摄像头截取的图像像素大小为640x480,利用OpenCV中的resize 函数将图像缩减为224x224,同时进行灰度化处理,保持图像的通道数为3。为了提高网络的计算速度,将图像像素统一除以255.0进行归一化。

4、将batch改为1,处理后的视频帧构成输入向量x[15,224,224,3]。首先经过一层7x7的卷积层,步长为2,输出通道数为32,输出为x[15,112,112,32],再经过一层3x3最大池化层,步长为2,减少冗余信息,输出为x[15,56,56,32]。下面经过四个卷积模块,每个模块由四个卷积层组成,第一个模块特征大小不变,输出通道数为64,输出特征为x

5、将经过残差网络的输出调整为为x[1,15,512]以满足LSTM的输入,格式为[batch,n_steps,input_size]。LSTM网络有三层,每层结构相同,每层的隐藏神经元个数为512,因此经过每一层后特征图输出为x[1,15,512]。取最后平均时序作为网络作为最终输出及x[:,∑/15,:],中间的符号表示将所有时序平均池化。

6、在与全连接层相连前,特征图被调整为为x[1,512],全连接层只有一层,权值矩阵维度为512x5,这样输出为x[1,5]。

7、最后经过一层softmax层,得到输出y[1,5],第二个维度代表了动作的类别数,每个元素为0-1之间的概率值,总和为1,读取最大值下标得到该动作的分类结果。0代表正常驾驶,1代表打哈欠,2代表打电话,3代表抽烟,4代表视线偏移。

8、根据识别结果发出警报。

本发明的一个具体应用场景如下:

1、打开树莓派电源,程序加载,启动摄像头。

2、树莓派摄像头帧率为30FPS,每间隔4帧抽取一帧共抽取15帧图像,并在树莓派的显示屏上实时显示。

3、CSI摄像头截取的图像像素大小为640x480,利用OpenCV中的resize 函数将图像缩减为224x224,同时进行灰度化处理,保持图像的通道数为3。为了提高网络的计算速度,将图像像素统一除以255.0进行归一化。

4、将batch改为1,处理后的视频帧构成输入向量x[15,224,224,3]。首先经过一层7x7的卷积层,步长为2,输出通道数为32,输出为x[15,112,112,32],再经过一层3x3最大池化层,步长为2,减少冗余信息,输出为x[15,56,56,32]。下面经过四个卷积模块,每个模块由四个卷积层组成,第一个模块特征大小不变,输出通道数为64,输出特征为x

5、将经过残差网络的输出调整为为x[1,15,512]以满足LSTM的输入,格式为[batch,n_steps,input_size]。LSTM网络有三层,每层结构相同,每层的隐藏神经元个数为512,因此经过每一层后特征图输出为x[1,15,512]。取最后平均时序作为网络作为最终输出及x[:,∑/15,:],中间的符号表示将所有时序平均池化。

6、在与全连接层相连前,特征图被调整为为x[1,512],全连接层只有一层,权值矩阵维度为512x5,这样输出为x[1,5]。

7、最后经过一层softmax层,得到输出y[1,5],第二个维度代表了动作的类别数,每个元素为0-1之间的概率值,总和为1,读取最大值下标得到该动作的分类结果。0代表正常驾驶,1代表打哈欠,2代表打电话,3代表抽烟,4代表视线偏移。

8、根据识别结果发出警报。

本发明的关键构思如下:

(1)本发明将用于卷积网络的注意力模块CBAM引入到递归神经网络 LSTM中,提出了时序注意力模块(TBAM),从全局层面上,关注重点时序,提高了网络对时序信息的特征提取能力并加快了网络的收敛速度;

(2)本发明对LSTM网络采用残差模块,充分利用了LSTM网络不同层之间的语义信息,提高了网络的性能;

(3)本发明采用混合替换的方式,对CNN网络参数进行了删减,使得网络总体参数量缩减了七倍以上;

(4)本发明在训练卷积神经网络过程中加入了随机高斯白噪声,同时使用 Adam优化、Dropout学习以及L

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号