首页> 中国专利> 一种基于子带谱熵法和深度卷积神经网络的汽车鸣笛识别方法

一种基于子带谱熵法和深度卷积神经网络的汽车鸣笛识别方法

摘要

本发明涉及一种基于子带谱熵法和深度卷积神经网络的汽车鸣笛识别方法,所述方法包括以下步骤:步骤1:对声音信号预处理,包括:带通滤波、预加重、分帧和加窗;步骤2:计算预处理后的信号的子带谱熵值;步骤3:并利用双门限法将有可能为鸣笛声片段的分割出来,如果该段声音信号包含的有效帧数小于2帧,那么直接被判为非鸣笛声音。步骤4:如果该片段存在符合条件的帧数据,那么对其提取60维的MFCC特征。将获得的数据分为训练集、验证集合测试集。步骤5:构建深度卷积神经网络,通过第4步得到的数据集对模型进行训练和优化,基于测试集展示识别的结果。

著录项

  • 公开/公告号CN113241094A

    专利类型发明专利

  • 公开/公告日2021-08-10

    原文格式PDF

  • 申请/专利权人 南京师范大学;

    申请/专利号CN202110502390.2

  • 发明设计人 李晨;陆铁文;余凌浩;曾毓敏;

    申请日2021-05-08

  • 分类号G10L25/51(20130101);G10L25/30(20130101);G10L25/45(20130101);G10L25/24(20130101);G10L25/21(20130101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构32206 南京众联专利代理有限公司;

  • 代理人杜静静

  • 地址 210046 江苏省南京市栖霞区亚东新城区文苑路1号

  • 入库时间 2023-06-19 12:10:19

说明书

技术领域

本发明涉及一种汽车鸣笛识别方法,具体涉及一种基于子带谱熵法和深度卷积神经网络的汽车鸣笛识别方法,属于信号处理技术领域。

背景技术

近年来,随着交通车辆数量的增加,城市环境噪声污染问题日益突出。根据中国环保部门的统计,2018年,35.3%的投诉是关于环境噪声的。噪音甚至对居民的健康有不良影响,如失眠、认知疾病、心血管和代谢。因此,城市规划中的降噪措施值得更多关注。考虑到城市环境中声源的频率和影响,本文试图将研究重点放在交通声景观中汽车喇叭的检测上。

由于视频处理技术在道路监控中起着重要作用,早期的哨声检测主要依靠监控视频和人工筛选,导致存储文件过大、人力资源不足等问题。可见光靠视频分析对流量监控是不够的。利用城市交通状况中记录的音频信号可以更好地监测噪声污染,降低视频分析的复杂性。

早期依靠道路执法人员人工判断鸣笛车辆,不仅效率低,对乱鸣笛车辆也无法准确识别,而且对于执法人员的人身安全也有一定的负面影响。为了解决这个问题,基于道路音视频监的鸣笛抓拍系统被提出。在该系统中,鸣笛抓拍系统会实时检测当前的声压级,当声压级超过一定阈值时,系统启动,通过远场波束形成技术定位声源的位置并进行音视频记录。但是在实际道路环境下,声源情况复杂,仅依靠声压级的波动无法准确判断。因此,在系统中添加鸣笛声识别的算法对于提高系统的检测准确率是很有必要的。

发明内容

本发明正是针对现有技术中存在的问题,提供一种基于子带谱熵法和深度卷积神经网络的汽车鸣笛识别方法,该技术方案大大提高了工作效率,对乱鸣笛车辆可以进行准确识别,并且确保了执法人员的人身安全,整个操作过程更智能化。

为了实现上述目的,本发明的技术方案如下,一种基于子带谱熵法和深度卷积神经网络的汽车鸣笛识别方法,所述方法包括以下步骤:

步骤1:对声音信号预处理,包括:带通滤波、加窗和分帧;

步骤2:计算预处理后的信号的子带谱熵值;

步骤3:并利用双门限法将有可能为鸣笛声片段的分割出来,如果该段声音信号包含的有效帧数小于2帧,那么直接被判为非鸣笛声音。

步骤4:如果该片段存在符合条件的帧数据,那么对其提取60维的MFCC特征。将获得的数据分为训练集、验证集合测试集。

步骤5:构建深度卷积神经网络,通过第4步得到的数据集对模型进行训练和优化,基于测试集展示识别的结果。

作为本发明的一种改进,步骤1:对声音信号预处理,包括带通滤波、预加重、加窗函数和分帧。

通常,汽车鸣笛声的基频在1000Hz以下。在实际交通道路环境中,处于该频段的声音种类较多。结合汽车鸣笛声的能量集中于1500-6000Hz的频带范围内,使用带通滤波器保留1500-6000Hz范围内的主要特征,降低噪声的干扰。这里,选择的带通滤波器为巴特沃斯滤波器。

使用一阶的高通滤波器对带通滤波后的信号进行预加重,使得声音的频谱变得更平坦。计算公式为:

s'(n)=s(n)-a·s(n-1) (1)

式中,s(n)代表的是输入信号,a代表的是系数,通常取值为0.9到1之间,此处选择的参数为0.9375。

声音是暂稳态信号,将一段较长声音信号分成长度适中的小段,使每小段声音信号可以视为平稳信号,从而进入下一步处理。其中,将声音分段的操作称为分帧。为了使每一帧信号之间平滑地过渡,相邻帧之间可以出现重叠,重叠的长度为帧长与帧移之差。本文中帧长选为42.6ms,帧移长度为帧长的一半。

为了避免因信号两端出现不连续的情况而导致的频谱泄漏,通常选择截断函数来截取信号,这个函数又称为窗函数。本文使用的窗函数为海明窗,公式如下:

式中,N代表帧长。

作为本发明的一种改进,步骤2:子带谱熵的计算过程如下:

(21)将输入的声音信号通过预处理得到x

式中,X

(22)子带谱熵的主要思想为将一帧信号在频率上分成若干子带,先分别求每个子带的谱熵值来减轻噪声对单条谱线的影响,设每个子带中包含s条谱线,共N

(23)在计算子带谱熵时引入了K来增大鸣笛声与背景噪声间的区分度,得到了子带能量的概率分布式p

作为本发明的一种改进,步骤4中,提取MFCC特征,具体如下,声音信号的主观感知频域,人耳对其的划分是非线性的,有如下公式:

F

其中,F

作为本发明的一种改进,步骤5中,将第一个卷积层的卷积核尺寸改为1×1,将利用1×1卷积核不改变原有输入特征平面结构的特点和卷积层的权值共享,通过调节卷积核的深度来实现对输入特征的升维,1×1–DCNN的模型一共由以下3个部分组成:(1)1个卷积核为1×1的卷积层,正则化系数为0.02;(2)随后的是三个卷积层,正则化系数为0.02、0.02和0.01,每个卷积层都跟着一个2×2最大池化层;(3)在将提取到的特征压成1维之后,通过3个全连接层,在第三个全连接层中用Softmax函数进行分类。

相对于现有技术,本发明具有如下优点,能够准确识别出鸣笛声的存在。相比于传统的信号处理方法,本方法的准确性和鲁棒性都有较大提高。通常情况下,卷积神经网络对训练数据的数据有较大的依赖,但是缺乏数量较大的汽车鸣笛声音样本。为了缓解这个问题,提出一个两级的鸣笛声识别方法。其中,对卷积神经网络第一层的结构做了调整,使得其在数据规模小的情景下也能获得较好的识别准确率。因此本发明对于降低违法鸣笛频率和治理汽车鸣笛噪声污染有一定意义,适用于当下的智能城市建设。

附图说明

图1汽车鸣笛识别算法的总流程图;

图2为24阶梅尔滤波器组的频率响应曲线图;

图3为MFCC与LM特征提取流程图;

图4为1×1-DCNN模型的结构图。

具体实施方式:

为了加深对本发明的理解,下面结合附图对本实施例做详细的说明。

实施例1:参见图1-图4,一种基于子带谱熵法和深度卷积神经网络的汽车鸣笛识别方法,所述方法包括以下步骤:

步骤1:对声音信号预处理,包括:带通滤波、预加重、分帧和加窗;

步骤2:计算预处理后的信号的子带谱熵值;

步骤3:并利用双门限法将有可能为鸣笛声片段的分割出来,如果该段声音信号包含的有效帧数小于2帧,那么直接被判为非鸣笛声音。

步骤4:如果该片段存在符合条件的帧数据,那么对其提取60维的MFCC特征。将获得的数据分为训练集、验证集合测试集。

步骤5:构建深度卷积神经网络,通过第4步得到的数据集对模型进行训练和优化,基于测试集展示识别的结果。

通过对常见车辆的鸣笛声频谱分析,发现汽车鸣笛声的基频通常处于300~500Hz,且在中频部分存在较为丰富的谐波信号。为了降低其他种类噪声的影响,在预处理部分利用带通滤波器对声音进行滤波,仅保留频率为1500Hz到6000Hz的声音。

谱熵特征反映了声音信号在频域中的平稳程度,声信号在能量和频率上的变化越大,其对应的谱熵值就越大。而子带谱熵是在谱熵的基础上,分频段计算谱熵值的一种参数。相较于直接求取一帧信号的谱熵,划分子带后求取的熵值,有更好的抗干扰性。在本文中,利用子带谱熵算法,可以先将一部分频谱差异较大的声源剔除。

步骤1:对声音信号预处理,包括带通滤波、预加重、加窗函数和分帧。

通常,汽车鸣笛声的基频在1000Hz以下。在实际交通道路环境中,处于该频段的声音种类较多。结合汽车鸣笛声的能量集中于1500-6000Hz的频带范围内,使用带通滤波器保留1500-6000Hz范围内的主要特征,降低噪声的干扰。这里,选择的带通滤波器为巴特沃斯滤波器。

使用一阶的高通滤波器对带通滤波后的信号进行预加重,使得声音的频谱变得更平坦。计算公式为:

s'(n)=s(n)-a·s(n-1) (1)

式中,s(n)代表的是输入信号,a代表的是系数,通常取值为0.9到1之间,此处选择的参数为0.9375。

声音是暂稳态信号,将一段较长声音信号分成长度适中的小段,使每小段声音信号可以视为平稳信号,从而进入下一步处理。其中,将声音分段的操作称为分帧。为了使每一帧信号之间平滑地过渡,相邻帧之间可以出现重叠,重叠的长度为帧长与帧移之差。本文中帧长选为42.6ms,帧移长度为帧长的一半。

为了避免因信号两端出现不连续的情况而导致的频谱泄漏,通常选择截断函数来截取信号,这个函数又称为窗函数。本文使用的窗函数为海明窗,公式如下:

式中,N代表帧长。

作为本发明的一种改进,步骤2:子带谱熵的计算过程如下:

步骤2:子带谱熵的计算过程如下:

(21)将输入的声音信号通过预处理得到x

式中,X

(22)子带谱熵的主要思想为将一帧信号在频率上分成若干子带,先分别求每个子带的谱熵值来减轻噪声对单条谱线的影响,设每个子带中包含s条谱线,共N

(23)在计算子带谱熵时引入了K来增大鸣笛声与背景噪声间的区分度,得到了子带能量的概率分布式p

步骤4中,提取MFCC特征,具体如下,在声音信号分析处理领域中,相比于传统的特征(如ZCR、LPCC等),梅尔倒谱系数凭借良好的鲁棒性和广泛的应用占据着非常重要的地位。随着研究的深入,MFCC的中间产物对数梅尔谱也被发现具有较好的实验效果

MFCC特征是依据从人耳的听觉实验得来的两个听觉机理设计的。根据Stevens和Volkman的研究工作,得出对于声音信号的主观感知频域,人耳对其的划分是非线性的,有如下公式:

F

其中,F

对于实际频率的低频部分,划分更加细致。对于这种划分情况,可以通过Mel滤波器组实现,其中每个滤波器都是等带宽的,且具有三角滤波特性。如图2所示,滤波器在低频部分分布密集,在高频部分分布较为稀疏。

单个梅尔滤波器的传递函数为:

其中,k代表的是输入信号的第k个频率分量,m代表了梅尔滤波器的阶数,f(m)代表了滤波器的中心频率,计算方式如下:

其中,N为FFT的点数,f

梅尔频率倒谱系数主要的特点是通过梅尔滤波器组将信号线性频谱转换为非线性的Mel谱来模拟人类听觉感知系统。对数梅尔频谱图是利用对数梅尔频谱系数组成的时频谱,两种特征的完整的提取步骤如下图3所示。

步骤4:中,DCNN网络需要大型的数据集来防止出现模型过拟合问题,所以音频数据增强对改善模型性能是必不可少的。但这同时使训练过程中的计算量大大增加。为了平衡计算量与模型性能间的问题,本文在传统的DCNN方法上进行改进,将第一个卷积层的卷积核尺寸改为1×1。利用1×1卷积核在不同层的特征图上进行卷积,在保持特征图原有的平面结构基础上,调控输出特征的深度,从而在保证原有结构的基础上实现数据降维。在本章中,将利用1×1卷积核不改变原有输入特征平面结构的特点和卷积层的权值共享,通过调节卷积核的深度来实现对输入特征的升维。换句话说,如果输入的特征矩阵是一个二维的特征矩阵,那么可以通过多滤波器和1×1卷积核将二维的数据变为三维,且这个三维的特征矩阵中,每个特征图谱都具有相同的特征。1×1–DCNN的模型如图4所示,该模型一共由以下3个部分组成:(1)1个卷积核为1×1的卷积层,正则化系数为0.02;(2)随后的是三个卷积层,正则化系数为0.02、0.02和0.01。每个卷积层都跟着一个2×2最大池化层;(3)在将提取到的特征压成1维之后,通过3个全连接层。在第三个全连接层中用Softmax函数进行分类。需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号