首页> 中国专利> 基于三分支特征融合神经网络的声音事件检测方法

基于三分支特征融合神经网络的声音事件检测方法

摘要

本发明公开了一种基于三分支特征融合神经网络的声音事件检测方法,包括:将包含声音信号的数据集进行特征提取,得到log‑mel频谱图的数据集,并将其分为训练集、测试集和验证集;建立三分支特征融合网络模型,所述的三分支特征融合网络模型包括三分支采样、特征提取、三分支的特征融合和损失融合:将测试集和验证集作为训练后的模型的输入,该模型的输出即为该数据集的声音事件检测的结果,包括该音频所包含的声音事件类别和发生该事件的起始和终止时间。本发明通过三分支融合的方式获取到尾部类和难区分类别的判别性特征,并在一定程度上均衡了分类器的类别权重,提高了声音事件检测的效果。

著录项

  • 公开/公告号CN114881213A

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 天津大学;

    申请/专利号CN202210490937.6

  • 发明设计人 谢宗霞;周雨馨;

    申请日2022-05-07

  • 分类号G06N3/04(2006.01);G06N3/08(2006.01);G06K9/62(2022.01);G10L25/30(2013.01);G10L25/54(2013.01);

  • 代理机构天津市北洋有限责任专利代理事务所 12201;

  • 代理人李丽萍

  • 地址 300072 天津市南开区卫津路92号

  • 入库时间 2023-06-19 16:19:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-26

    实质审查的生效 IPC(主分类):G06N 3/04 专利申请号:2022104909376 申请日:20220507

    实质审查的生效

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本发明属于神经网络模型设计及应用,特别涉及三分支特征融合神经网络模型的应用。

背景技术

近些年来,随着网络技术的发展,音频数据大量的出现,人们发现声音事件检测技术能给人类的生活带来很大的帮助。声音事件是指音频中所包含有一些特定的有用的信息。例如,汽车的鸣笛包含着汽车正在靠近的信息,警报器的声音包含着周围可能有危险事件的信息,风声和雨声中包含着天气环境的信息,这些信息的识别对人类生活十分有用。

在目前的研究中,研究者普遍把声音事件检测任务分为声音事件分类和声音事件定位两个子任务,其中声音事件定位一般是基于帧级别的声音事件分类实现的。因此声音事件分类的效果好坏成为声音事件检测的效果好坏的重要决定因素,所以声音事件检测中的分类任务有着重要的研究价值。声音事件检测的领域的研究相对与发展较为完善图像识别领域的研究还存在着很多挑战。首先声音事件检测进行研究的是声音信号,其形式多种多样,随机性也非常的强。其次在现实生活中一个音频中还会出现多个声音事件,这样声音事件检测所面临的情况就变的非常的复杂,识别难度也就会因此大幅度的增加。又因为早期声音事件检测方面并没有大型完善并且可靠的数据集,使得声音事件检测的发展收到了很大的限制。

随着AudioSet和其在自动驾驶、智能家居和智能监控等领域的声音事件检测子数据集的出现,人们逐渐发现现实生活中声音的数据集存在着数据不均衡,数据类别间相似程度大,多标签等现象。但目前声音事件检测的研究在分类方面都忽视了这些由于数据集的数据分布和数据特点而造成的难分类现象。而这些想象会提升模型的识别难度,产生误导性结果,从而使声音事件检测中分类任务的准确性降低。如何改进模型,迎合数据集中数据分布特点,提高声音事件检测中分类任务的准确性,是目前现有声音事件检测技术所存在的不足。

发明内容

为了解决上述技术问题,本发明提出的一种基于三分支特征融合网络的声音事件检测方法,通过三分支网络同时解决长尾问题和类别间难区分的问题。其中设计的三分支特征融合网络模型主要包括三分支采样、特征提取、三分支的特征融合和损失融合。通过对数据集进行均匀采样、逆采样和本文提出的基于难例挖掘和多标签中的成对学习的思想设计的难区分类别对矩阵采样,采样后的训练样本作为模型训练的三个分支,这样三个分支将侧重于不同的样本。特征提取中采用CNN-Transformer模型对音频的特征进行提取,由于三个分支输入不同所以三个分支的参数不同,提取到的特征也不同。在学习过程中通过随着学习过程逐渐减小的超参数λ将三个分支的特征进行融合,从而使模型在学习过程中的表征学习的阶段更加关注均升采样分支,在后面的分类学习阶段逐渐关注后面两个分支。采用这种分支融合方式在模型的特征学习方面先关注通用特征再关注后面两个分支与类别相关的特征,从而提取到的特征对后面两个分支更具判别性。同时在分类学习的阶段通过随着学习过程逐渐减小的超参数λ将三个分支的损失函数进行融合,这种融合方式也可以均衡模型的分类器权重,使模型在分类时不再倾向于数量多的类。从而同时解决了长尾问题和类别间难区分问题。

本发明提出的一种基于三分支特征融合神经网络的声音事件检测方法,步骤如下:

步骤1、数据预处理:将包含声音信号的数据集进行特征提取,得到log-mel频谱图的数据集,并将其分为训练集、测试集和验证集,并按照一定比例划分,划分的比例可采取深度学习通用的8∶1∶1,也可根据需要自行划分;

步骤2、建立三分支特征融合网络模型,所述的三分支特征融合网络模型包括三分支采样、特征提取、三分支的特征融合和损失融合:步骤如下:

2-1)分别对训练集进行均匀采样、逆采样和基于难例挖掘和多标签中的成对学习的难区分类别对矩阵采样,从而得到三个分支的训练样本;

2-2)采用CNN-Transformer模型对步骤2-1)获得的三个分支的训练样本的声音事件特征进行提取,得到三个分支的特征;

2-3)采用随着学习过程逐渐减小的超参数将步骤2-2)得到的三个分支的特征进行融合,根据融合后的特征分别计算三个分支的损失函数,根据损失函数反向传播修改模型的参数,完成模型的训练;

步骤3、将测试集和验证集作为训练后的模型的输入,该模型的输出即为该数据集的声音事件检测的结果,包括该音频所包含的声音事件类别和发生该事件的起始和终止时间。

进一步讲,本发明所述的声音事件检测方法,其中:

所述步骤1中,提取log-mel频谱图时,将所有音频剪辑都转换为单声道,并重新采样为32kHz;之后使用具有1024个样本的汉宁窗口和320个样本的短时傅里叶变换来提取频谱图,使得该频谱图在1秒钟内产生100帧。

所述步骤2-1)中,设定训练集D={(x

所述的均匀采样中,训练集中的每个样本在一个训练时段内以相同的概率采样一次,该训练集中样本采样的概率都为

所述的逆采样中,基于类别数量的倒数对训练集D中的样本进行采样,每一个类别的采样概率如下所示:

式(1)中,p

所述的难区分类别对矩阵采样中,根据式(2)来判断难例样本和他们难区分的类别对;

式(2)中,i代表第i个训练样本,s

最终得到的三个分支的样本输入和样本所对应的标签包括(x

所述步骤2-2)中,采用CNN-Transformer模型先通过CNN提取log-mel频谱图的帧级特征,然后使用Transformer进行帧间关系建模,提取log-mel频谱图的时域特征;基于步骤2-1)获得的三个分支的样本输入和样本所对应的标签(x

所述步骤2-3)中,基于步骤2-2)所得到的三个分支的特征f

z=λf

式(3)中,f

式(4)中,T代表当前所处的epoch,T

使用超参数λ对三个分支的损失函数进行融合:

L=λL

式(5)中,λ的值由式(4)所决定,p为式(3)中z通过sigmoid激活所得到的结果,L

与现有技术相比,本发明的有益效果是:

通过三分支特征融合网络同时解决了现有声音事件检测数据集中存在的长尾和类别间难区分的问题与现有技术相比有更好的预测效果,能获得全局性更优、泛化性能更好的建模结果。

附图说明

图1本发明中所述三分支特征融合网络模型示意图;

图2是本发明训练模型中实现特征提取的示意图;

图3是本发明方法的主流程图;

图4是本发明方法的检测结果图。

具体实施方式

为了更好地理解本发明的技术方案,下面结合附图及具体实施方式详细介绍本发明。

本发明提出的一种基于三分支特征融合网络的声音事件检测方法的设计构思,通过三分支网络同时解决长尾问题和类别间难区分的问题。通过提取输入样本的log-mel频谱图特征,并使用CNN-Transformer模型进行声音事件预测,所采用的三分支特征融合网络模型主要包括三分支采样、特征提取、三分支的特征融合和损失融合。首先,对数据集分别进行均匀采样、逆采样和本发明中所提出的基于难例挖掘和多标签中的成对学习的思想而设计的难区分类别对矩阵采样。然后,采用CNN-Transformer模型对三个分支的样本进行特征提取;最终,将三个分支进行融合,通过特征融合的方式获取到尾部类和难区分类别的判别性特征,并在一定程度上均衡了分类器的类别权重。利用本发明提出的三分支特征融合网络模型可以同时解决声音事件检测数据集中存在的长尾和类别间难区分的问题,从而提高了声音事件检测的分类效果。

如图1所示,本发明中设计的模型主要包括采样,特征提取和分支融合三个部分。通过对数据集进行均匀采样、逆采样和本文提出的基于难例挖掘和多标签中的成对学习的思想设计的难区分类别对矩阵采样,采样后的训练样本作为训练模型三个分支的输入,这样三个分支将侧重于不同的样本。特征提取过程中采用CNN-Transformer模型对音频的特征进行提取,由于三个分支输入不同所以三个分支的参数不同,提取到的特征也不同。分支融合过程中通过随着学习过程逐渐减小的超参数λ将三个分支的特征进行融合。从而使模型在学习过程中的表征学习的阶段更加关注均匀采样分支,在后面的分类学习阶段逐渐关注后面两个分支。采用这种分支融合方式在模型的特征学习方面先关注通用特征再关注后面两个分支与类别相关的特征,从而提取到的特征对后面两个分支更具判别性。同时这种融合方式也可以均衡模型的分类器权重,使模型在分类时不再倾向于数量多的类。从而同时解决了长尾问题和类别间难区分问题。

下面以DCASE2017任务四数据集为研究材料对本发明基于三分支特征融合神经网络的声音事件检测方法进行描述,如图3所示,包括以下步骤:

步骤1、数据预处理:将包含声音信号的数据集进行特征提取,得到log-mel频谱图的数据集,该数据集包括51172个训练数据,488个测试数据和1100个验证数据,数据包含17个类;每次训练时Mini-batch的大小设置为64,使用二进制交叉熵损失函数,学习速率为0.0001,进行100个epoch的训练,分类评估得分采用F-score分类评分标准。在提取log-mel频谱图时,将所有音频剪辑都转换为单声道,并重新采样为32kHz;之后使用具有1024个样本的汉宁窗口和320个样本的短时傅里叶变换来提取频谱图,使得该频谱图在1秒钟内产生100帧。

步骤2、建立三分支特征融合网络模型,所述的三分支特征融合网络模型包括三分支采样、特征提取、三分支的特征融合和损失融合:步骤如下:

2-1)分别对训练集进行均匀采样、逆采样和基于难例挖掘和多标签中的成对学习的难区分类别对矩阵采样,从而得到三个分支的训练样本;

首先,设定训练集D={(x

所述的均匀采样中,训练集中的每个样本在一个训练时段内以相同的概率采样一次,该训练集中样本采样的概率都为

所述的逆采样中,本发明中提出一个基于类别数量的倒数对训练集D中的样本进行采样的方法,具体的每一个类别的采样概率如下所示:

式(1)中,p

所述的难区分类别对矩阵采样中,根据公式(2)来判断难例样本和他们难区分的类别对。

式(2)中,i代表第i个训练样本,s

至此得到了三个分支的样本输入和样本所对应的标签,包括(x

2-2)如图2所示,该步骤采用CNN-Transformer模型来提取数据的深层特征,CNN-Transformer结合CNN和Transformer的优点,对步骤2-1)获得的三个分支的训练样本的声音事件特征进行提取,先通过CNN提取log-mel频谱图的帧级特征,然后使用Transformer进行帧间关系建模,提取log-mel频谱图的时域特征。本发明采用一个9层的CNN来提取时频谱图的帧级别特征,这个9层CNN由4个卷积块组成,其中每个卷积块由2个内核大小为3×3的卷积层组成。在每个卷积层之后再使用批量归一化和ReLU非线性函数。通过4个卷积块后分别映射为64、128、256和512维的特征。并且在每个卷积块之后应用2×2的平均池化方法来提取高级特征。并采用Transformer编码器的形式进一步提取CNN所提取特征的时域特征。最终基于步骤2-1)获得的三个分支的样本输入和样本所对应的标签(x

2-3)采用随着学习过程逐渐减小的超参数λ将步骤2-2)得到的三个分支的特征f

特征融合:利用式(3)使用超参数λ对三个分支的特征进行融合:

z=λf

式(3)中,f

式(4)中,T代表当前所处的epoch,T

这种特征融合方式使模型在特征学习的前面学习局部特征更关注数据集的通用特征,在后面学习与类别有关的特征时更加关注另外两个分支的特征。

损失函数融合:使用超参数λ对三个分支的损失函数进行融合,如下所示:

L=λL

式(5)中,λ的值由式(4)所决定,p为式(3)中z通过sigmoid激活所得到的结果,L

本发明中所采用的损失函数融合方法使神经网络在学习过程中从关注特征学习逐渐到分类器学习,并且保证在训练过程中不同目标的三个分支都能在整个训练过程中不断更新,避免三个过程中的相互影响。式(5)λ中是一个超参数,随着训练中epoch的增加而减少,其从使损失先关注均升采样分支,再关注其他两个分支。使模型能够提取到尾部类和难区分类的判别性特征,并且一定程度上提升了尾部类在分类器中的权重,促进了模型的分类学习。

模型每次训练时Mini-batch的大小设置为64,使用二进制交叉熵损失函数,学习速率为0.0001,进行100个epoch的训练,分类评估得分采用F-score分类评分标准。

步骤3、针对DCASE2017任务四数据集中的测试集和验证集,通过上述训练好的三分支特征融合网络模型得到对应的17个输出概率,遍历每一个类别的输出,当预测概率超过0.30,则认为该音频包含此类型的音频。得到对应的多声音事件检测结果。

该模型的输出即为该数据集的声音事件检测的结果,包括该音频所包含的声音事件类别和发生该事件的起始和终止时间。如图4所示,为模型对验证集中“Y4VSHxW4Bepo_48.000_58.000.wav”音频片段的预测结果,该音频片段是一个10秒的多标签片段。由图4可以直观的看到,本发明提出的模型可以检测到该音频中包含火车喇叭、自行车和火车这三种事件类别。并且由图4可以看出本发明提出的模型可以检测到火车喇叭、自行车和火车这三类事件发生的起始时间。

采用相同训练集训练的三分支特征融网络模型和单分支网络模型的声音事件检测分类结果的对比如表1所示。

由表1可以看出数据集中的尾部类例如汽车防盗器类和倒转蜂鸣声类分类效果有所提升,同时可以看出数据集中的难区分类例如经过的汽车类也有所提升。由此证明通过三分支特征融合的网络提高了模型提取尾部类和难区分的类的判别性特征的能力,有效的解决了类别之间难区分的问题。

尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号