首页> 中国专利> 一种声学场景分类方法与系统

一种声学场景分类方法与系统

摘要

本发明提供了一种声学场景分类方法,包括以下步骤:S1、将采集到的环境音频信号输入到特征提取模块,进行基于谐波冲击的梅尔对数谱特征的提取;S2、将提取到的梅尔对数谱特征输入到集成学习分类器模块,进行声学场景分类,得到声学场景分类结果;S3、将声学场景分类结果输入到综合决策模块,进行综合决策,然后做出最终的分类决定。本发明还提供了一种声学场景分类系统。本发明的有益效果是:可以可靠地、准确地识别音频中的不同场景。

著录项

  • 公开/公告号CN112466333A

    专利类型发明专利

  • 公开/公告日2021-03-09

    原文格式PDF

  • 申请/专利权人 深圳信息职业技术学院;

    申请/专利号CN202011332458.9

  • 申请日2020-11-24

  • 分类号G10L25/51(20130101);G06N3/04(20060101);G06N3/08(20060101);G10L25/03(20130101);G10L25/18(20130101);G10L25/30(20130101);

  • 代理机构44451 深圳市添源知识产权代理事务所(普通合伙);

  • 代理人罗志伟

  • 地址 518000 广东省深圳市龙岗区龙翔大道2188号

  • 入库时间 2023-06-19 10:08:35

说明书

技术领域

本发明涉及声学场景,尤其涉及一种声学场景分类方法与系统。

背景技术

在真实声学场景中,通常会伴随着多种声音的同时出现,也就导致了场景声音并不明显,例如,在一些音频中不仅包含人说话的声音,还包含了各种人类活动的声音如走路、骑车以及周围的环境声音,如街道上的汽车声音、沙滩的海浪声等等。此时,从复杂的音频中识别出真实的声学场景是比较困难的,目前分类方法如隐马尔可夫模型、高斯混合模型、支持向量机、K近邻算法等,虽然在数据量较小的情况下也能取得不错的分类准确率,但是当数据更加丰富、场景类型更多时,这些方法均表现不佳。因此,需要设计更好的分类模型来可靠地、准确地识别音频中的不同场景。

发明内容

为了解决现有技术中的问题,本发明提供了一种基于集成学习和谐波冲击梅尔对数特征的声学场景分类方法与系统。

本发明提供了一种声学场景分类方法,包括以下步骤:

S1、将采集到的环境音频信号输入到特征提取模块,进行基于谐波冲击的梅尔对数谱特征的提取;

S2、将提取到的梅尔对数谱特征输入到集成学习分类器模块,进行声学场景分类,得到声学场景分类结果;

S3、将声学场景分类结果输入到综合决策模块,进行综合决策,然后做出最终的分类决定。

作为本发明的进一步改进,在步骤S1中,首先,将采集到的环境音频信号进行分帧加窗处理,再进行短时傅里叶变换,得到信号的频谱特征,再分离信号中的谐波源和冲击源,得到信号中的谐波源和冲击源特征后,分别提取谐波源和冲击源各自的梅尔对数谱特征,得到谐波源梅尔对数特征和冲击源梅尔对数特征。

作为本发明的进一步改进,在步骤S2中,将声学场景分类结果输入到多个不同参数配置的深层卷积神经网络,采用集成学习的方法对多个不同参数配置的深层卷积神经网络进行评分矩阵的估计。

作为本发明的进一步改进,所述深层卷积神经网络采用堆叠残差模块的方式,每个残差模块由两个二维卷积层构成。

作为本发明的进一步改进,每个二维卷积层的卷积核不同,输出通道数也不同。

作为本发明的进一步改进,在步骤S3中,采用加权方式的布尔运算方法进行综合决策。

本发明还提供了一种声学场景分类系统,包括可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如上述中任一项所述的方法。

本发明的有益效果是:通过上述方案,可以可靠地、准确地识别音频中的不同场景。

附图说明

图1是本发明一种声学场景分类方法的处理流程框图。

图2是本发明一种声学场景分类方法的深度卷积网络分类器模型结构图。

具体实施方式

下面结合附图说明及具体实施方式对本发明作进一步说明。

一种基于集成学习和谐波冲击梅尔对数特征的声学场景分类方法,通过提取一种基于谐波冲击的声学特征,并将其作为多个不同的卷积神经网络模型的输入进行声学场景分类器的构建,最后通过一种加权评估函数来实现对多个模型输出结果的综合。整个算法的处理流程如图1所示,它主要由特征提取模块、多模型分类模块和综合决策模块构成。

如图1所示,采集到的环境音频信号首先通过分帧加窗处理,采用海明窗对信号进行截断,每帧的帧长为40ms,帧移为20ms,并进行2048点的短时傅里叶变换,得到信号的频谱特征。接下来需要分离信号中的谐波源和冲击源,用H

H

同时谐波源和冲击源还要满足下式(2)中的代价函数约束:

其中,σ

其中引入的U

接下来,需要将提取的特征进行分类,而对于分类器的设计,本发明采用的集成学习的方法对N个不同参数配置的深层卷积神经网络进行评分矩阵的估计。其中深层卷积神经网络的结构图下图2所示,这里采用了堆叠残差模块的方式逐渐加深卷积网络模型的深度,每个残差模块由两个二维卷积层构成,图中的卷积层采用3×3的卷积核,随后进行ReLU非线性激活,并进行平均值池化操作。在集成学习模块,将采用4个类似结构的卷积网络模型,每个卷积网络模型的卷积核不同,分别为3×3、5×5、7×7和11×11,并且各自的输出通道数也不同,前两个深层卷积模块的通道数为32,后两个的通道数则为64,此外每个卷积模块所具备的层数也不同,分别为19、25、32、48和62层。由于我们假设对10种场景进行分类,所以每个卷积模块的最后一层为10维的全连接层,并对10个神经元输出进行SoftMax操作,得到一个4×10的场景得分矩阵。在训练过程中,各个卷积分类其模块之间没有强依赖性,可以进行并行训练,每个个体都进行单独学习,训练的数据集大小相同,但是相互之间只有20%的重叠数据,其余80%的数据都是不同的。这样的方法训练策略可以使得个体之间存在差异性,使得最终做出的判断不会完全一致。此外,为了减小训练过程中的过拟合问题,这里采用了30%的随机神经元失活和批归一化的方式对每一层卷积操作进行正则化处理。

从深层卷积网络模块得到评分矩阵以后,接下来就需要对其进行分析综合,然后做出最终的分类决定。为了无偏地对评分的结果进行决策,这里采用了一种加权方式的布尔运算方法,如下式(5)所示。

其中δ(·)为布尔函数,S

这里对本发明所提出的方法进行了实验验证,采用IEEE DCASE2019声音数据集作为场景声音样本,总共10类声学场景(机场内、公交车内、地铁内、地铁站、公园、公共广场、商场、步行街、街道、有轨电车内)。本数据集是由每个场景有1440个双声道音频,分别来自十个不同的城市,每个城市收集144个音频,保证了数据集的丰富性,总共14400个音频。声音样本采样率为48kHz,声音长度为10s。我们只取出左声道音频,并把数据集随机分为等比例的4份样本数据,四分之三作为训练集,剩余的四份之一作为验证集。实验结果表明,本发明提出的方法在10类声学场景下,可以实现74.4%的准确率,并且集成学习的方法可以获得比任何单独的卷积分类器模型更高的准确率,也证明了本发明的贡献和有效性。

与传统的机器学习分类方法如高斯混合模型、支持向量机等,利用对数梅尔特征进行建模分类的方法不同,本发明提出了一种谐波冲击梅尔对数特征的提取方法作为分类器的输入,采用了深度神经网络进行场景的分类器设计,并利用集成学习的方法进行多模型的融合和决策。该发明方法的主要优点如下:

(1)利用谐波冲击提取的梅尔对数特征,可以更好地区分一些音频场景,降低了干扰音源的影响;

(2)利用深度神经网络进行分类建模的方法,学习能力更强,可以从更大规模的数据中学习到更好的分类函数;

(3)集成学习的方法,将多个不同配置的模型分类结果进行决策综合,相当于考虑了多个专家模型的打分结果,可以保证分类准确率更高,分类结果更加可靠。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号