首页> 中国专利> 基于SVM和GMM的特定音频事件分层泛化识别方法

基于SVM和GMM的特定音频事件分层泛化识别方法

摘要

本发明涉及一种融合支持向量机(SVM)和高斯混合模型(GMM)的特定音频事件分层泛化识别方法,属于计算机与音频事件识别技术领域。本方法首先获得训练样本的音频特征向量文件,然后分别使用GMM方法和SVM方法对大量种类繁多的训练样本的音频特征向量文件进行模型训练,得到具有泛化能力的GMM模型和SVM分类器,完成离线训练。最后使用GMM模型和SVM分类器对待识别音频特征向量文件进行分层识别,经由一定的结果融合判决策略,得到每一个音频片段的类别标签属性。本方法解决了现有特定音频事件识别中对连续音频流识别效率低、持续时间特别短的音频事件漏检概率高等问题,可应用于特定音频检索和基于内容的网络音频监管。

著录项

  • 公开/公告号CN102799899A

    专利类型发明专利

  • 公开/公告日2012-11-28

    原文格式PDF

  • 申请/专利权人 北京理工大学;

    申请/专利号CN201210226349.8

  • 发明设计人 罗森林;王坤;潘丽敏;谢尔曼;

    申请日2012-06-29

  • 分类号G06K9/62(20060101);

  • 代理机构

  • 代理人

  • 地址 100081 北京市海淀区中关村南大街5号

  • 入库时间 2023-12-18 07:26:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-17

    未缴年费专利权终止 IPC(主分类):G06K9/62 授权公告日:20141210 终止日期:20150629 申请日:20120629

    专利权的终止

  • 2014-12-10

    授权

    授权

  • 2013-01-23

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20120629

    实质审查的生效

  • 2012-11-28

    公开

    公开

说明书

技术领域

本发明涉及一种融合支持向量机(SVM)和高斯混合模型(GMM)的特定 音频事件分层泛化识别方法,属于计算机与音频事件识别技术领域。

背景技术

特定音频事件是用户指定的具有某种特定语义或内容的一个音频片段。

随着计算机和网络技术迅速发展,音视频文件以及流媒体数据量迅速膨 胀,从海量音频信息中迅速准确地发现或识别出所需要的特定音频事件变得 越来越重要。由于交通监控、敏感区域安全监测等应用的迫切需求,特定音 频事件识别技术近年来得到了广泛的研究。

特定音频事件识别技术就是基于音频数据的内容,将音频流中的特定音 频事件识别出来,在音频信息处理研究领域中,特定音频事件识别也被称为 音频事件检测(Audio Event Detection)、音频事件识别(Audio Event  Recognition)、音频分类(Audio Classification)等。特定音频事件通常包括 多种子类音频事件(例如枪声包括机关枪声、手枪声、步枪声等),且子类 之间具有较大的差异。泛化识别就是在加强大类之间区分度的同时降低子类 差异敏感度,提取子类的共性特征达到泛化的目标,使用尽可能少的子类模 板去适应尽可能大的类内差异。

基于内容的音频分析研究可以划分为4个层次:数据层、特征层、类别 层、语义层。特定音频事件识别又被称为音频事件识别、音频分类等,属于 上述4层划分的类别层。在研究工作中,人们也在特征层对特征提取、特征 筛选与组合、特征向量生成等技术开展研究。

近年来,特定音频事件识别的相关研究主要集中在音频特征提取和分类 器设计两个方面。音频特征提取技术是音频类型识别的基础,它从音频波形 中提取出特征向量用于后一阶段的识别(或分类);分类器设计的目标是为 特定音频事件识别寻找或设计分类算法,提高识别准确率、减少识别耗时, 并研究算法参数对识别性能的影响。

1.在特征提取方面:

在音频特征提取方面,早期的音频特征包括:短时能量、静音率、过零 率、和谐度、基频、频谱、谱中心、子带能量;后来又引入了线性预测系数、 Mel倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)等多种感知及倒谱 域特征;近年来,一些新的音频特征和特征筛选算法也陆续被提出。

(1)简单音频特征:由于特定音频事件识别技术发源于信号处理、语音识 别等相关理论,因此诸如短时能量、过零率、子带能量等简单特征, 被广泛应用于特定语音识别研究。

(2)倒谱及感知特征:在语音处理领域中,LPC、LPCC、LFCC、MFCC 等特征得到了越来越多的应用,研究者将这些特征引入特定类型音频 事件识别领域,取得了较好的识别效果。

(3)统计特征及新的底层特征:在特定音频事件识别领域中,研究者对上 述两大类底层特征进行统计;或使用音频压缩域特征,使音频特征向 量更具代表性,例如MPEG7特征、频谱直方图等。同时,新的底层 特征也不断被提出。

此外,更早的一些研究还包括直方图、梯度直方图、基于分段仿射变换 的表情特征点运动特征等。对于维度较大的特征类型,还常常涉及到降维处 理,常见的特征降维处理方法有:聚类线性鉴别分析方法、主成分分析法等。

总之,在底层音频特征的提取研究上,经历了“能量、过零率等简单特 征——LPC、LPCC、MFCC等频域及倒谱特征——MPEG7、频谱直方图等底 层特征及其统计、描述”的发展过程。对于某大类的特定音频事件,其中的 子类一般具有较大的差异性(例如枪声包括机关枪声、手枪声、连续枪声等 子类,各子类样本间有着较大的差异),如何有针对性地选择特征,采用更 好的特征向量构造方法,使其具有较强的大类之间区分度和较小的子类差异 敏感度,是特定音频事件识别研究下一步需要解决的问题。

2.在音频分类器设计方面:

在分类器设计研究方面,目前的研究主要包括:支持向量机(Support  Vector Machine,SVM)、基于高斯混合模型(Gaussian Mixture Model,GMM) 等。

其中,基于支持向量机的分类器:SVM是建立在统计学习理论的VC维 理论和结构风险最小化原理基础上的,根据有限的样本信息在模型的复杂性 (即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的 能力)之间寻求最佳折衷,以期获得最好的推广能力。SVM算法在训练时, 需要对核函数参数不断进行调整以进行优化,因此训练过程往往比较复杂, 这是该算法使用中的重要不足;另外,SVM算法是一种两分类算法,对于多 种类别的识别,需要对算法做进一步的改进。该方法是目前特定音频事件识 别领域的研究热点。

基于高斯混合模型的分类器:GMM是一种经典的说话人识别算法,在 特定音频事件识别领域也取得了较好的识别效果。

随着机器学习和模式识别研究的不断深入,相关理论和技术逐渐被引入 特定音频事件识别领域,在基于分类算法的研究中,SVM、GMM等技术已 经成功地应用,但对于特定音频事件识别这一应用场景,现有的特征提取方 法存在特征代表性有限、精度及提取速度不够高等不足;同时,现有的音频 分类方法也在存在识别精度不理想、复杂度过高、可识别的音频类别数量受 限、识别速度低等局限,并且国内外研究大都以音频样例片段作为识别对象, 采用MFCC和能量等基本音频特征和GMM、SVM等分类算法,针对特定音 频事件片段识别,取得了一定的识别效果,而以连续音频流为识别对象进行 识别时,其识别性能明显低于对单纯音频片段的识别性能。如何提高分类算 法的识别性能、如何在音频流中更加精准地标记出特定类型音频事件的起止 点,都是实用中需要解决的问题。

发明内容

本发明的目的是为解决连续音频事件流中音频事件识别准确率低、持续 时间短的音频事件片段漏检率高、音频事件识别速度较慢的问题,提出一种 融合SVM和GMM的特定音频事件分层泛化识别方法,通过使用MFCC等音频 特征组合,并融合SVM分类器和GMM模型实现特定音频事件分层泛化高精 度、快速识别。

本发明的技术方案是通过如下步骤实现的:

步骤1,获得训练样本的音频特征向量文件。所述训练样本根据音频事 件种类的不同,分别标记为不同的类别标签。每类训练样本为多个相同类型 音频事件原始信号的集合,并且不同训练样本之间没有交叠或者重合。具体 方法为:

步骤1.1,对输入的每一个训练样本分别作预处理。首先对训练样本中 的每个原始音频信号作预加重处理,减少尖锐噪音影响,提升高频信号,然 后针对音频数据添加窗函数形成音频帧,设置一定的帧移,完成音频分段, 最后去除静音帧。

预处理减少了音频信号的干扰与音频处理的运算量,利于提取有效音频 文件,提高系统的运算性能与识别效率。

步骤1.2,提取预处理后的训练样本的多种音频特征,对多种音频特征 形成的各种特征组合进行筛选,获得最有效的表征音频特征属性的参数,形 成训练样本的音频特征向量文件。

所述的多种音频特征包括:MFCC及其差分、短时能量、短时过零率和 基音频率。

步骤2,分别使用GMM方法和SVM方法对步骤1得到的音频特征向量 文件进行训练。通过对大量种类繁多的训练样本的音频特征向量文件进行模 型训练,最终得到具有泛化能力的GMM模型和SVM分类器,用于区分音 频事件流中的特定音频事件。完成离线训练。

本发明方法中采用“一对余”的分类识别策略,即针对一类音频事件建 立一组GMM模型和SVM分类器,将该类型作为正类别,其余类型作为负 类别,并行采用多组GMM模型和SVM分类器可实现多类型音频事件识别。

针对某一类型音频事件,建立GMM模型和SVM分类器的具体方法为:

步骤2.1,对步骤1得到的所有训练样本的音频特征向量文件,使用最 大似然估计通过最大期望算法(Expectation-Maximization algorithm,EM算 法)计算,得到该类型音频事件的高斯混合模型(GMM)。

高斯混合模型λ由各混合分量的均值矢量、协方差矩阵以及混合权重来 描述。

λ={ωk,μk,Σk}(k=1,2,……,K)

其概率密度函数表示为:

P(x)=Σk=1Kp(k)p(x|k)

=Σk=1KωkN(x|μk,Σk)

式中,K是高斯混合模型中高斯分布的数量;x是d维数据矢量;ωk是 第k个高斯分布的混合权重(即先验概率);并且满足N(x|μkk) 是均值矢量为μk,协方差矩阵为Σk的高斯密度函数。为完成高斯混合模型 的建模,需要确定ωk、μk、Σk三个参数,使得最大,其中N代表 N个训练样本。

本发明的高斯混合模型建模过程转化为求最大似然函数:

Σi=1Nlog{Σk=1KωkN(x|μk,Σk)}

首先根据所有训练样本的音频特征向量文件,使用K均值聚类的方法得 到ωk、μk、Σk的初始值,最后由EM算法通过迭代为正负类别音频事件分 别确定一组ωk、μk、Σk。优化调整GMM模型中ωk、μk、Σk,使得最大 似然函数的值满足音频识别要求的阈值,得到一组ωk、μk、Σk,完成GMM 建模过程。

步骤2.2,对步骤1得到训练样本的音频特征向量文件,使用二次型寻 优方法,将在低维向量空间中线性不可分的训练样本映射到高维的特征空间, 在高维空间中使用径向基核函数实现原低维向量空间中的非线性判决函数, 最终得到SVM分类器为:

f(x)=Σi=1nyiαiK(x*xi)+b*

其中,n是特征向量的维数,αi=(α1,α2,......,αn)是拉格朗日乘子,b*是最 优超平面的偏移量,yi是类别标签值。K(x*xi)是对应的内积核函数,在训练 样本为线性可分情况下,K(x*xi)取x*xi

步骤3,利用步骤2离线训练得到的GMM模型和SVM分类器,对待测 音频事件流进行在线识别与融合判决,输出最终的识别结果。

步骤3.1,首先对待识别音频事件流文件进行预处理,完成待识别音频 事件流文件的分帧与分段,接着进行音频特征提取;待识别音频事件流提取 的音频特征参数类别与步骤1.2中训练样本的音频特征参数类别相同,最后 形成待识别音频事件流的音频特征向量文件;所述音频特征向量文件包含多 个音频特征片段。

步骤3.2,使用步骤2离线训练得到的GMM模型和SVM分类器对步骤3.1 得到的音频特征向量文件进行分层识别,经由一定的结果融合判决策略,得到 每一个音频片段的类别标签属性。其具体识别过程为:

步骤3.2.1,对于待识别的音频片段的特征向量序列O={O1,O2,......,OT}, 该音频片段为第l个音频事件的后验概率为:

p(λl|o)=p(o|λl)p(λl)p(o)

=p(o|λl)p(λl)Σl=1Np(o|λl)p(λl)

其中:p(λl)为第l个音频事件的先验概率;p(o)为所有音频事件条件下 特征矢量集o的概率;p(o|λl)为第l个音频事件产生的特征矢量集o的条件 概率。对于正类别音频事件,类别标签l=1;对于负类别音频事件,l=2。

识别结果由最大后验概率给出,即

n*=argmaxl=1,2p(λl|o)

式中,n*表示识别判决结果。由于每个音频事件的先验概率相等,此外, p(o)也相等。则识别结果等式可化为:

n*=argmaxl=1,2p(o|λl)

这样,最大后验概率准则就转化为对数似然函数:

L(o|λl)=log p(o|λl)l=1,2

GMM模型识别的任务就是由如下判决公式计算:

n*=argmaxl=1,2Σk=1Klogp(ok|λl)

其中:p(okl)为第l个音频事件产生的特征矢量集ok的条件概率。

系统按照以上步骤3.2.1的过程对每一段的特征向量得到的对数累加, 使得最大的类别标签就是最后识别结果,最后输出GMM模型 识别的类别标签属性结果;

步骤3.2.2,将步骤3.1得到的待识别音频事件流的音频特征文件输入到 步骤2.2训练获得的SVM分类器中进行识别,对每一段的特征向量计算步骤 2.2中的f(x),根据f(x)的正负符号判决特征向量的类别属性,正数对应正类 型,0和负数对应负类型;最后输出SVM分类器的识别的类别标签属性结果;

步骤3.2.3,结合步骤3.2.1和步骤3.2.2得到的正负类别标签属性结果, 进行融合判决,融合判决策略为:当GMM模型和SVM分类器识别的类别 标签属性结果一致,则以此类别标签作为识别结果输出;当GMM模型和SVM 分类器识别的类别标签属性结果不一致,则输出负类别。

步骤3.3,在步骤3.2.3得到的融合后的识别结果的基础上,对音频事件 类别结果序列进行平滑,去除识别结果序列当中的毛刺判决,得到最终识别结 果并输出。

有益效果

本发明方法通过融合GMM和SVM,以达到较高的准确率和召回率,并 且解决了现有特定音频事件识别中对连续音频流识别效率低、持续时间特别 短的音频事件漏检概率高等问题。

与基于MFCC特征的机器学习方法以及传统的典型相关分析法、基于模板 匹配和相似性度量的方法相比,本发明综合GMM的较好的概率统计分布描述 能力和SVM的较好推广泛化能力,用于识别连续音频事件流中用户所需要 的具有某种特定语义或内容的音频(如枪声,汽车声等等),达到优势互补, 弥补单个分类器对音频事件识别准确率较低的缺陷,最终实现对音频事件流 中特定音频事件的分层泛化的高准确率、快速识别。

特定音频事件的分层泛化识别方法可针对音频内容中的不安全因素进行识 别和过滤,并可以直接应用于特定音频检索和基于内容的网络音频监管。

附图说明

图1为本发明基于GMM和SVM的特定音频事件分层识别方法原理图;

图2为具体实施方式中音频帧和音频片段的关系图;

图3为具体实施方式中结果融合决策树;

图4为具体实施方式中检出准则示意图;

图5为具体实施方式中SVM参数选取实验结果;

图6为具体实施方式中实验结果分析对比。

具体实施方式

为了更好的说明本发明的目的、技术方案和优点,下面结合附图和实施 例对本发明方法做进一步详细说明。

本发明是一种基于模型的特定音频事件检测方法,该方法首先对每个原始 音频信号进行预处理,提取音频特征参数MFCC,通过将训练音频特征文件分 别输入到GMM和SVM中进行训练,生成GMM模型和SVM分类器,最终实 现一个融合GMM和SVM的特定音频事件分层识别方法,该方法能够快速准确 地识别出音频事件流中特定音频事件,并输出音频事件发生的开始和结束时间。 本发明中提出的融合GMM和SVM的特定音频事件分层识别方法原理如图1所 示。

本发明的技术方案是通过如下步骤实现的:

步骤1,获得训练样本的音频特征向量文件。所述训练样本根据音频事 件种类的不同,分别标记为不同的类别标签。每类的训练样本为多个相同类 型音频事件的原始信号的集合,并且不同样本之间没有交叠或者重合。步骤 1具体包含的操作内容如下:

步骤1.1,输入训练样本,对训练样本进行预处理。首先对训练样本中 每个原始音频信号作预加重处理,减少尖锐噪音影响,提升高频信号,然后 针对音频数据添加窗函数形成音频帧,按照设定的短时间时长(10ms-50ms) 进行音频分帧处理,其中的每个短时间音频片段成为一帧,完成音频操作后, 最后去除静音帧,将原始音频信号划分为一个音频数据帧序列。

由于音频帧时间较短,所提取的音频特征包含的信息相对有限,因此使 用音频片段作为训练与识别的基本基元。每一个音频片段包含D帧特征向量, 下一片段在上一片段的基础上推移P帧,称为段移,即相邻片段间有(D-P) 帧的重叠。具体表示方法如图2所示。

本实施例试验使用窗长为20ms,窗移为10ms的汉明窗,将每50ms定 义为一个音频帧,帧移为10ms,使用10帧作为段移,因此在后续操作中, 分别对每一个音频文件使用帧长为50ms,帧移为10ms,段移为10帧,完成 音频分帧与分段,计算其音频特征参数;

步骤1.2,提取步骤1.1预处理后的训练样本的多种音频特征,对多种音 频特征形成的各种组合进行筛选,获得最有效的表征音频特征属性的参数, 形成训练样本的音频特征向量文件。

本实施例提取MFCC及其差分、短时能量、短时过零率和基音频率,其 中MFCC及其差分主要是提取12维MFCC、12维MFCC一阶差分、12维 MFCC二阶差分,简单表示为MFCC,形成以下特征组合:MFCC、短时能 量、短时过零率、基音频率、MFCC+短时能量、MFCC+短时过零率、MFCC+ 基音频率、短时能量+短时过零率、短时能量+基音频率、短时过零率+基音 频率、MFCC+短时能量+短时过零率、MFCC+短时过零率+基音频率、短时 能量+短时过零率+基音频率、MFCC+短时能量+短时过零率+基音频率等14 种组合,经过特征筛选,最终选取MFCC作为本实施例的特征参数。

步骤2,分别使用GMM方法和SVM方法对步骤1得到的音频特征文件 进行训练。通过对大量种类繁多的训练样本的音频特征文件进行模型训练, 最终得到具有泛化能力的GMM模型和SVM分类器,用于区分音频事件流 中的特定音频事件。完成离线训练。具体方法为:

步骤2.1,对步骤1得到的训练样本的音频特征文件,使用最大似然估 计通过最大期望算法(Expectation-Maximization algorithm,EM算法)计算, 得到n种不同的音频事件相对应的高斯混合模型。一般地,一个高斯混合模 型λ由各混合分量的均值矢量、协方差矩阵以及混合权重来描述。

λ={ωk,μkk}(k=1,2,……,K)

其概率密度函数表示为:

P(x)=Σk=1Kp(k)p(x|k)

=Σk=1KωkN(x|μk,Σk)

式中,K是高斯混合模型中高斯分布的数量;x是d维数据矢量;ωk是 第k个高斯分布的混合权重(即先验概率);并且满足N(x|μk,Σk) 是均值矢量为μk,协方差矩阵为Σk的高斯密度函数。在高斯混合模型中, 只需要确定ωk、μk、Σk这三个参数,就可以完成高斯混合模型的建模过程。 通过找到这样一组参数,使得由这组参数所确定的概率分布生成这些给定的 数据点(就是建立高斯混合模型的训练数据)的概率最大,而这个概率实际 上就等于这里N代表N个数据点。

本发明的高斯混合模型建模过程转化为求最大似然函数:

Σi=1Nlog{Σk=1KωkN(x|μk,Σk)}

首先根据所有训练样本的音频特征向量文件,使用K均值聚类的方法得 到ωk、μk、Σk的初始值,最后由EM算法通过迭代为正负类别音频事件分 别确定一组ωk、μk、Σk。优化调整GMM模型中ωk、μk、Σk,使得最大 似然函数的值满足音频识别要求的阈值,得到一组ωk、μk、Σk,完成GMM 建模过程。具体实施过程分为初始值确定、估计步骤和最大化步骤。

步骤2.1.1,完成使用EM算法估计GMM参数的初始值确定。运用K均 值聚类的方法对步骤1.2得到的训练样本的音频特征向量文件进行聚类,聚 类得到的各类的均值作为高斯混合模型中均值初始值,聚类得到的各类的协 方差矩阵作为高斯混合模型中协方差矩阵初始值。本实施例中高斯混合模型 中的先验概率取1/K。

步骤2.1.2,完成使用EM算法估计GMM参数的估计步骤。

令θkkkk),GMM共有K个单高斯模型。本实施例试验通过样本 集估计GMM所有参数:Θ{θ12,.......,θK}T。令ωk的后验概率为βk

βik=E(ωk|xi;Θ)=ωkNk(xi;Θ)Σi=1KωiNi(xi;Θ)

其中:1≤i≤N,1≤k≤K。

步骤2.1.3,完成使用EM算法估计GMM参数的最大化步骤。

分别按下式更新权值、均值和协方差矩阵:

ωk,=Σi=1NβikN

步骤2.1.4,不断地迭代步骤2.1.2和步骤2.1.3步骤,直到满足收敛条件:

|l(X|Θ)-l(X|Θ)‘|<ε

其中:l(X|Θ)=logΠi=1NΣk=1KωkNk(x,μk,Σk)=Σi=1NlogΣk=1KωkNk(x,μk,Σk)

ε是设定的误差限。本发明的实施例试验中取ε=10-5

l(X|Θ),=Σi=1NlogΣk=1Kωk,Nk(x,μk,,Σk,)

使用EM算法通过迭代为n类样本分别确定一组GMM参数,每类样本 分别对应一个高斯混合模型。

步骤2.2,对步骤1得到的训练样本的音频特征文件,使用二次型寻优 方法,使用非线性映射把输入数据即训练样本的音频特征文件,从原始的低 维空间映射到高维空间,并计算特征向量和支持向量的内积。在高维空间中 使用径向基核函数(RBF)实现原空间中的非线性判决函数,最终得到SVM 分类器。

具体实施过程分为训练数据准备、选取核函数和其它最佳参数、训练过 程。

步骤2.2.1,使用步骤1.2得到的训练样本的音频特征向量文件,按照SVM 分类器所要求的数据格式进行数据格式转换,并将转换后的数据进行缩放。 SVM分类器要求的数据格式如下:

<label><index1><value1><index2><value2>……

其中:

<label>是训练数据集的目标值,是标识某个类别的整数。在本发明中的 实施例试验中,将第l类样本数据的<label>设为l,其中l为正整数。

<index>是以1开始的整数,可以是不连续的;<value>为实数,也就是 提取的音频特征向量值。在本实施例试验中,<value>的值是完成分段后的段 音频特征向量。完成数据格式转换后,接着针对<value>中的数据进行数据缩 放操作,缩放操作的目的有以下方面:

一是避免一些特征值范围过大而另一些特征值范围过小;二是避免在训 练时为了计算核函数而计算内积的时候引起数值计算的困难。因此,通常将 <value>缩放到[-1,1]或者是[0,1]之间。本实施例试验中,将段音频特征向 量的值缩放在[0,1]之间。

步骤2.2.2,选取核函数和其它最佳参数。SVM分类器通过非线性变换 将输入空间变换到高维空间,在这个高维空间中求取最优线性分类面,完成 训练。这种非线性变换是通过定义适当的内积核函数来实现的。常见的主要 的内积核函数主要有3类,分别是:

多项式核函数:K(x,y)=(x*y+1)d其中:d为多项式的幂指数;

径向基核函数(RBF):K(x,y)=exp(-||x-y||22σ2)

Sigmoid核函数:K(x,y)=tanh(k(x*y)-μ)

上述3种内积核函数中的y代表训练数据的类别标签,也就是训练数据 中的<label>值。

本发明实施例试验中采用径向基(RBF)核函数作为核函数来实现非线 性变换,主要原因是因为RBF核函数具有良好的性态,在实际问题中表现出 了良好的性能。因为采用RBF核函数的SVM分类器性能只与c和g有关,采 用交叉验证选择最佳参数c与g。本发明的实施例试验通过使用网格遍历算法 进行最佳参数选择,最终得到c=2048,g=8。

步骤2.2.3,在步骤2.2.2的基础上,进行SVM分类器的训练,得到区分 不同类别的SVM分类器文件。具体来说,SVM的目标是就是要根据结构风 险最小化原理,构造一个目标函数将不同类别模式尽可能地区分开来,通常 使用两分类来讨论,对于多分类问题,一般采用训练多个一对余分类器解决。 针对两分类问题,分为两类情况来讨论:(1)线性可分;(2)线性不可分。

线性可分情况下:

在线性可分的情况下,就会存在一个超平面使得训练样本完全分开,该 超平面可描述为:

ω·x+b=0

其中:“·”是点积,ω是n维向量,b为偏移量。

最优超平面是使得每一类数据与超平面距离最近的向量与超平面之间的 距离最大的这样的平面。最优超平面可以通过解下面的二次优化问题来获得:

minΦ(ω)=12||ω||2

满足约束条件:

yi(ω·xi+b)≥1

i=1,2,3.......n

在特征数目特别大的情况,可以将此二次规划问题转化为其对偶问题:

maxW(α)=Σi=1nαi-12Σi,j=1nαiαjyiyj(xixj)

w*=Σi=1nαiyixi

b*=yi-w*xi

满足约束条件:

Σi=1nαiyi=0,αi>0,i=1,2.......n

这里:α=(α1,α2,.......αn)是Larange乘子,w*是最优超平面的法向量,b*是 最优超平面的偏移量。在这类优化问题的求解与分析中,KKT条件将起到很 重要的作用,其解必须满足:

αi{yi(ω·x+b)-1}=0,i=1,2,.......n

那些αi=0的样本对分类没有任何作用,只有那些αi>0的样本才对分类起 作用,这些样本称为支持向量,故最终的分类函数为:

f(x)=Σi=1nyiαi(x*xi)+b*

根据f(x)的符号来确定x的类别。

线性不可分的情况:

对于线性不可分的情况,可以把样本x映射到一个高维特征空间H,并 在此空间中运用原空间的函数来实现内积运算,这样将非线性问题转换成另 一空间的线性问题来获得一个样本的归属。根据泛函的有关理论,只要一种 核函数满足Mercer条件,它就对应某一空间中的内积,因此只要在最优分类 面上采用适当的内积函数就可以实现这种线性不可分的分类问题。此时的目 标函数为:

maxW(α)=Σi=1nαi-12Σi,j=1nαiαjyiyjK(xi*xj)

其相应的分类函数为:

f(x)=Σi=1nyiαiK(x*xi)+b*

本发明的实施例将步骤2.2.1中的转换后的训练样本的音频特征向量文 件,设置c和g为步骤2.2.2的遍历的最优参数值,进行SVM分类器训练,得 到SVM分类器文件。模型文件中包含训练所采用的SVM类型,本实施例试验 采用的SVM类型是为C-SVC;训练采用的核函数类型,本实施例采用的是RBF 核;操作参数设置中的g值;分类时的类别数,本实施例是两分类问题;总 共的支持向量个数;决策函数f(x)中的常数项b;类别标签和各类别标签对应 的支持向量个数、支持向量。

步骤3,利用步骤2离线训练得到的GMM模型和SVM分类器,对待测 音频事件流进行在线识别,并经由一定的结果融合判决策略,输出最终的识 别结果。

步骤3.1,首先对待识别音频事件流文件进行预处理,完成待识别音频 事件流文件的分帧与分段,接着进行音频特征提取,待识别音频事件流提取 的音频特征参数类别与步骤1.2中训练样本的音频特征参数类别相同,最后 形成待识别音频事件流的音频特征向量文件。

本发明的实施例提取的待识别音频事件流文件的特征参数是12维 MFCC、12维MFCC一阶差分、12维MFCC二阶差分。

步骤3.2,使用步骤2离线训练得到的GMM模型和SVM分类器对步骤3.1 得到的音频特征文件进行分层识别,经由一定的结果融合判决策略,得到每一 个音频片段的类别标签属性。其具体识别过程为:

步骤3.2.1,将步骤3.1得到的待识别音频事件流的音频特征文件输入到 步骤2.1训练获得的GMM模型中进行识别,本实施例中GMM模型的高斯 分布数目参数K=32,假设待识别的音频片段的特征向量序列是 O={O1,O2,......,OT},则该音频片段为第l个音频事件的后验概率为:

p(λl|o)=p(o|λl)p(λl)p(o)=p(o|λl)p(λl)Σl=1Np(o|λl)p(λl)

其中:p(λl)为第l个音频事件的先验概率;p(o)为所有音频事件条件下 特征矢量集o的概率;p(o|λl)为第l个音频事件产生的特征矢量集o的条件 概率。对于正类别音频事件,类别标签l=1;对于负类别音频事件,l=2。

识别结果由最大后验概率给出,即

n*=argmaxl=1,2p(λl|o)

式中,n*表示识别判决结果。由于每个音频事件的先验概率相等,此外, p(o)也相等。则识别结果等式可化为:

n*=argmaxl=1,2p(o|λl)

这样,最大后验概率准则就转化为对数似然函数:

L(o|λl)=log p(o|λl)l=1,2

GMM模型识别的任务就是由如下判决公式计算:

n*=argmaxl=1,2Σk=1Klogp(ok|λl)

其中:p(okl)为第l个音频事件产生的特征矢量集Ok的条件概率。系统 按照以上过程对每一段的特征向量得到的对数累加,使得最高 的类别标签就是最后识别结果,最后输出GMM模型识别的类别标签属性结 果;

步骤3.2.2,在步骤3.1得到的待识别音频事件流的音频特征文件输入到 步骤2.2训练获得的SVM分类器中进行识别,本实施例中采用径向基核函数 (RBF),RBF通过把样本空间非线性地映射到一个高维特征空间,从而能 更好地处理类别和类属性之间存在的非线性联系。系统的识别就是对每一段 的特征向量计算步骤2.2.3中的f(x),根据f(x)的值判决特征向量的类别属性, 正数对应正类型,0和负数对应负类型;最后输出SVM分类器的识别的类别 标签属性结果;

步骤3.2.3,结合步骤3.2.1得到的GMM模型的识别结果和步骤3.2.2得 到的SVM分类器的类别标签属性结果,进行结果融合判决,本发明中采用 的融合准则为:只要是GMM分类识别为非枪声时,最终结果为非枪声,当 GMM分类识别为枪声,但SVM分类识别为非枪声时,结果为非枪声,只有 当GMM分类识别和SVM分类识别同时为枪声时,最终结果为枪声。假设 GMM分类判决为非枪声时,输出为0,GMM分类判决为枪声时,输出为1; SVM分类判决为非枪声时,输出为0,SVM分类判决为枪声时,输出为1, 根据融合准则,可以得到融合GMM和SVM的输出结果如图3所示。最终 完成识别结果融合判决,并输出融合后的识别结果。此算法通过融合GMM 和SVM,以求达到较高的准确率和召回率,并且可以解决现有特定音频事件 识别中对连续音频流识别效率低、持续时间特别短的音频事件漏检概率高等 问题。

步骤3.3,在步骤3.2.3得到的融合后的识别结果的基础上,对音频事件 类别结果序列进行平滑,去除识别结果序列当中的毛刺判决,得到最终识别结 果并输出。

本发明使用的惯性平滑处理规则如下:如果连续片段(1~4个)之间的 类型一致,并且与其前与其后的类型都不一致,那么就使这些片段类型和它 前边片段的类型一致。具体规则包括:XYX→XXX,XXY→XXX,XYYX →XXXX,XXYYXX→XXXXXX等等,其中X代表一种识别结果,本系统 中是枪声事件;Y代表另一种识别结果,如其他类型的音频片段。

为验证本发明方法的切实可行,分别以BFS实验室枪声音频事件实验库 中的枪声作为输入,设计并部署3项试验:(1)选择GMM和SVM中的参数试验; (2)融合GMM和SVM的混合方法与单独使用GMM方法或者SVM方法的对比 试验;(3)融合GMM和SVM的混合方法对比分析试验,最后分析了本发明方 法的复杂度。

试验采用融合SVM和GMM的混合分类器,使用泛化的枪声模板对音频事 件流中不同子类别的枪声进行识别。识别过程中利用子类的共性特征降低模板 对子类差异的敏感度达到泛化识别的目标,最后对识别结果进行平滑处理。

下面将对上述3个试验逐一进行说明,所有试验均在同一台计算机上完成, 具体配置为:Intel双核CPU(主频1.8G),2G内存,Windows XP SP3操作系统。

试验数据资源:本发明将枪声音频片段作为特定音频事件。因此,枪声为 正训练样本,非枪声为负训练样本。正训练样本包括游戏枪声和电影枪声,游 戏枪声是从各种射击游戏里获取的,样本总时长约30min。电影枪声则是人工从 含有枪声的电视剧或电影中录制得到的,样本总时长约30min。无论是游戏枪声 还是电影枪声都包含了各种不同类型的枪声,包括手枪、步枪、机关枪等发出 的枪声。负训练样本包含各种乐器的声音、动物的叫声、各种语言的人声,风 格迥异的音乐等等,尽可能多的包含除枪声外的各种声音,样本总时长约60min。 测试数据为50段音频事件流,总时长约1h。其中包含136个枪声片段,枪声片 段的总时长约20min。所有音频文件均转化为单声道、采样速率8kHz、解析度 16位的PCM格式文件。

评价方法:本发明采用两种方法来评价系统,一种是基于片段的评价参数, 反应系统识别的准确程度。另一种是基于时长的评价参数,反应系统识别的精 确程度。

检出准则:本方法的识别对象是音频流,音频流经过识别后被切分为若干 音频片段,每个音频片段在内容类别上具有一致性。若识别出的特定音频片段 与真实的特定音频片段在时序上有重叠,则认为该特定音频片段被正确识别; 若没有重叠,则一定存在误检或漏检的现象。检出准则如图4所示。

评价方法I:基于片段的准确率Pfrag和召回率Rfrag

设M=系统正确检出的枪声片段数,N=系统检出的枪声片段总数,Z=真实 枪声片段总数。则有:

Pfrag=M/N

Rfrag=M/Z

Ffrag=2·Pfrag·RfragPfrag+Rfrag

评价方法Ⅱ:基于时长的准确率Pt和召回率Rt

设R=系统正确检出的枪声的总时长,S=系统检出的枪声总时长,T=真实枪 声的总时长。

Pt=R/S

Rt=R/T

Ft=2·Pt·RtPt+Rt

1.GMM方法、SVM方法参数选择试验

本组试验主要是选取GMM中高斯分布数目参数K值和SVM中参数c和g 的。实验通过设置不同的K值,使用GMM对枪声事件进行训练和识别,K值 分别取8、12、16、32和64,表1列出了不同K值下的系统识别性能。

表1确定高斯数目M试验结果

从上表可以看出,当K值取8、12、16、32时,系统的准确率逐渐提升, 但是当K=64时,系统的识别准确率基本不变,但是由于模型复杂,导致计算量 大幅增加,训练时间增长。造成识别准确率不变的主要原因是当K=64时,GMM 模型比较复杂,需要大量的数据进行模型训练,而本发明的训练样本量相对较 少,所建立的模型不够精确,最终使得识别性能基本没有提高。综合考虑实验 所用的训练样本量和训练时间,本发明采用K=32作为融合算法中GMM模型的 高斯混合模型数目值。

选取SVM方法作为特定音频事件识别模型,主要是因为本发明所使用的枪 声训练数据量有限,而SVM正是满足适用于有限的小样本分类问题的特点,且 可以得到较高的识别率。

在SVM中,常用的核函数有多项式核函数、径向基核函数(RBF)、Sigmoid 核函数,除此之外,在特殊的场合还可以构造特殊的核函数。相对于其它几种 核函数,RBF具有一定的优势:与线性多项式核相比,RBF通过把样本空间非 线性地映射到一个高维特征空间,从而能更好地处理类别和类属性之间存在的 非线性联系;在一定条件下,线性核是RBF核的特例;而Sigmoid核在参数选 定后与RBF也是相通的。因此,本实施例试验采用RBF作为核函数。

基于RBF的SVM函数得到的分类器的性能只与c及g有关。实验中利用网 格遍历方法获得最优参数c和g。观察实验结果图5(图中横坐标是log2(c),纵坐 标是log2(g))发现,当c=8192,g=8时,准确率最高,但是训练时间过长,导致系 统时间效率低,因此本实施例选取c=2048,g=8。

2.融合方法与单独使用GMM、SVM对比实验

本组试验主要验证融合GMM和SVM混合方法与单独使用GMM、SVM方 法相比,可以解决单个分类器在枪声识别中准确率低的问题,混合方法具有高 的准确率。实验结果如表2所示。

表2融合GMM和SVM混合方法与GMM方法、SVM方法的识别结果

假设GMM分类器正确检测的枪声个数为ag,SVM分类器正确检测的枪声 个数为as;GMM检测的枪声总个数为bg,SVM检测的枪声总个数为bs;真实 的枪声总个数为q。则融合GMM和SVM的混合分类器正确检测的枪声个数是 ags=ag∩as,检测的枪声总个数为bgs=bg∩bs,根据平滑处理规则对识别结果处 理后,有

pg=agbg;ps=asbs;pgs=agsbgs

由于bgs《min(bg,bs),ags《min(ag,as),所以pgs>ps>pg。试验结果和理论同时证 明了融合方法对特定音频事件具有高准确率的识别效果,并且该融合方法解决 了持续时间短的音频事件识别正确率低的问题。

g3.方法对比试验

通过试验,比较融合GMM和SVM的混合方法与AdaBoost方法的识别性 能。实验采用MFCC作为音频特征参数,AdaBoost方法使用文献中给出的最优 迭代次数860。融合GMM和SVM的混合方法中GMM的高斯混合模型数目为 K=32,SVM分类器中使用的核函数为RBF函数,选取局部最优参数 c=2048,g=8,试验还记录了算法的开始和结束时间。试验比较结果如表3所示。 试验比较结果的柱状图如图6所示。

表3不同方法对比试验结果

目前国外与特定音频流泛化识别方法在输入输出以及性能评价方面相似的 研究通过提取枪声音频特征,并使用SVM方法进行训练和识别,其PRp(TP/P) 为67%,PRn为(TN/N)81%。

从图6可以看出,使用融合GMM和SVM的混合分类器进行枪声识别与文 献使用的AdaBoost相比,在同样使用MFCC作为特征参数的情况下,召回率基 本保持不变,准确率相比分别提高了7.58%和9.70%,F值也有一定的提高。这 说明融合GMM和SVM的音频事件分层识别系统可以提高时间较短的音频事件 的检出率,弥补AdaBoost分类器对时长较短的音频事件准确率较低的缺陷,同 时降低系统的虚检率和漏检率,提升特定音频事件识别系统的识别性能。

g4.方法复杂度分析

特定音频事件识别在特征向量生成阶段,通过使用段特征向量代替帧特征 来训练生成识别模板,降低了系统的处理数据量和运算量,提高系统的处理速 度;文中共有10种枪声类别,传统的识别方法需要对应于10类枪声生成10个 识别模板,需要大量的训练时间和识别时间,系统效率低下。本发明中的融合 方法不同于传统的识别方法,只需要生成2个具有泛化能力的识别模板,大大 缩减了系统的训练时间与识别时间,明显提高了系统的效率,便于实际应用; 并且由于GMM方法复杂度(对于一个包含d个混合分量的k个混合高斯模型, 其维度为m维,那么算法复杂度就是O(mdk)和SVM方法复杂度(一般在 和o(dL2)之间,其中Nsv是支持向量的个数,L是训练集样 本的个数,d是每个样本的维数(原始的维数,没有经过向高维空间映射之前的 维数))较低,识别精度高,因此可以明显提高系统识别效率。

试验过程中记录的训练时间和识别时间如表4所示。

表4不同方法的运行时间

试验结果表明,融合GMM和SVM混合方法训练时间与AdaBoost(AdaBoost 方法在弱分类器的选择过程中,其中的贪心算法的算法复杂度为O(k2))相比, 基本上保持不变,但是识别时间提高了47.356%。总的来说,融合SVM和GMM 的方法复杂度低,可以提高系统的识别速度。理论和实验同时表明,本文所提 算法针对特定音频事件识别具有较好的实际使用价值。

根据试验对比结果可以看出,本发明方法完成了发明目标,具有高精度的 特定音频事件快速识别效果。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号