首页> 中国专利> 用于音频事件分类的半监督学习高置信度样本挖掘方法

用于音频事件分类的半监督学习高置信度样本挖掘方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种用于音频事件分类的半监督学习高置信度样本挖掘方法，本发明创新性地通过三个原则来确定未标注音频事件样本的置信度，进而挖掘具有高置信度的未标注音频事件样本。三个原则为未标注音频事件样本的正确标注提供了三重保障，因而能成功地为半监督学习挖掘到高置信度的未标注音频事件样本。此外，本发明的三个原则充分考虑了数据分布，挖掘的高置信度样本具有一定的多样性，因而能更好地提高音频事件分类器的分类性能。本发明挖掘的高置信度样本经自动标注加入到已标注音频事件样本集，因而在提高分类器的分类性能的同时不增加额外的手工标注工作量，因此该项发明在实际应用中具有很强的应用价值。

著录项

公开/公告号CN105069474A

专利类型发明专利
公开/公告日2015-11-18

原文格式PDF
申请/专利权人山东师范大学;
展开▼

申请/专利号CN201510475266.6
发明设计人冷严;李登旺;方敬;程传福;万洪林;王晶晶;
展开▼

申请日2015-08-05
分类号G06K9/62;
代理机构济南圣达知识产权代理有限公司;
代理人张勇
地址 250014 山东省济南市历下区文化东路88号
入库时间 2023-12-18 12:16:22

法律信息

法律状态公告日

法律状态信息

法律状态
2019-02-12

授权

授权
2015-12-16

实质审查的生效 IPC(主分类):G06K9/62 申请日:20150805

实质审查的生效
2015-11-18

公开

公开

说明书

技术领域

本发明涉及一种用于音频事件分类的半监督学习高置信度样本挖掘方法。

背景技术

音频事件分类是指从音频文档中识别出其中包含的各种类型的音频事件。音频事件分类是当前的研究热点。制约音频事件分类技术发展的一个瓶颈问题是样本的标注问题。音频事件分类在训练阶段通常需要大量的已标注样本参与训练，而手工样本标注非常耗费时间和精力，甚至在有些情况下由于训练样本太多，完全依靠手工标注变得不切实际。

为了解决音频事件分类中的样本标注问题，一方面可以通过主动学习技术来减少手工标注的工作量。支持向量机(SupportVectorMachines,SVM)二值分类器在小样本、非线性、高维模式识别中具有独特优势，而关于支持向量机的主动学习技术也得到了广泛的关注。在支持向量机主动学习技术中，一类方法是在主动学习的每轮迭代中挑选支持向量机分类边界 (margin)内的未标注样本进行手工标注，因为这类样本是支持向量的概率大，因而信息含量高。主动学习由于挑选信息含量高的样本进行标注，因此能一定程度上降低手工标注工作量，但其仍然需要人的参与，而实际应用中，标注员标注样本的精力是有限的。

主动学习技术在迭代过程中需要人的参与，而半监督学习技术在迭代过程中则不需要人的参与。半监督学习技术在每轮迭代中挑选高置信度的样本由机器自动标注。假设标注员标注样本的数量是确定的，对于那些挖掘支持向量机分类边界内的未标注样本的主动学习技术，如果在主动学习标注了确定数量的未标注样本之后，能利用半监督学习技术继续挖掘这类未标注样本，则能在不增加额外手工标注工作量的前提下继续增强分类器的分类性能。

在每轮迭代中，用半监督学习技术对支持向量机分类边界内的未标注样本进行自动标注时，由于分类边界内的未标注样本距离分类超平面近，分类器对其分类置信度较低，因而如何确定分类边界内未标注样本的置信度，进而挖掘高置信度的样本是半监督学习所要解决的一大难题。

发明内容

本发明为了解决上述问题，提出了一种用于音频事件分类的半监督学习高置信度样本挖掘方法，该方法在主动学习标注了确定数量的未标注音频事件样本之后，基于以下三个原则确定分类边界内未标注音频事件样本的置信度：1)平滑假设；2)挖掘的正类样本、负类样本应分别和已标注的正类样本、已标注的负类样本尽可能相似；3)挖掘的正类样本、负类样本应分别和已标注的负类样本、已标注的正类样本尽可能不同。三个原则为未标注音频事件样本的正确标注提供了三重保障，因而能成功地为半监督学习挖掘到高置信度的未标注音频事件样本。

为了实现上述目的，本发明采用如下技术方案：

一种用于音频事件分类的半监督学习高置信度样本挖掘方法，包括以下步骤：

步骤(1)：输入已标注音频事件样本集L、未标注音频事件样本集U和支持向量机分类器；

步骤(2)：用已标注音频事件样本集L中标注为正类的样本组成样本集L⁺，用未标注音频事件样本集U和样本集L⁺组成包含未标注音频事件样本和已标注的正类音频事件样本的数据集D1，用D1内的样本估计未标注音频事件样本的正类置信度；

步骤(3)：用已标注音频事件样本集L中标注为负类的样本组成样本集L^-，用未标注音频事件样本集U和样本集L^-组成包含未标注音频事件样本和已标注的负类音频事件样本的数据集D2，用D2内的样本估计未标注音频事件样本的负类置信度；

步骤(4)：对未标注音频事件样本，计算正类估计置信度和负类估计置信度的差值g1，用支持向量机分类器对未标注音频事件样本分类，然后选出那些落在支持向量机分类器分类边界内且其g1值为正值的未标注音频事件样本，并按其g1值进行降序排列，最后创建正类样本集P；

步骤(5)：对未标注音频事件样本，计算负类估计置信度和正类估计置信度的差值g2，用支持向量机分类器对未标注音频事件样本分类，然后选出那些落在支持向量机分类器分类边界内且其g2值为正值的未标注音频事件样本，并按其g2值进行降序排列，最后创建负类样本集N；

步骤(6)：将正类样本集P中的样本自动标注为正类，然后加入到已标注音频事件样本集L中，并将其从未标注音频事件样本集U中移除；将负类样本集N中的样本自动标注为负类，然后加入到已标注音频事件样本集L中，并将其从未标注音频事件样本集U中移除。

所述步骤(2)的方法为：用已标注音频事件样本集中标注为正类的样本组成样本集L⁺，用未标注音频事件样本集U和样本集L⁺组成包含未标注音频事件样本和已标注的正类样本的数据集D1，g⁺表示D1中样本的正类估计置信度组成的列向量，r⁺表示D1中样本的正类先验置信度组成的列向量，设置r⁺中各个样本的正类先验置信度，用D1中的样本估计未标注音频事件样本的正类置信度。

所述步骤(2)的具体方法为：

步骤(2-1)：用已标注音频事件样本集L中标注为正类的样本组成样本集L⁺，用U和L⁺组成包含未标注音频事件样本和已标注的正类样本的数据集D1， D1＝{U,L⁺}＝{x₁,x₂,…,x_|U|,x_|U|+1,…,x_|D1|}，x_i∈Rⁿ(i＝1,2,…,|D1|)表示D1中的第i个样本，下标i表示第i个，Rⁿ表示n维实数向量，|U|表示未标注音频事件样本集U中样本的数量， |D1|表示数据集D1中样本的数量；

步骤(2-2)：令g⁺∈R^|D1|表示由数据集D1中样本的正类估计置信度组成的列向量，g⁺是一个待求的量，其各元素的值未知，g⁺中各元素在[0,1]区间取值，令r⁺∈R^|D1|表示由数据集D1 中样本的正类先验置信度组成的列向量，r⁺中各元素在[0,1]区间取值，R^|D1|表示|D1|维的实数向量；

步骤(2-3)：对于D1中的每个样本x_i(i＝1,2,…,|D1|)，通过K近邻的方法为其创建一个单元格,记为C_i,C_i＝{x_i(0),x_i(1),…,x_i(K)}，x_i表示D1中的第i个样本，下标i表示第i个，x_i(0)表示样本x_i在数据集D1中的第0近邻样本，即样本x_i本身，x_i(1)，x_i(K)分别表示样本x_i在数据集D1中的第1近邻样本和第K近邻样本；

步骤(2-4)：令X_i＝[x_i(0),x_i(1),…,x_i(K)]表示由单元格C_i中的样本组成的样本矩阵，令表示C_i中样本x_i(k)的正类估计置信度，令表示C_i中样本x_i(k)的正类先验置信度，x_i(k)表示样本x_i在数据集D1中的第k近邻样本；

步骤(2-5)：令表示对角矩阵，其对角向量为上标T表示转置，ω是一个正常数；

步骤(2-6)：令I表示(K+1)×(K+1)维的单位矩阵，l_K+1表示元素全为1的(K+1)维列向量，K表示K近邻算法中的K值，上标T表示转置，R^(K+1)×(K+1)表示(K+1)×(K+1)维的实数矩阵；

步骤(2-7)：令X_i表示由单元格C_i中的样本组成的样本矩阵，上标T表示转置，λ表示正则化系数，I_n表示n×n维的单位矩阵；

步骤(2-8)：令 $A_{i} = [a_{p (x_{i (0)})}, a_{p (x_{i (1)})}, ..., a_{p (x_{i (K)})}],$ 其中 $a_{p (x_{i (k)})} \in R^{| D 1 |} (k = 0, 1, ..., K)$ 表示|D1|维的实数向量，其只有第p(x_i(k))个元素值为1，其它元素值都为0，p(x_i(k))表示样本x_i(k)在数据集D1中的位置，x_i(k)表示数据集D1中第i个样本x_i的第k近邻样本；

步骤(2-9)：求 $V^{+} = Σ_{i = 1}^{| D 1 |} A_{i} V_{i}^{+} A_{i}^{T};$

步骤(2-10)：求 $W^{+} = Σ_{i = 1}^{| D 1 |} A_{i} W_{i}^{+} A_{i}^{T};$

步骤(2-11)：求g⁺＝(V⁺+W⁺)^-1W⁺r⁺；

步骤(2-12)：向量g⁺中前|U|个值是未标注音频事件样本的正类估计置信度，将前|U|个值取出，用向量表示，则即为未标注音频事件样本的正类估计置信度。

所述步骤(2-2)中，r⁺中已标注正类样本的正类先验置信度设置为1，其它未标注音频事件样本的正类先验置信度设置为0.5。

所述步骤(3)的步骤为：用已标注音频事件样本集L中标注为负类的样本组成样本集L^-，用U和L^-组成包含未标注音频事件样本和已标注的负类样本的数据集D2，g^-表示数据集 D2中样本的负类估计置信度组成的列向量，r^-表示数据集D2中样本的负类先验置信度组成的列向量，设置r^-中各个样本的负类先验置信度，用D2内的样本估计未标注音频事件样本的负类置信度。

所述步骤(3)的具体步骤为：

步骤(3-1)：用已标注音频事件样本集L中标注为负类的样本组成样本集L^-，用U和L^- 组成包含未标注音频事件样本和已标注的负类样本的数据集D2， D2＝{U,L^-}＝{y₁,y₂,…,y_|U|,y_|U|+1,…,y_|D2|},y_i∈Rⁿ(i＝1,2,…,|D2|)表示D2中的第i个样本，下标i表示第i个，Rⁿ表示n维实数向量，|U|表示未标注样本集U中样本的数量，|D2|表示数据集D2中样本的数量；

步骤(3-2)：令g^-∈R^|D2|表示由数据集D2中样本的负类估计置信度组成的列向量，g^-是一个待求的量，其各元素的值未知，g^-中各元素在[0,1]区间取值，令r^-∈R^|D2|表示由数据集D2 中样本的负类先验置信度组成的列向量，r^-中各元素在[0,1]区间取值，R^|D2|表示|D2|维的实数向量；

步骤(3-3)：对于D2中的每个样本y_i(i＝1,2,…,|D2|)，通过K近邻的方法为其创建一个单元格,单元格内样本记为{y_i(0),y_i(1),…,y_i(K)}，y_i表示D2中的第i个样本，下标i表示第i 个，y_i(0)表示样本y_i在数据集D2中的第0近邻样本，即样本y_i本身，y_i(1),y_i(K)分别表示样本y_i在数据集D2中的第1近邻样本和第K近邻样本；

步骤(3-4)：令Y_i＝[y_i(0),y_i(1),…,y_i(K)]表示由D2中第i个样本对应的单元格中的样本组成的样本矩阵，令表示样本y_i(k)的负类估计置信度，令表示样本y_i(k)的负类先验置信度，y_i(k)表示样本y_i在数据集D2中的第k近邻样本；

步骤(3-5)：令表示对角矩阵，其对角向量为上标T表示转置，ω是一个正常数；

步骤(3-6)：令I表示(K+1)×(K+1)维的单位矩阵，l_K+1表示元素全为1的(K+1)维列向量，K表示K近邻算法中的K值，上标T表示转置，R^(K+1)×(K+1)表示(K+1)×(K+1)维的实数矩阵；

步骤(3-7)：令Y_i表示由D2中第i个样本对应的单元格中的样本组成的样本矩阵，上标T表示转置，λ表示正则化系数，I_n表示n×n维的单位矩阵；

步骤(3-8)：令 $B_{i} = [b_{p (y_{i (0)})}, b_{p (y_{i (1)})}, ..., b_{p (y_{i (K)})}],$ 其中 $b_{p (y_{i (k)})} \in R^{| D 2 |} (k = 0, 1, ..., K)$ 表示|D2|维的实数向量，其只有第p(y_i(k))个元素值为1，其它元素值都为0，p(y_i(k))表示样本y_i(k)在数据集D2中的位置，y_i(k)表示数据集D2中第i个样本y_i的第k近邻样本；

步骤(3-9)：求 $V^{-} = Σ_{i = 1}^{| D 2 |} B_{i} V_{i}^{-} B_{i}^{T};$

步骤(3-10)：求 $W^{-} = Σ_{i = 1}^{| D 2 |} B_{i} W_{i}^{-} B_{i}^{T};$

步骤(3-11)：求g^-＝(V^-+W^-)^-1W^-r^-；

步骤(3-12)：向量g^-中前|U|个值是未标注音频事件样本的负类估计置信度，将前|U|个值取出，用向量表示，则即为未标注音频事件样本的负类估计置信度。

所述步骤(3-2)中，r^-中已标注负类样本的负类先验置信度设置为1，其它未标注音频事件样本的负类先验置信度设置为0.5。

所述步骤(4)的具体步骤包括：

步骤(4-1)：对未标注音频事件样本，计算正类估计置信度和负类估计置信度的差值g1；

步骤(4-2)：在半监督学习的每轮迭代中，用支持向量机分类器对未标注音频事件样本分类，然后选出那些落在支持向量机分类器分类边界内且其g1值为正值的未标注音频事件样本；

步骤(4-3)：将步骤(4-2)中挑选出来的未标注音频事件样本按照其g1值降序排序；

步骤(4-4)：设定一个百分比值ε％，取步骤(4-3)中排序的未标注音频事件样本的前ε％作为挖掘的正类样本。

所述步骤(4-1)的具体步骤为：

$(\begin{matrix} g 1 = g_{U}^{+} - g_{U}^{-} \\ =[g 1 (x_{1}^{U}), g 1 (x_{2}^{U}), ..., g 1 (x_{| U |}^{U})]^{T} \end{matrix})$

其中，表示未标注音频事件样本集U中的第j个样本，下标j表示第j 个，表示未标注音频事件样本的g1值，即正类估计置信度和负类估计置信度的差值，|U|表示未标注音频事件样本集中样本的数量。

所述步骤(4-4)的具体方法用公式表达为：

P表示挖掘的正类样本集，f(·)表示支持向量机分类器的决策函数，表示样本的决策值，根据支持向量机原理，f(x)＝±1表示的是支持向量机分类器的分类边界，而|f(x)|＜1 则表示分类边界内部区域，其中x表示任一样本，所以表示样本落在分类边界内， TOP_ε％/g1{·}表示将集合{·}内的样本根据其g1值降序排序后，取其前ε％的样本组成新的样本集合。

所述步骤(5)的具体步骤为：

步骤(5-1)：对未标注音频事件样本，计算负类估计置信度和正类估计置信度的差值g2；

步骤(5-2)：在半监督学习的每轮迭代中，用支持向量机分类器对未标注音频事件样本分类，然后选出那些落在支持向量机分类器分类边界内且其g2值为正值的未标注音频事件样本；

步骤(5-3)：将步骤(5-2)中挑选出来的未标注音频事件样本按照其g2值降序排序；

步骤(5-4)：设定一个百分比值ε％，取步骤(5-3)中排序的未标注音频事件样本的前ε％作为挖掘的负类样本。

所述步骤(5-1)的具体方法为：

$(\begin{matrix} g 2 = g_{U}^{-} - g_{U}^{+} \\ =[g 2 (x_{1}^{U}), g 2 (x_{2}^{U}), ..., g 2 (x_{| U |}^{U})]^{T} \end{matrix})$

其中，表示未标注音频事件样本集U中的第j个样本，下标j表示第j 个，表示未标注音频事件样本的g2值，即负类估计置信度和正类估计置信度的差值，|U|表示未标注音频事件样本集中样本的数量。

所述步骤(5-4)的具体方法用公式表达为：

N表示挖掘的负类样本集，TOP_ε％/g2{·}表示将集合{·}内的样本根据其g2值降序排序后，取其前ε％的样本组成新的样本集合。

本发明的有益效果为：

1.本发明创新性地通过三个原则来挖掘支持向量机分类边界内的未标注音频事件样本，三个原则为未标注音频事件样本的正确标注提供了三重保障，因而能成功地为半监督学习挖掘到高置信度的未标注音频事件样本。

2.本发明的三个原则充分考虑了数据分布，挖掘的高置信度样本具有一定的多样性，因而能更好地提高音频事件分类器的分类性能。

3.在主动学习结束之后，基于本发明提出的高置信度样本挖掘方法的半监督学习技术能继续成功地挖掘未标注音频事件样本，因而能在不增加手工标注工作量的前提下进一步提高音频事件分类器的分类性能，因此该项发明在实际应用中具有很强的应用价值。

附图说明

图1为本发明的流程图。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

如图1所示，对于那些挖掘支持向量机分类边界内的未标注音频事件样本的主动学习技术，本发明在主动学习标注了确定数量的未标注音频事件样本之后，基于以下三个原则来为半监督学习从分类边界内挖掘高置信度样本：1)平滑假设；2)挖掘的正类样本、负类样本应分别和已标注的正类样本、已标注的负类样本尽可能相似；3)挖掘的正类样本、负类样本应分别和已标注的负类样本、已标注的正类样本尽可能不同。本发明提出的用于音频事件分类的半监督学习高置信度样本挖掘方法的整个实施流程如图1所示：

(一)输入已标注音频事件样本集L、未标注音频事件样本集U、支持向量机分类器

半监督学习每轮迭代后都会输出得到一个已标注的音频事件样本集L、未标注的音频事件样本集U、支持向量机分类器，而其又将作为下一轮迭代的输入。

(二)D1＝{U,L⁺}，用D1内的样本估计未标注音频事件样本的正类置信度

用已标注音频事件样本集L中标注为正类的样本组成样本集L⁺，用U和L⁺组成包含未标注音频事件样本和已标注的正类样本的数据集D1， D1＝{U,L⁺}＝{x₁,x₂,…,x_|U|,x_|U|+1,…,x_|D1|}，x_i∈Rⁿ(i＝1,2,…,|D1|)表示D1中的第i个样本，下标i表示第i个。Rⁿ表示n维实数向量。|U|表示未标注音频事件样本集U中样本的数量，|D1| 表示数据集D1中样本的数量。根据第一原则，即平滑假设，空间上相近的样本应该具有相似的类标签。为了满足第一原则，对于D1中的每个样本x_i(i＝1,2,…,|D1|)，通过K近邻的方法为其创建一个单元格,记为C_i,C_i＝{x_i(0),x_i(1),…,x_i(K)}。x_i表示D1中的第i个样本，下标i 表示第i个。x_i(0)表示样本x_i在数据集D1中的第0近邻样本，即样本x_i本身，为了在后续表达式中便于统一表达C_i中的样本，这里为其添加了下标(0)。x_i(1)，x_i(K)分别表示样本x_i在数据集D1中的第1近邻样本和第K近邻样本。用表示C_i中样本x_i(k)的隶属于正类的估计置信度，简称为正类估计置信度，用表示C_i中样本x_i(k)的隶属于正类的先验置信度，简称为正类先验置信度，由于已知D1中已标注正类样本确切地属于正类，所以将D1中已标注的正类样本的先验置信度设为1；对于D1 中的未标注音频事件样本，由于没有关于其类标签的先验信息，因此折衷地将D1中的未标注音频事件样本的先验置信度设为0.5。x_i(k)表示样本x_i在数据集D1中的第k近邻样本。

为了估计未标注音频事件样本的正类置信度，用线性回归模型为每个单元格C_i中样本的正类估计置信度建模，并最小化建模误差；同时，由于已知已标注正类样本确切地属于正类，其属于正类的置信度为1，因此在建模的过程中，已标注正类样本的正类估计置信度不能偏离1值太大。因此，上述建模过程可以表达为：

$\underset{α_{i} | \begin{matrix} | D 1 | \\ i = 1 \end{matrix}, β_{i} | \begin{matrix} | D 1 | \\ i = 1 \end{matrix}, g_{i (k)}^{+} | \begin{matrix} k = 0, ..., K \\ i = 1, ..., | D 1 | \end{matrix}}{m i n} Σ_{i = 1}^{| D 1 |} Σ_{k = 0}^{K} {(α_{i}^{T} x_{i (k)} + β_{i} - g_{i (k)}^{+})}^{2} + 1_{L^{+}} (x_{i (k)}) {(g_{i (k)}^{+} - r_{i (k)}^{+})}^{2} - - - (1)$

其中，表示第i个单元格C_i的映射向量，上标T表示转置，α_i∈Rⁿ，Rⁿ表示n维实数向量。β_i表示第i个单元格C_i的偏置值。是指示函数，其定义为：

杨毅曾经提出了一种简记为LRGA的多媒体检索排序算法，其中的最小化问题和公式(1) 中的最小化问题非常相似。受LRGA的启发，这里将公式(1)中的最小化问题改为：

$\underset{α_{i} | \begin{matrix} | D 1 | \\ i = 1 \end{matrix}, β_{i} | \begin{matrix} | D 1 | \\ i = 1 \end{matrix}, g_{i (k)}^{+} | \begin{matrix} k = 0, ..., K \\ i = 1, ..., | D 1 | \end{matrix}}{m i n} Σ_{i = 1}^{| D 1 |} Σ_{k = 0}^{K} {(α_{i}^{T} x_{i (k)} + β_{i} - g_{i (k)}^{+})}^{2} + λ | | α_{i} | |^{2} + ω^{2 r_{i (k)}^{+} - 1} {(g_{i (k)}^{+} - r_{i (k)}^{+})}^{2} - - - (3)$

其中，||α_i||表示向量α_i的模，λ表示正则化系数，其值可以通过验证集得到。ω是一个值非常大的正常数，这里将其值设为10000。

令X_i＝[x_i(0),x_i(1),…,x_i(K)]表示由单元格C_i中的样本组成的样本矩阵。令表示由单元格C_i中样本的正类估计置信度组成的向量。令表示由单元格C_i中样本的正类先验置信度组成的向量。令表示对角矩阵，其对角向量为上标T表示转置。令l_K+1表示元素全为1的 (K+1)维列向量。则公式(3)中的最小化问题可以改写为：

$\underset{α_{i} | \begin{matrix} | D 1 | \\ i = 1 \end{matrix}, β_{i} | \begin{matrix} | D 1 | \\ i = 1 \end{matrix}, g_{i}^{+} | \begin{matrix} | D 1 | \\ i = 1 \end{matrix}}{m i n} Σ_{i = 1}^{| D 1 |} | | X_{i}^{T} α_{i} + β_{i} l_{K + 1} - g_{i}^{+} | |^{2} + {λα}_{i}^{T} α_{i} {(g_{i}^{+} - r_{i}^{+})}^{T} W_{i}^{+} (g_{i}^{+} - r_{i}^{+}) - - - (4)$

令I表示(K+1)×(K+1)维的单位矩阵，K表示K近邻算法中的K值，上标T表示转置,R^(K+1)(K+1)表示(K+1)×(K+1)维的实数矩阵。令 X_i表示由单元格C_i中的样本组成的样本矩阵，上标T表示转置，λ表示正则化系数。I_n表示n×n维的单位矩阵。令g⁺∈R^|D1|表示由数据集D1中样本的正类估计置信度组成的列向量，g⁺中各元素在[0,1]区间取值。令r⁺∈R^|D1|表示由数据集 D1中样本的正类先验置信度组成的列向量，r⁺中各元素在[0,1]区间取值。r⁺中已标注的正类样本的正类先验置信度设置为1，其它未标注音频事件样本的正类先验置信度设置为0.5。 R^|D1|表示|D1|维的实数向量。令 $A_{i} = [a_{p (x_{i (0)})}, a_{p (x_{i (1)})}, ..., a_{p (x_{i (K)})}],$ 其中 $a_{p (x_{i (k)})} \in R^{| D 1 |}, (k = 0, 1, ..., K)$ 表示|D1|维的实数向量，其只有第p(x_i(k))个元素值为1，其它元素值都为0。p(x_i(k))表示样本 x_i(k)在数据集D1中的位置，x_i(k)表示数据集D1中第i个样本x_i的第k近邻样本。令解公式(4)中的最小化问题,根据以上定义可得数据集D1中样本的正类估计置信度为：

g⁺＝(V⁺+W⁺)^-1W⁺r⁺(5)

向量g⁺中前|U|个值是未标注音频事件样本的正类估计置信度，将前|U|个值取出，用向量表示，则即为未标注音频事件样本的正类估计置信度。

(三)D2＝{U,L^-}，用D2内的样本估计未标注音频事件样本的负类置信度

用已标注音频事件样本集L中标注为负类的样本组成样本集L^-，用U和L^-组成包含未标注音频事件样本和已标注的负类样本的数据集D2， D2＝{U,L^-}＝{y₁,y₂,…,y_|U|,y_|U|+1,…,y_|D2|},y_i∈Rⁿ(i＝1,2,…,|D2|)表示D2中的第i个样本，下标i表示第i个。Rⁿ表示n维实数向量。|U|表示未标注音频事件样本集U中样本的数量， |D2|表示数据集D2中样本的数量。和用D1内的样本估计未标注音频事件样本的正类置信度类似，这里用D2内的样本估计未标注音频事件样本隶属于负类的置信度，简称为负类置信度。这里不再给出具体的推导过程，而是直接给出推导结果。

对于D2中的每个样本y_i(i＝1,2,…，|D2|)，通过K近邻的方法为其创建一个单元格。令 Y_i＝[y_i(0),y_i(1),…,y_i(K)]表示由样本y_i所对应的单元格内样本组成的样本矩阵，其中y_i表示D2 中的第i个样本，下标i表示第i个。y_i(0)表示样本y_i在数据集D2中的第0近邻样本，即样本y_i本身。y_i(1),y_i(K)分别表示样本y_i在数据集D2中的第1近邻样本和第K近邻样本。令其中H，λ，I_n在(二)中已定义，上标T表示转置。令表示对角矩阵，其对角向量为 ${[ω^{2 r_{i (0)}^{-} - 1}, ω^{2 r_{i (1)}^{-} - 1}, ..., ω^{2 r_{i (K)}^{-} - 1}]}^{T},$ 其中， $r_{i (k)}^{-}, (k = 0, 1, ..., K)$ 表示D2中样本y_i的第k近邻样本的负类先验置信度。下标k表示第k近邻。令 $B_{i} = [b_{p (y_{i (0)})}, b_{p (y_{i (1)})}, ..., b_{p (y_{i (K)})}],$ 其中 $b_{p (y_{i (k)})} \in R^{| D 2 |}, (k = 0, 1, ..., K)$ 表示|D2|维的实数向量，其只有第p(y_i(k))个元素值为1，其它元素值都为0。R^|D2|表示|D2|维的实数向量。p(y_i(k))表示样本y_i(k)在数据集D2中的位置，y_i(k)表示数据集D2中第i个样本y_i的第k近邻样本。令 g^-∈R^|D2|表示由数据集D2中样本的负类估计置信度组成的列向量，g^-中的各元素在[0,1]区间取值。令r^-∈R^|D2|表示由数据集D2中样本的负类先验置信度组成的列向量，r^-中的各元素在[0,1]区间取值。r^-中已标注负类样本的负类先验置信度设置为1，其它未标注音频事件样本的负类先验置信度设置为0.5。令和用D1内的样本估计未标注音频事件样本的正类置信度同样的推理过程可得：

g^-＝(V^-+W^-)^-1W^-r^-(6)

向量g^-中前|U|个值是未标注音频事件样本的负类估计置信度，将前|U|个值取出，用向量表示，则即为未标注音频事件样本的负类估计置信度。

(四)挖掘正类样本集P

根据原则2和原则3，我们希望挖掘的正类样本应尽可能地和已标注的正类样本相似，同时应尽可能地和已标注的负类样本不同。

因此，令 $\begin{matrix} g 1 = g_{U}^{+} - g_{U}^{-} \\ = {[g 1 (x_{1}^{U}), g 1 (x_{2}^{U}), ..., g 1 (x_{| U |}^{U})]}^{T} \end{matrix} - - - (7)$

其中，表示未标注音频事件样本集U中的第j个样本，下标j表示第j 个。表示未标注音频事件样本的g1值，即正类估计置信度和负类估计置信度的差值。|U|表示未标注音频事件样本集中样本的数量。

如果某一未标注音频事件样本的g1值为正值，这说明其隶属于正类的置信度大于其隶属于负类的置信度，因此我们会更加倾向于将其分类为正类，并且，其g1值越大，我们将其分类为正类的信心越强。因此，具有较大的正的g1值的那些未标注音频事件样本可以被挖掘为正类样本。为此，我们设定一个百分比值ε％，在半监督学习的每轮迭代中，用支持向量机分类器对未标注音频事件样本分类，计算出未标注音频事件样本的g1值，然后选出那些落在支持向量机分类器分类边界内且其g1值为正值的未标注音频事件样本，将这些未标注音频事件样本按照其g1值降序排序，最后取这些未标注音频事件样本的前ε％作为挖掘的正类样本，用公式可以表达为：

P表示挖掘的正类样本集。f(·)表示支持向量机分类器的决策函数，表示样本的决策值。根据支持向量机原理，f(x)＝±1表示的是支持向量机分类器的分类边界，而|f(x)|＜1 则表示分类边界内部区域，其中x表示任一样本。所以表示样本落在分类边界内。 TOP_ε％/g1{·}表示将集合{·}内的样本根据其g1值降序排序后，取其前ε％的样本组成新的样本集合。

(五)挖掘负类样本集N

根据原则2和原则3，我们希望挖掘的负类样本应尽可能地和已标注的负类样本相似，同时应尽可能地和已标注的正类样本不同。

因此，令 $\begin{matrix} g 2 = g_{U}^{-} - g_{U}^{+} \\ =[g 2 (x_{1}^{U}), g 2 (x_{2}^{U}), ..., g 2 (x_{| U |}^{U})]^{T} \end{matrix} - - - (9)$

其中，表示未标注音频事件样本集U中的第j个样本，下标j表示第j 个。表示未标注音频事件样本的g2值，即负类估计置信度和正类估计置信度的差值。|U|表示未标注音频事件样本集中样本的数量。

如果某一未标注音频事件样本的g2值为正值，这说明其隶属于负类的置信度大于其隶属于正类的置信度，因此我们会更加倾向于将其分类为负类，并且，其g2值越大，我们将其分类为负类的信心越强。因此，具有较大的正的g2值的那些未标注音频事件样本可以被挖掘为负类样本。为此，我们设定一个百分比值ε％，在半监督学习的每轮迭代中，用支持向量机分类器对未标注音频事件样本分类，计算出未标注音频事件样本的g2值，然后选出那些落在支持向量机分类器分类边界内且其g2值为正值的未标注音频事件样本，将这些未标注音频事件样本按照其g2值降序排序，最后取这些未标注音频事件样本的前ε％作为挖掘的负类样本，用公式可以表达为：

N表示挖掘的负类样本集。TOP_ε％/g2{·}表示将集合{·}内的样本根据其g2值降序排序后，取其前ε％的样本组成新的样本集合。

(六)将正类样本集P中的样本自动标注为正类，然后加入到已标注音频事件样本集L 中，并将其从未标注音频事件样本集U中移除；将负类样本集N中的样本自动标注为负类，然后加入到已标注音频事件样本集L中，并将其从未标注音频事件样本集U中移除。

为了验证本发明提出的半监督学习高置信度样本挖掘方法的有效性，这里采样IEEE AASP音频场景和音频事件检测与分类竞赛活动中1-OL子任务的训练数据集作为实验数据集。数据集中共有16个音频事件类，将音频文档转换为单声道，16kHZ采样，并将其分割为 200毫秒长的音频片段。将每个音频片段分割为30毫秒长的一系列音频帧，帧移15毫秒，对每个帧提取39维MFCC特征，将音频片段内所有帧的特征均值和标准差作为音频片段的特征，因此每个音频片段用一个78维的特征向量表示。

支持向量机是二值分类器，这里采用一对多的多类分类策略进行音频事件分类。为了避免数据不平衡问题，将数据集中的16类拆分成4组数据，每组包含4类音频事件。具体为：第一组{keyboard,laughter,mouse,keys}，第二组{pageturn,clearthroat,drawer,switch}，第三组 {printer,phone,alert,doorslam}，第四组{speech,cough,pendrop,knock}。每组数据中的第一个音频事件类作为正类，也即要被分类识别的音频事件类，其它所有类作为负类。实验在4 组数据上进行。对每组数据，随机取10％和20％的样本作为验证数据集和测试数据集；从剩下的样本中再随机取10％样本作为主动学习算法的初始样本，其它样本作为未标注样本；用 MingkunLi在《Confidence-BasedActiveLearning》一文中提出的主动学习算法进行实验，简记为AL_Li。用AL_Li从未标注样本中手工标注10％的样本；主动学习结束后，用本发明提出的算法从未标注样本集中挑选高置信度的正类样本组成正类样本集，从未标注样本集中挑选高置信度的负类样本组成负类样本集；将正类样本集和负类样本集自动标注后加入到已标注样本集中，并从未标注样本集中移除；用更新的已标注样本集和未标注样本集重新训练支持向量机分类器；以上寻找高置信度样本及重新训练的过程重复迭代直至分类性能的波动率在连续5次迭代中都小于等于1‰。

将基于本发明提出的高置信度样本挖掘方法的支持向量机自训练半监督学习方法简记为 SSL_3C，这里将其和UjjwalMaulik在《FuzzyPreferenceBasedFeatureSelection andSemisupervisedSVMforCancerClassification》一文中提出的支持向量机半监督学习算法，简记为SSL_Maulik，进行了性能对比，并将其和AL_Li主动学习结束后的性能进行了对比，以验证本发明提出的方法所挖掘的高置信度样本的有效性。实验评价方法采用F1测量值以综合评价分类的精确率和召回率。在每组数据集上实验5次，将5次实验的平均值和标准差作为最后的实验结果。表1中列出了主动学习AL_Li结束后、AL_Li结束后又进行的SSL_Maulik半监督学习、AL_Li结束后又进行的SSL_3C半监督学习的分类性能。每组数据集上最佳实验结果进行了加粗显示。

表1.主动学习及主动学习和半监督学习结合后的分类性能对比

从表1可见，在四组数据集上进行分类实验，都是以本发明提出的高置信度样本挖掘方法为基础的SSL_3C取得了最高分类性能。主动学习AL_Li结束后，如果用SSL_Maulik半监督学习继续训练分类器，在四组数据集上，平均来说，SSL_Maulik使分类器的分类性能相对于主动学习结束后的分类性能提高了0.43％；而主动学习AL_Li结束后，使用本发明提出的高置信度样本挖掘方法的SSL_3C则平均提高了5.25％。因此，本发明提出的用于音频事件分类的半监督学习高置信度样本挖掘方法能成功地挖掘到高置信度样本。在主动学习结束后，基于本发明提出的高置信度样本挖掘方法的半监督学习能有效地进一步提高分类器的分类性能而不增加额外的手工标注工作量。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于音频事件分类的半监督学习高置信度样本挖掘方法 [P] . 中国专利： CN105069474B . 2019.02.12
2. 用于音频事件分类的半监督学习高置信度样本挖掘方法 [P] . 中国专利： CN105069474A . 2015-11-18
3. A method of single-pass mining of frequent simultaneous event groups for stream data an apparatus for single-pass mining of frequent simultaneous event groups for stream data [P] . 韩国专利： KR101872420B1 . 2018-06-28

机译：一种用于流数据的频繁并发事件组的单遍挖掘方法和一种用于流数据的频繁并发事件组的单遍挖掘方法
4. method for length measurement and sorting of the samples according to their längenmaßen and itself and automatically justierendes längenmeß and sortierungsgerät for implementation of the procedure [P] . AT259249B . 1968-01-10

机译：长度测量和根据样本本身的长度对样本进行分类的方法，并自动根据样本进行分类和分类，以执行该程序
5. Deep neural net based filter prediction for audio event classification and extraction [P] . 美国专利： US9666183B2 . 2017-05-30

机译：基于深度神经网络的滤波器预测用于音频事件分类和提取