首页> 中国专利> 一种时频联合的支持向量机半监督学习方法

一种时频联合的支持向量机半监督学习方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种时频联合的支持向量机半监督学习方法，具体步骤为：步骤一：训练初始SVM分类器；步骤二：利用SVM分类器C1，SVM分类器C2寻找高置信度样本，组成高置信度样本集S；步骤三：将高置信度样本集S中的样本由机器自动标注后放入SVM分类器C的已标注样本集L中；步骤四：用更新的已标注样本集L重新训练SVM分类器C；步骤五：根据停止准则判断是退出循环还是继续迭代。本发明联合时域和频域两个特征空间判断样本的置信度，其对样本置信度的判断比传统的基于单一特征空间的判断更加准确；由于对样本置信度的判断更加准确，本发明能减少由于错误标注而引起的分类器分类性能的下降；本发明在用于SVM分类器的训练时大幅度减少人工标注的工作量。

著录项

公开/公告号CN103177267A

专利类型发明专利
公开/公告日2013-06-26

原文格式PDF
申请/专利权人山东师范大学;
展开▼

申请/专利号CN201310141198.0
发明设计人冷严;徐新艳;
展开▼

申请日2013-04-22
分类号G06K9/62(20060101);G06F15/18(20060101);
代理机构37221 济南圣达知识产权代理有限公司;
代理人张勇
地址 250014 山东省济南市历下区文化东路88号
入库时间 2024-02-19 19:24:31

法律信息

法律状态公告日

法律状态信息

法律状态
2019-04-05

未缴年费专利权终止 IPC(主分类):G06K9/62 授权公告日:20170208 终止日期:20180422 申请日:20130422

专利权的终止
2017-02-08

授权

授权
2013-07-24

实质审查的生效 IPC(主分类):G06K9/62 申请日:20130422

实质审查的生效
2013-06-26

公开

公开

说明书

技术领域

本发明涉及机器学习领域，尤其涉及一种时频联合的支持向量机半监督学习方法。

背景技术

分类问题广泛存在于众多学科领域中，比如语音识别、图像识别、音频分类、文本分类等等。为了得到具有良好分类性能的分类器，通常需要用大量的已标注样本参与分类器的训练。但是标注样本的获取代价比较昂贵，比如说在语音识别领域，需要以音素为单位进行逐一标注，标注特别耗费时间和精力。样本的标注代价昂贵使得完全依靠人工标注来实现训练样本的标注变得不切实际，基于此，半监督学习技术应运而生。半监督学习是一个循环迭代的过程，其基本思想是：在每轮迭代过程中，寻找分类置信度高的样本由机器自动标注，机器是指能代替人进行标注工作的软硬件设备，标注后的样本加入训练集中重新训练分类器，以上过程迭代进行，直至满足停止准则。半监督学习是由机器自动标注，为了防止由于错误标注而引起的分类性能下降，寻找高置信度的样本成为半监督学习的关键所在。目前已有不少寻找高置信度样本的相关研究，在以支持向量机（Support Vector Machines，SVM）为训练模型的半监督学习方法中，现有的算法一般都是在特征提取以后，在此特征空间中判断样本的置信度，这种在某一特征空间中判断样本置信度的方法一般效果较差，而联合两个甚至多个特征空间来判断样本的置信度的方法，其对样本置信度的判断会更加准确，因此本发明联合时域和频域两个特征空间判断样本的置信度，以找到真正高置信度的样本参与训练。

发明内容

本发明的目的就是为了解决上述问题，本发明提供一种时频联合的支持向量机半监督学习方法，它具有确保样本的高置信度，减少由于错误标注而引起的SVM分类性能下降的优点。

为了实现上述目的，本发明采用如下技术方案：

一种时频联合的支持向量机半监督学习方法，具体步骤为：

步骤一：分别提取已标注样本的时域特征、频域特征、时域和频域特征，并分别训练初始SVM分类器C₁、SVM分类器C₂、SVM分类器C；

步骤二：利用SVM分类器C₁、SVM分类器C₂从未标注样本集U中确定高置信度样本，组成高置信度样本集S；

步骤三：将高置信度样本集S中的样本由机器自动标注后放入已标注样本集L中，机器是指能代替人进行标注工作的软硬件设备；

步骤四：对更新的已标注样本集L重新提取时域特征和频域特征，并进行特征选择，重新训练SVM分类器C；

步骤五：根据停止准则判断是退出循环还是继续迭代，继续迭代则返回步骤二。

所述步骤一的具体步骤为：

（1-1）从总样本集中随机选取一定数量的初始训练样本，人工标注后生成初始已标注样本集，将此初始已标注样本集分别赋给已标注样本集L₁，已标注样本集L₂和已标注样本集L；

（1-2）对初始已标注样本集L₁中的样本提取时域特征，并用这些样本训练初始SVM分类器C₁；

（1-3）对初始已标注样本集L₂中的样本提取频域特征，并用这些样本训练初始SVM分类器C₂；

（1-4）对初始已标注样本集L中的样本提取时域特征和频域特征，然后进行特征选择，最后用这些样本训练初始SVM分类器C。

所述步骤四和步骤（1-4）中特征选择的具体步骤为：

（1-4-1）设当前样本共有d维特征，组成特征集合{F₁,F₂,…,F_d},对特征集合中的每一维特征F_i，i为自然数，从特征集合中求其K近邻，即求与F_i距离最近的K个特征，并求 F_i与其K近邻之间的平均距离D_i，i为自然数；

（1-4-2）比较确定出具有最小D_i值的那一维特征，记作F^*，即：

$F^{*} = \underset{F_{i}}{\arg \min (D_{i})};$

（1-4-3）保留F^*，并将F^*的K个最近邻特征从特征集合中删除；

（1-4-4）判断是否满足min(Di)>ε，若满足则输出特征选择后的特征集合，否则转入步骤（1-4-1），ε是为平均距离D_i设定的下限阈值。

所述步骤二的具体步骤为：

（2-1）假设样本x_i到SVM分类器C₁、SVM分类器C₂的分类面的距离分别为d₁(x_i)、d₂(x_i)，则按下式生成SVM分类器C₁、SVM分类器C₂的高置信度样本集S₁、高置信度样本集S₂：

S₁＝{x_i|x_i∈U,d₁(x_i)＞Th₁}

S₂＝{x_i|x_i∈U,d₂(x_i)＞Th₂}

其中，Th₁、Th₂分别是SVM分类器C₁、SVM分类器C₂的距离阈值，U代表未标注样本集；

（2-2）从高置信度样本集S₁、高置信度样本集S₂的交集中取SVM分类器C₁、SVM分类器 C₂判别一致的样本组成高置信度样本集S，即：

S＝{x_i|y₁(x_i)＝y₂(x_i),且x_i∈(S₁∩S₂)}

其中，y₁（x_i）、y₂（x_i）分别表示用SVM分类器C₁、SVM分类器C₂对样本x_i进行分类时所得到的类标签，S₁∩S₂表示高置信度样本集S₁和高置信度样本集S₂的交集。

所述步骤五的具体步骤为：

（5-1）设第t-1次迭代后和第t次迭代后，SVM分类器C的分类性能分别为P_t-1和P_t，则 SVM分类器C的分类性能变化率为：

$η_{t} = | \frac{P_{t} - P_{t - 1}}{P_{t}} |$

（5-2）设定SVM分类器C的分类性能变化率阈值为δ，若连续5次迭代的η_t值都小于δ 时，则判别SVM分类器C收敛，因此退出循环，输出训练好的SVM分类器C；

（5-3）若不满足步骤（5-2）的条件，则将高置信度样本集S中的样本分别加入SVM分类器C₁、SVM分类器C₂的已标注样本集L₁、已标注样本集L₂中，并提取更新的已标注样本集 L₁中的时域特征、更新的已标注样本集L₂的频域特征，重新分别训练SVM分类器C₁、SVM分类器C₂，然后转入步骤二，进入下一轮迭代。

本发明的有益效果：

1.本发明联合时域和频域两个特征空间判断样本的置信度，其对样本置信度的判断比传统的基于单一特征空间的判断更加准确；

2.由于对样本置信度的判断更加准确，因此本发明能减少由于错误标注而引起的分类器分类性能的下降；

3.本发明提出的半监督学习方法在用于SVM分类器的训练时能够大幅度减少人工标注的工作量；

4.本发明提出的半监督学习方法的思路并不局限于支持向量机分类器，而是具有很好的推广性，可以很容易地推广到其它分类器。

附图说明

图1为本发明实施例提出的时频联合的支持向量机半监督学习方法的流程图；

图2为训练初始SVM分类器的结构框图；

图3为特征选择的流程图；

图4为联合SVM分类器C1、SVM分类器C2寻找高置信度样本，进而组成高置信度样本集 S的流程图；

具体实施方式

下面结合附图对本发明作进一步说明。

图1是本发明提出的时频联合的支持向量机半监督学习方法的流程图，具体包括如下5 个步骤：步骤一训练初始SVM分类器；步骤二联合SVM分类器C₁，SVM分类器C₂寻找高置信度样本，组成高置信度样本集S；步骤三将高置信度样本集S中的样本由机器自动标注后放入SVM分类器C的已标注样本集L中；步骤四用更新的已标注样本集L重新训练SVM分类器C；步骤五根据停止准则判断是退出循环还是继续迭代。下面对每个步骤进行详细说明。

步骤一训练初始SVM分类器

下面首先介绍一下SVM分类器的原理，通过原理的介绍来阐述如何训练SVM分类器，以及如何用SVM分类器进行分类。

SVM分类器是一种判别式两类分类器，其决策函数可以表达为：

f(x)＝w^Tφ(x)+b （1）

w和b分别表示权值向量和偏斜量。φ(x)是非线性映射函数，用于将低维空间线性不可分的样本x映射到高维空间中，使得样本在高维空间中线性可分。f(x)＝w^Tφ(x)+b＝0所表示的超平面即为SVM分类器的分类面。

对于两类分类问题，设在d维空间中有一组训练样本x_i∈R^di＝1,…,N，i、N为自然数，样本的类别标签为y_i∈{+1,-1}。SVM分类器就是要寻找一个最优分类面，使得该分类面既能最大化分类间隔又能正确分类训练样本x_i∈R^di＝1,…,N,i为自然数，具体可以表述为

$\min_{ω, b, ξ} \frac{1}{2} ω^{T} ω + C Σ_{i = 1}^{N} ξ_{i} - - - (2)$

且满足y_i(ω^Tφ(x_i)+b)≥1-ξ_i,ξ_i≥0,i＝1,…,N

其中，ξ_i代表松弛变量；C是惩罚因子，用来控制对松弛变量ξ_i的惩罚程度；φ(x_i)为样本x_i的非线性映射值。通过拉格朗日乘子法求解公式(2)所表达的优化问题可得：

$ω = Σ_{i = 1}^{N} α_{i} y_{i} φ (x_{i}) - - - (3)$

其中，α_i是拉格朗日乘子，y_i是样本x_i的类别标签，取值为y_i∈{+1,-1}，i为自然数。公式（3）中有的α_i值会等于0，而α_i值不等于0的样本被称之为支持向量，i为自然数。将（3）式代入（1）式后可将SVM的决策函数重写为：

$f (x) = ω^{T} φ (x) + b = Σ_{i = 1}^{M} α_{i} y_{i} φ {(x_{i})}^{T} φ (x) + b - - - (4)$

其中，M表示支持向量的个数。φ(x_i)^Tφ(x)的值可以通过核函数k(x_i,x)＝φ(x_i)^Tφ(x)求得，而不需知道映射函数φ(x)的显式表达式。

对于任一测试样本x_test,将其代入SVM分类器，则其分类标签y_test可由下式得到：

y_test＝sgn(f(x_test)) （5）

即f(x_test)＞0，则样本x_test属于+1类；f(x_test)＜0，则样本x_test属于-1类。

如图2所示，一共要训练SVM分类器C₁、SVM分类器C₂、SVM分类器C三个初始SVM分类器，因此步骤一包括以下四部分内容：1）选取初始训练样本，生成初始已标注样本集；分别命名为已标注样本集L₁，已标注样本集L₂和已标注样本集L；2）对初始已标注样本集L₁中的样本提取时域特征，并用这些样本训练初始SVM分类器C₁；3）对初始已标注样本集L₂中的样本提取频域特征，并用这些样本训练初始SVM分类器C₂；4）对初始已标注样本集L中的样本提取时域特征和频域特征，然后进行特征选择，最后用这些样本训练初始SVM分类器C。

1）选取初始训练样本，生成初始已标注样本集；

为了启动半监督学习的迭代过程，首先需要从整个样本集中选取少量样本进行人工标注，用人工标注后的样本生成初始已标注样本集，然后用初始已标注样本集训练初始SVM分类器。本发明采用随机采样的方法选择初始训练样本，即从整个样本集中随机选择一定数量的样本交由专家人工标注，以生成初始已标注样本集。选择的初始训练样本的数量可以根据标注专家对初始标注工作量的接受程度确定。

由于本发明中要训练三个分类器：SVM分类器C₁、SVM分类器C₂、SVM分类器C，所以将人工标注后的初始训练样本赋给三个已标注样本集，分别用已标注样本集L₁、已标注样本集L₂、已标注样本集L表示。整个样本集中除去已标注样本，剩下的未标注样本组成了未标注样本集，用U表示。

2）对初始已标注样本集L₁中的样本提取时域特征，并用这些样本训练初始SVM分类器 C₁

为了从时域角度考察样本的置信度，这里首先生成一个基于时域特征的初始SVM分类器 C₁。具体来说，首先提取初始已标注样本集L₁中样本的时域特征，然后用L₁中的初始已标注样本训练SVM分类器C₁。

3）对初始已标注样本集L₂中的样本提取频域特征，并用这些样本训练初始SVM分类器 C₂

为了从频域角度考察样本的置信度，首先提取初始已标注样本集L₂中样本的频域特征，然后用L₂中的初始已标注样本训练基于频域特征的初始SVM分类器C₂。

4）对初始已标注样本集L中的样本提取时域特征和频域特征，然后进行特征选择，最后用这些样本训练初始SVM分类器C

为了联合时域特征和频域特征训练一个时频联合的分类器，这里同时提取初始已标注样本集L中样本的时域特征和频域特征。其次，考虑到时域特征和频域特征联合后可能会存在一定的冗余，因此需要进行特征选择。最后，用特征选择后的样本训练初始SVM分类器C。这里的SVM分类器C就是本发明实施例提出的半监督学习方法所要训练的SVM分类器，而SVM 分类器C₁、SVM分类器C₂是用来帮助分类器C寻找高置信度样本的辅助工具。

为了防止特征产生冗余，特征选择采用如图3所示的方法：

①假设当前样本共有d维特征，组成特征集合{F₁,F₂,…,F_d},对特征集合中的每一维特征F_i，从特征集合中求其K近邻，即求与F_i距离最近的K个特征，并求F_i与其K近邻之间的平均距离D_i。

②找出具有最小D_i值的那一维特征，记作F^*，即：

$F^{*} = \underset{F_{i}}{\arg \min (D_{i})} - - - (6)$

③保留F^*，并将F^*的K个最近邻特征从特征集合中删除；

④判断是否满足min(D_i)>ε，满足则输出特征选择后的特征集合，否则转入①。其中， ε是为平均距离D_i设定的下限阈值。

步骤二联合SVM分类器C₁、SVM分类器C₂寻找高置信度样本，组成高置信度样本集S；

图4给出了联合SVM分类器C₁、SVM分类器C₂寻找高置信度样本，进而组成高置信度样本集S的流程框图。从前述SVM分类器的原理可见，距离当前分类面越远的样本其分类置信度越高，因此设定一个阈值，将距离分类面距离大于阈值的未标注样本作为高置信度样本，进而组成高置信度样本集。设SVM分类器C₁、SVM分类器C₂的高置信度样本集分别记为高置信度样本集S₁、高置信度样本集S₂，则：

S₁＝{x_i|x_i∈U,d₁(x_i)＞Th₁} （7）

S₂＝{x_i|x_i∈U,d₂(x_i)＞Th₂} （8）

其中，Th₁、Th₂分别是SVM分类器C₁、SVM分类器C₂的距离阈值。d₁(x_i)、d₂(x_i)分别表示样本x_i到SVM分类器C₁、SVM分类器C₂所确定的分类面的距离。根据SVM原理可得样本x_i到分类面的距离求算公式如下：

d(x_i)＝|f(x_i)| （9）

＝|w^Tφ(x_i)+b|

在确定了SVM分类器C₁的高置信度样本集S₁和SVM分类器C₂的高置信度样本集S₂后，SVM 分类器C的高置信度样本集S如下确定：

S＝{x_i|y₁(x_i)＝y₂(x_i),且x_i∈(S₁S₂)} （10）

其中，y₁（x_i）、y₂（x_i）分别表示用SVM分类器C₁、SVM分类器C₂对样本x_i进行分类时所得到的类标签，类标签是通过公式（5）得到的，i为自然数。由公式（10）可见，高置信度样本集S中的样本是从高置信度样本集S₁和高置信度样本集S₂的交集中挑选的那些满足 SVM分类器C₁、SVM分类器C₂的分类结果一致的样本。时域SVM分类器C₁和频域SVM分类器 C₂的分类结果一致，这能在一定程度上保证样本的分类置信度。此外，由于高置信度样本集 S₁、高置信度样本集S₂中分别包含了时域SVM分类器C₁和频域SVM分类器C₂的高置信度样本，所以，高置信度样本集S₁、高置信度样本集S₂交集中的样本无论是从时域的角度来看，还是从频域的角度来看，都是高置信度样本，因而从高置信度样本集S₁、高置信度样本集S₂交集中选取样本能进一步保证样本的置信度。

在生成了高置信度样本集S后，高置信度样本集S₁、高置信度样本集S₂中的其它未被选入高置信度样本集S中的样本应从高置信度样本集S₁、高置信度样本集S₂中移除，并重新放回未标注样本集U中。

步骤三将高置信度样本集S中的样本由机器自动标注后放入已标注样本集L中；

由机器自动标注是指由机器为样本赋予预测类标签。由于在步骤二中已经由SVM分类器C₁、SVM分类器C₂对样本进行分类，得到了预测类标签y₁、预测类标签y₂,而且高置信度样本集S中的样本，其类标签y₁等于类标签y₂,所以，这里给样本赋予的预测类标签就是指y₁ 或y₂。

步骤四用更新的已标注样本集L重新训练SVM分类器C；

正如步骤一中的第4）部分所述，训练SVM分类器C的样本提取的是时域和频域特征，并做了特征选择，因此，在将高置信度样本集S中的样本加入到已标注样本集L中后，应当对更新的已标注样本集L中的样本提取时域和频域特征，然后根据步骤一的第4）部分所述的特征选择方法进行特征选择，最后再用更新的已标注样本集L重新训练SVM分类器C。

步骤五根据停止准则判断是退出循环还是继续迭代；

由于本发明提出的半监督学习是以训练SVM分类器C为目的，所以这里以SVM分类器C 的收敛性作为停止准则。设第t-1次迭代后和第t次迭代后，SVM分类器C的分类性能分别为P_t-1和P_t，则SVM分类器C的分类性能变化率为：

$η_{t} = | \frac{P_{t} - P_{t - 1}}{P_{t}} | - - - (11)$

停止准则可以表述为：设定阈值δ，当连续5次迭代的η_t值都小于δ时，则判别SVM 分类器C收敛，因此退出循环，输出训练好的SVM分类器C。如果不满足上述停止条件，则将高置信度样本集S中的样本分别加入已标注样本集L₁、已标注样本集L₂中，并用更新的已标注样本集L₁、已标注样本集L₂分别重新训练SVM分类器C₁、SVM分类器C₂，然后转入步骤二，进入下一轮迭代。

由于SVM分类器C₁、SVM分类器C₂是分别基于时域特征和频域特征的，所以在将高置信度样本集S中的样本加入到已标注样本集L₁时应重新提取时域特征，同样地，在加入到已标注样本集L₂时应重新提取频域特征。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种时频联合的支持向量机半监督学习方法 [P] . 中国专利： CN103177267B . 2017.02.08
2. 一种时频联合的支持向量机半监督学习方法 [P] . 中国专利： CN103177267A . 2013-06-26
3. Semi-supervised topic model learning device, semi-supervised topic model learning method and program [P] . 日本专利： JP5499361B2 . 2014-05-21

机译：半监督主题模型学习装置，半监督主题模型学习方法和程序
4. SEMI-SUPERVISED TOPIC MODEL LEARNING DEVICE, SEMI-SUPERVISED TOPIC MODEL LEARNING METHOD AND PROGRAM [P] . 日本专利： JP2012022509A . 2012-02-02

机译：半监督主题模型学习装置，半监督主题模型学习方法和程序
5. SUPPORT VECTOR MACHINE LEARNING SYSTEM AND SUPPORT VECTOR MACHINE LEARNING METHOD [P] . 美国专利： US2017039487A1 . 2017-02-09

机译：支持向量机学习系统及支持向量机学习方法