首页> 中国专利> 一种时频联合的支持向量机半监督学习方法

一种时频联合的支持向量机半监督学习方法

摘要

本发明公开了一种时频联合的支持向量机半监督学习方法,具体步骤为:步骤一:训练初始SVM分类器;步骤二:利用SVM分类器C1,SVM分类器C2寻找高置信度样本,组成高置信度样本集S;步骤三:将高置信度样本集S中的样本由机器自动标注后放入SVM分类器C的已标注样本集L中;步骤四:用更新的已标注样本集L重新训练SVM分类器C;步骤五:根据停止准则判断是退出循环还是继续迭代。本发明联合时域和频域两个特征空间判断样本的置信度,其对样本置信度的判断比传统的基于单一特征空间的判断更加准确;由于对样本置信度的判断更加准确,本发明能减少由于错误标注而引起的分类器分类性能的下降;本发明在用于SVM分类器的训练时大幅度减少人工标注的工作量。

著录项

  • 公开/公告号CN103177267A

    专利类型发明专利

  • 公开/公告日2013-06-26

    原文格式PDF

  • 申请/专利权人 山东师范大学;

    申请/专利号CN201310141198.0

  • 发明设计人 冷严;徐新艳;

    申请日2013-04-22

  • 分类号G06K9/62(20060101);G06F15/18(20060101);

  • 代理机构37221 济南圣达知识产权代理有限公司;

  • 代理人张勇

  • 地址 250014 山东省济南市历下区文化东路88号

  • 入库时间 2024-02-19 19:24:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-04-05

    未缴年费专利权终止 IPC(主分类):G06K9/62 授权公告日:20170208 终止日期:20180422 申请日:20130422

    专利权的终止

  • 2017-02-08

    授权

    授权

  • 2013-07-24

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20130422

    实质审查的生效

  • 2013-06-26

    公开

    公开

说明书

技术领域

本发明涉及机器学习领域,尤其涉及一种时频联合的支持向量机半监督学习方法。

背景技术

分类问题广泛存在于众多学科领域中,比如语音识别、图像识别、音频分类、文本分类 等等。为了得到具有良好分类性能的分类器,通常需要用大量的已标注样本参与分类器的训 练。但是标注样本的获取代价比较昂贵,比如说在语音识别领域,需要以音素为单位进行逐 一标注,标注特别耗费时间和精力。样本的标注代价昂贵使得完全依靠人工标注来实现训练 样本的标注变得不切实际,基于此,半监督学习技术应运而生。半监督学习是一个循环迭代 的过程,其基本思想是:在每轮迭代过程中,寻找分类置信度高的样本由机器自动标注,机 器是指能代替人进行标注工作的软硬件设备,标注后的样本加入训练集中重新训练分类器, 以上过程迭代进行,直至满足停止准则。半监督学习是由机器自动标注,为了防止由于错误 标注而引起的分类性能下降,寻找高置信度的样本成为半监督学习的关键所在。目前已有不 少寻找高置信度样本的相关研究,在以支持向量机(Support Vector Machines,SVM)为训 练模型的半监督学习方法中,现有的算法一般都是在特征提取以后,在此特征空间中判断样 本的置信度,这种在某一特征空间中判断样本置信度的方法一般效果较差,而联合两个甚至 多个特征空间来判断样本的置信度的方法,其对样本置信度的判断会更加准确,因此本发明 联合时域和频域两个特征空间判断样本的置信度,以找到真正高置信度的样本参与训练。

发明内容

本发明的目的就是为了解决上述问题,本发明提供一种时频联合的支持向量机半监督学 习方法,它具有确保样本的高置信度,减少由于错误标注而引起的SVM分类性能下降的优点。

为了实现上述目的,本发明采用如下技术方案:

一种时频联合的支持向量机半监督学习方法,具体步骤为:

步骤一:分别提取已标注样本的时域特征、频域特征、时域和频域特征,并分别训练初 始SVM分类器C1、SVM分类器C2、SVM分类器C;

步骤二:利用SVM分类器C1、SVM分类器C2从未标注样本集U中确定高置信度样本,组 成高置信度样本集S;

步骤三:将高置信度样本集S中的样本由机器自动标注后放入已标注样本集L中,机器 是指能代替人进行标注工作的软硬件设备;

步骤四:对更新的已标注样本集L重新提取时域特征和频域特征,并进行特征选择,重 新训练SVM分类器C;

步骤五:根据停止准则判断是退出循环还是继续迭代,继续迭代则返回步骤二。

所述步骤一的具体步骤为:

(1-1)从总样本集中随机选取一定数量的初始训练样本,人工标注后生成初始已标注样 本集,将此初始已标注样本集分别赋给已标注样本集L1,已标注样本集L2和已标注样本集L;

(1-2)对初始已标注样本集L1中的样本提取时域特征,并用这些样本训练初始SVM分类 器C1

(1-3)对初始已标注样本集L2中的样本提取频域特征,并用这些样本训练初始SVM分类 器C2

(1-4)对初始已标注样本集L中的样本提取时域特征和频域特征,然后进行特征选择, 最后用这些样本训练初始SVM分类器C。

所述步骤四和步骤(1-4)中特征选择的具体步骤为:

(1-4-1)设当前样本共有d维特征,组成特征集合{F1,F2,…,Fd},对特征集合中的每 一维特征Fi,i为自然数,从特征集合中求其K近邻,即求与Fi距离最近的K个特征,并求 Fi与其K近邻之间的平均距离Di,i为自然数;

(1-4-2)比较确定出具有最小Di值的那一维特征,记作F*,即:

F*=argmin(Di)Fi;

(1-4-3)保留F*,并将F*的K个最近邻特征从特征集合中删除;

(1-4-4)判断是否满足min(Di)>ε,若满足则输出特征选择后的特征集合,否则转入 步骤(1-4-1),ε是为平均距离Di设定的下限阈值。

所述步骤二的具体步骤为:

(2-1)假设样本xi到SVM分类器C1、SVM分类器C2的分类面的距离分别为d1(xi)、d2(xi), 则按下式生成SVM分类器C1、SVM分类器C2的高置信度样本集S1、高置信度样本集S2

S1={xi|xi∈U,d1(xi)>Th1}

S2={xi|xi∈U,d2(xi)>Th2}

其中,Th1、Th2分别是SVM分类器C1、SVM分类器C2的距离阈值,U代表未标注样本集;

(2-2)从高置信度样本集S1、高置信度样本集S2的交集中取SVM分类器C1、SVM分类器 C2判别一致的样本组成高置信度样本集S,即:

S={xi|y1(xi)=y2(xi),且xi∈(S1∩S2)}

其中,y1(xi)、y2(xi)分别表示用SVM分类器C1、SVM分类器C2对样本xi进行分类时所得到 的类标签,S1∩S2表示高置信度样本集S1和高置信度样本集S2的交集。

所述步骤五的具体步骤为:

(5-1)设第t-1次迭代后和第t次迭代后,SVM分类器C的分类性能分别为Pt-1和Pt,则 SVM分类器C的分类性能变化率为:

ηt=|Pt-Pt-1Pt|

(5-2)设定SVM分类器C的分类性能变化率阈值为δ,若连续5次迭代的ηt值都小于δ 时,则判别SVM分类器C收敛,因此退出循环,输出训练好的SVM分类器C;

(5-3)若不满足步骤(5-2)的条件,则将高置信度样本集S中的样本分别加入SVM分 类器C1、SVM分类器C2的已标注样本集L1、已标注样本集L2中,并提取更新的已标注样本集 L1中的时域特征、更新的已标注样本集L2的频域特征,重新分别训练SVM分类器C1、SVM分 类器C2,然后转入步骤二,进入下一轮迭代。

本发明的有益效果:

1.本发明联合时域和频域两个特征空间判断样本的置信度,其对样本置信度的判断比传 统的基于单一特征空间的判断更加准确;

2.由于对样本置信度的判断更加准确,因此本发明能减少由于错误标注而引起的分类器 分类性能的下降;

3.本发明提出的半监督学习方法在用于SVM分类器的训练时能够大幅度减少人工标注 的工作量;

4.本发明提出的半监督学习方法的思路并不局限于支持向量机分类器,而是具有很好的 推广性,可以很容易地推广到其它分类器。

附图说明

图1为本发明实施例提出的时频联合的支持向量机半监督学习方法的流程图;

图2为训练初始SVM分类器的结构框图;

图3为特征选择的流程图;

图4为联合SVM分类器C1、SVM分类器C2寻找高置信度样本,进而组成高置信度样本集 S的流程图;

具体实施方式

下面结合附图对本发明作进一步说明。

图1是本发明提出的时频联合的支持向量机半监督学习方法的流程图,具体包括如下5 个步骤:步骤一训练初始SVM分类器;步骤二联合SVM分类器C1,SVM分类器C2寻找高置 信度样本,组成高置信度样本集S;步骤三将高置信度样本集S中的样本由机器自动标注后 放入SVM分类器C的已标注样本集L中;步骤四用更新的已标注样本集L重新训练SVM分类 器C;步骤五根据停止准则判断是退出循环还是继续迭代。下面对每个步骤进行详细说明。

步骤一训练初始SVM分类器

下面首先介绍一下SVM分类器的原理,通过原理的介绍来阐述如何训练SVM分类器,以 及如何用SVM分类器进行分类。

SVM分类器是一种判别式两类分类器,其决策函数可以表达为:

f(x)=wTφ(x)+b      (1)

w和b分别表示权值向量和偏斜量。φ(x)是非线性映射函数,用于将低维空间线性不可分的 样本x映射到高维空间中,使得样本在高维空间中线性可分。f(x)=wTφ(x)+b=0所表示的 超平面即为SVM分类器的分类面。

对于两类分类问题,设在d维空间中有一组训练样本xi∈Rdi=1,…,N,i、N为自然数, 样本的类别标签为yi∈{+1,-1}。SVM分类器就是要寻找一个最优分类面,使得该分类面既能 最大化分类间隔又能正确分类训练样本xi∈Rdi=1,…,N,i为自然数,具体可以表 述为

minω,b,ξ12ωTω+CΣi=1Nξi---(2)

且满足yiTφ(xi)+b)≥1-ξii≥0,i=1,…,N

其中,ξi代表松弛变量;C是惩罚因子,用来控制对松弛变量ξi的惩罚程度;φ(xi)为 样本xi的非线性映射值。通过拉格朗日乘子法求解公式(2)所表达的优化问题可得:

ω=Σi=1Nαiyiφ(xi)---(3)

其中,αi是拉格朗日乘子,yi是样本xi的类别标签,取值为yi∈{+1,-1},i为自然数。公式(3) 中有的αi值会等于0,而αi值不等于0的样本被称之为支持向量,i为自然数。将(3)式代入 (1)式后可将SVM的决策函数重写为:

f(x)=ωTφ(x)+b=Σi=1Mαiyiφ(xi)Tφ(x)+b---(4)

其中,M表示支持向量的个数。φ(xi)Tφ(x)的值可以通过核函数k(xi,x)=φ(xi)Tφ(x)求得, 而不需知道映射函数φ(x)的显式表达式。

对于任一测试样本xtest,将其代入SVM分类器,则其分类标签ytest可由下式得到:

ytest=sgn(f(xtest))      (5)

即f(xtest)>0,则样本xtest属于+1类;f(xtest)<0,则样本xtest属于-1类。

如图2所示,一共要训练SVM分类器C1、SVM分类器C2、SVM分类器C三个初始SVM分类 器,因此步骤一包括以下四部分内容:1)选取初始训练样本,生成初始已标注样本集;分别 命名为已标注样本集L1,已标注样本集L2和已标注样本集L;2)对初始已标注样本集L1中的 样本提取时域特征,并用这些样本训练初始SVM分类器C1;3)对初始已标注样本集L2中的样 本提取频域特征,并用这些样本训练初始SVM分类器C2;4)对初始已标注样本集L中的样本 提取时域特征和频域特征,然后进行特征选择,最后用这些样本训练初始SVM分类器C。

1)选取初始训练样本,生成初始已标注样本集;

为了启动半监督学习的迭代过程,首先需要从整个样本集中选取少量样本进行人工标注, 用人工标注后的样本生成初始已标注样本集,然后用初始已标注样本集训练初始SVM分类器。 本发明采用随机采样的方法选择初始训练样本,即从整个样本集中随机选择一定数量的样本 交由专家人工标注,以生成初始已标注样本集。选择的初始训练样本的数量可以根据标注专 家对初始标注工作量的接受程度确定。

由于本发明中要训练三个分类器:SVM分类器C1、SVM分类器C2、SVM分类器C,所以 将人工标注后的初始训练样本赋给三个已标注样本集,分别用已标注样本集L1、已标注样本 集L2、已标注样本集L表示。整个样本集中除去已标注样本,剩下的未标注样本组成了未标 注样本集,用U表示。

2)对初始已标注样本集L1中的样本提取时域特征,并用这些样本训练初始SVM分类器 C1

为了从时域角度考察样本的置信度,这里首先生成一个基于时域特征的初始SVM分类器 C1。具体来说,首先提取初始已标注样本集L1中样本的时域特征,然后用L1中的初始已标注 样本训练SVM分类器C1

3)对初始已标注样本集L2中的样本提取频域特征,并用这些样本训练初始SVM分类器 C2

为了从频域角度考察样本的置信度,首先提取初始已标注样本集L2中样本的频域特征, 然后用L2中的初始已标注样本训练基于频域特征的初始SVM分类器C2

4)对初始已标注样本集L中的样本提取时域特征和频域特征,然后进行特征选择,最后 用这些样本训练初始SVM分类器C

为了联合时域特征和频域特征训练一个时频联合的分类器,这里同时提取初始已标注样 本集L中样本的时域特征和频域特征。其次,考虑到时域特征和频域特征联合后可能会存在 一定的冗余,因此需要进行特征选择。最后,用特征选择后的样本训练初始SVM分类器C。 这里的SVM分类器C就是本发明实施例提出的半监督学习方法所要训练的SVM分类器,而SVM 分类器C1、SVM分类器C2是用来帮助分类器C寻找高置信度样本的辅助工具。

为了防止特征产生冗余,特征选择采用如图3所示的方法:

①假设当前样本共有d维特征,组成特征集合{F1,F2,…,Fd},对特征集合中的每一维 特征Fi,从特征集合中求其K近邻,即求与Fi距离最近的K个特征,并求Fi与其K近邻之间 的平均距离Di

②找出具有最小Di值的那一维特征,记作F*,即:

F*=argmin(Di)Fi---(6)

③保留F*,并将F*的K个最近邻特征从特征集合中删除;

④判断是否满足min(Di)>ε,满足则输出特征选择后的特征集合,否则转入①。其中, ε是为平均距离Di设定的下限阈值。

步骤二联合SVM分类器C1、SVM分类器C2寻找高置信度样本,组成高置信度样本集S;

图4给出了联合SVM分类器C1、SVM分类器C2寻找高置信度样本,进而组成高置信度样 本集S的流程框图。从前述SVM分类器的原理可见,距离当前分类面越远的样本其分类置信 度越高,因此设定一个阈值,将距离分类面距离大于阈值的未标注样本作为高置信度样本, 进而组成高置信度样本集。设SVM分类器C1、SVM分类器C2的高置信度样本集分别记为高置 信度样本集S1、高置信度样本集S2,则:

S1={xi|xi∈U,d1(xi)>Th1}            (7)

S2={xi|xi∈U,d2(xi)>Th2}            (8)

其中,Th1、Th2分别是SVM分类器C1、SVM分类器C2的距离阈值。d1(xi)、d2(xi)分 别表示样本xi到SVM分类器C1、SVM分类器C2所确定的分类面的距离。根据SVM原理可得样 本xi到分类面的距离求算公式如下:

d(xi)=|f(xi)|      (9)

=|wTφ(xi)+b|

在确定了SVM分类器C1的高置信度样本集S1和SVM分类器C2的高置信度样本集S2后,SVM 分类器C的高置信度样本集S如下确定:

S={xi|y1(xi)=y2(xi),且xi∈(S1S2)}      (10)

其中,y1(xi)、y2(xi)分别表示用SVM分类器C1、SVM分类器C2对样本xi进行分类时 所得到的类标签,类标签是通过公式(5)得到的,i为自然数。由公式(10)可见,高置信 度样本集S中的样本是从高置信度样本集S1和高置信度样本集S2的交集中挑选的那些满足 SVM分类器C1、SVM分类器C2的分类结果一致的样本。时域SVM分类器C1和频域SVM分类器 C2的分类结果一致,这能在一定程度上保证样本的分类置信度。此外,由于高置信度样本集 S1、高置信度样本集S2中分别包含了时域SVM分类器C1和频域SVM分类器C2的高置信度样本, 所以,高置信度样本集S1、高置信度样本集S2交集中的样本无论是从时域的角度来看,还是 从频域的角度来看,都是高置信度样本,因而从高置信度样本集S1、高置信度样本集S2交集 中选取样本能进一步保证样本的置信度。

在生成了高置信度样本集S后,高置信度样本集S1、高置信度样本集S2中的其它未被选 入高置信度样本集S中的样本应从高置信度样本集S1、高置信度样本集S2中移除,并重新放 回未标注样本集U中。

步骤三将高置信度样本集S中的样本由机器自动标注后放入已标注样本集L中;

由机器自动标注是指由机器为样本赋予预测类标签。由于在步骤二中已经由SVM分类 器C1、SVM分类器C2对样本进行分类,得到了预测类标签y1、预测类标签y2,而且高置信度样 本集S中的样本,其类标签y1等于类标签y2,所以,这里给样本赋予的预测类标签就是指y1 或y2

步骤四用更新的已标注样本集L重新训练SVM分类器C;

正如步骤一中的第4)部分所述,训练SVM分类器C的样本提取的是时域和频域特征, 并做了特征选择,因此,在将高置信度样本集S中的样本加入到已标注样本集L中后,应当 对更新的已标注样本集L中的样本提取时域和频域特征,然后根据步骤一的第4)部分所述 的特征选择方法进行特征选择,最后再用更新的已标注样本集L重新训练SVM分类器C。

步骤五根据停止准则判断是退出循环还是继续迭代;

由于本发明提出的半监督学习是以训练SVM分类器C为目的,所以这里以SVM分类器C 的收敛性作为停止准则。设第t-1次迭代后和第t次迭代后,SVM分类器C的分类性能分别 为Pt-1和Pt,则SVM分类器C的分类性能变化率为:

ηt=|Pt-Pt-1Pt|---(11)

停止准则可以表述为:设定阈值δ,当连续5次迭代的ηt值都小于δ时,则判别SVM 分类器C收敛,因此退出循环,输出训练好的SVM分类器C。如果不满足上述停止条件,则 将高置信度样本集S中的样本分别加入已标注样本集L1、已标注样本集L2中,并用更新的已 标注样本集L1、已标注样本集L2分别重新训练SVM分类器C1、SVM分类器C2,然后转入步骤 二,进入下一轮迭代。

由于SVM分类器C1、SVM分类器C2是分别基于时域特征和频域特征的,所以在将高置 信度样本集S中的样本加入到已标注样本集L1时应重新提取时域特征,同样地,在加入到已 标注样本集L2时应重新提取频域特征。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限 制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付 出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号