首页> 中国专利> 基于图聚类标签传播的集成多分类器融合分类方法和系统

基于图聚类标签传播的集成多分类器融合分类方法和系统

摘要

一种基于图聚类标签传播的集成多分类器融合分类方法,包括:使用训练样本训练基本分类器,对训练样本和测试样本进行多次聚类,得到多种聚类划分状态;根据聚类划分状态进行标签传播,得到测试样本的聚类类别标签;所有聚类划分状态和基本分类器上述步骤处理,得到测试样本的聚类类别信息集合;将聚类类别信息和基本分类器的分类信息共同构成集成分类器的决策矩阵,并根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数以控制其在融合中的限制范围,根据分类融合目标方程将待分类样本的聚类类别信息和基本分类器的预测标签信息使用BGCM法进行融合分类,得到最终的类别标签。本发明在样本存在差异时,分类准确率高。

著录项

  • 公开/公告号CN103605990A

    专利类型发明专利

  • 公开/公告日2014-02-26

    原文格式PDF

  • 申请/专利权人 江苏大学;

    申请/专利号CN201310502891.6

  • 发明设计人 毛启容;胡素黎;王丽;詹永照;

    申请日2013-10-23

  • 分类号G06K9/66(20060101);G06K9/00(20060101);

  • 代理机构32230 江苏致邦律师事务所;

  • 代理人樊文红

  • 地址 212013 江苏省镇江市京口区学府路301号

  • 入库时间 2024-02-19 22:23:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-02-08

    授权

    授权

  • 2014-03-26

    实质审查的生效 IPC(主分类):G06K9/66 申请日:20131023

    实质审查的生效

  • 2014-02-26

    公开

    公开

说明书

技术领域

本发明属于分类领域,特别涉及一种基于图聚类标签传播的集成多分类器融合分类方法 和系统。

背景技术

在实际分类情况下,存在待分类样本和训练样本之间具有分布差异的情况。由于待分类 样本和训练样本之间存在聚类误差,常用分类器无法克服样本之间差异性以达到对待分类样 本的准确分类。

在模式分类中,单一分类器一般是从某一角度对样本的属性进行描述,待分类样本与训 练样本之间存在分布差距时,容易出现分类误差。多分类器集成分类方法是指将多个分类器 联合起来达到最优分类的方法,如现有技术中主要是由多分类器的预测标签进行融合得到待 分类样本的类别标签,待分类样本与训练样本存在分布差距时,分类器得到的预测标签存在 误差,导致最终的分类准确率低。再如聚类集成分类方法中,现有技术中根据训练样本的聚 类划分分别训练分类器,该类方法的聚类误差容易导致分类误差。为了避免以上研究中的问 题,本发明弥补现有聚类集成分类方法中因样本聚类误差而导致分类准确率低的问题,使用 待分类样本的聚类信息和基本分类器的预测标签集合进行分类融合以提高分类准确率。

发明内容

本发明使用多种基本分类器和多种聚类划分共同推断样本类别信息。在样本之间存在聚 类误差的情况下,可以克服训练样本得到的基本分类器的分类误差,充分利用了样本聚类划分, 避免聚类误差影响分类准确率。本发明结合基本分类器和聚类划分的分类方法解决现有集成分 类器在样本存在差异时分类准确率低的问题。

本发明提供了一种基于图聚类标签传播的集成多分类器融合分类方法,从而得到样本类 别标签的方法,包括以下步骤:

步骤1使用训练样本训练基本分类器,对训练样本和测试样本进行多次聚类,得到多种 聚类划分状态;

步骤2根据训练样本和测试样本的聚类划分状态进行标签传播,得到测试样本的聚类类 别标签CCI;

步骤3所有聚类划分状态和基本分类器经过步骤1和步骤2处理,得到测试样本的聚 类类别信息集合;将聚类类别信息和基本分类器的分类信息共同构成集成分类器的决策矩阵, 根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数,以 便于限制参数在融合中的限制范围;

步骤4根据分类融合目标方程,将待分类样本的聚类类别信息和基本分类器的预测标签 信息使用二分图最大共识法进行融合分类,得到最终的类别标签。

进一步的,上述步骤2,具体包括:对测试样本进行语音信号预处理和特征提取;对训 练样本和测试样本进行聚类划分,获得聚类划分状态;使用基本分类器对测试样本进行预分 类,得到测试样本的预分类结果;使用基于图的近邻标签传播方法,得到测试样本的聚类类 别标签CCI。

进一步的,上述第一方面中的所述使用基于图的近邻标签传播方法,得到测试样本的聚 类类别标签CCI,具体包括:

根据聚类划分对测试样本建立近邻关系图G和标签图LG,其中,近邻关系图G为: G(xi,xj)=w(xi,xj),如果xi和xj在同一簇中且互为近邻,w(xi,xj)=(1+dist(xi,xj))-1,其中 dist(xi,xj)表示样本xi,xj之间的距离,否则w(xi,xj)=0;标签图LG为: LG(xi)=l,l=label(xi)l∈[0...num];根据待分类样本的近邻样本的类别标签计算类别相似值 以推断其聚类类别标签;若无法得到聚类类别标签则此时待分类样本的近邻样本大多数均为 无标签的待分类样本,此时利用此待分类样本的最大近邻子集和基本分类器的分类结果计算 类别相似值推断其在此聚类情况下的类别信息。

本发明实施例还提供了一种基于图聚类标签传播的集成多分类器融合分类的系统,包括 训练模块和分类模块,其中,

训练模块,用于使用训练样本训练基本分类器,对训练样本和测试样本进行多次聚类, 得到多种聚类划分状态;以及根据训练样本和测试样本的聚类划分状态进行标签传播,得到 测试样本的聚类类别标签CCI;

分类模块,用于所有聚类划分状态和基本分类器经过训练模块的处理,得到测试样本的 聚类类别信息集合;将聚类类别信息和基本分类器的分类信息共同构成集成分类器的决策矩 阵,根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数, 以便于限制参数在融合中的限制范围;以及根据分类融合目标方程,将待分类样本的聚类类 别信息和基本分类器的预测标签信息使用二分图最大共识法进行融合分类,得到最终的类别 标签。

进一步的,上述训练模块,具体用于对测试样本进行语音信号预处理和特征提取;对训 练样本和测试样本进行聚类划分,获得聚类划分状态;使用基本分类器对测试样本进行预分 类,得到测试样本的预分类结果;以及使用基于图的近邻标签传播方法,得到测试样本的聚 类类别标签CCI。

进一步的,上述使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI, 具体包括:

根据聚类划分对测试样本建立近邻关系图G和标签图LG,其中,近邻关系图G为: G(xi,xj)=w(xi,xj),如果xi和xj在同一簇中且互为近邻,w(xi,xj)=(1+dist(xi,xj))-1,其中 dist(xi,xj)表示样本xi,xj之间的距离,否则w(xi,xj)=0;标签图LG为: LG(xi)=l,l=label(xi)l∈[0...num];根据待分类样本的近邻样本的类别标签计算类别相似值 以推断其聚类类别标签;若无法得到聚类类别标签则此时待分类样本的近邻样本大多数均为 无标签的待分类样本,此时利用此待分类样本的最大近邻子集和基本分类器的分类结果计算 类别相似值推断其在此聚类情况下的类别信息。

本发明有益的效果是:本发明针对待分类样本与训练样本存在分布差异时,集成多分类 方法中聚类和分类器两方面存在的分类准确率低的问题,发明基于图聚类标签传播方法和系 统,得到与基本分类器和聚类划分相对应的聚类类别信息,然后将聚类类别信息和基本分类 器组成集成分类器,对聚类类别信息和分类器信息使用修改参数的融合方法以提高分类准确 率。弥补现有基本分类器对分布存在差距的样本的分类准确率低的问题,充分利用样本的聚 类划分和基本分类器的分类结果以达到对待分类样本类别属性的全面描述,构建一个比较完 备的集成分类器实现对待分类样本的准确分类。将本方法应用于语音情感分类,对6类情感 的分类准确率提高至73.89%,比支持向量机(SVM,Support Vector Machine)提高了3.33%, 在多维特征样本上本方法比二分图最大共识法(BGCM,Bipartite Graph Consensus  Maximization)的平均分类准确率提高8.33%,比使用有标签样本的BGCM的分类准确率提 高了1.11%

附图说明

图1是本发明基于图聚类标签传播的集成多分类器融合分类方法的流程图;

图2是本发明应用于语音情感分类的分类准确率以及与其它方法的分类准确率对比图;

图3是本发明基于图聚类标签传播的集成多分类器融合分类系统的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明,应指出的是,所描述的实施例仅旨在便 于对本发明的理解,而对其不起任何限定作用。

本发明提供的基于图聚类标签传播的集成多分类器融合分类方法,可以应用在如下场景: 在进行语音情感分类时,采用的情感语音库包括6类典型情感:高兴,伤心,惊讶,生气,害 怕,厌恶。语音库由10个非专业演职人员(5男5女)录制,对每种情感每人各录制12句长 度与内容均不同的情感语料。采样率为11025Hz,对每种情感每人各录制12句长度与内容均不 同的情感语料。语音库中共有720个样本,实验采用五倍交叉验证法,每类情感抽取90个样 本共540个样本作为训练样本,剩余180作为测试样本。如图1所示,基于图聚类标签传播的 集成多分器融合分类方法对语音情感分类主要分为三个阶段:训练阶段、聚类标签传播阶段、 融合分类阶段,以下分别给出这三个阶段的具体的实施方式。

1、训练阶段,此阶段根据训练样本训练建立基本分类器,分3步:

101,语音信号的预处理:这一步是采用传统的语音信号预处理方法对情感语音信号进行 预处理,包括端点检测、预加重、分帧、加窗处理。

102,特征提取:语音帧的特征提取包括基频、时长、强度、美尔倒谱系数、共振峰等语 音的声学与韵律学特征。共提取了101维语音情感特征。

103,训练基本分类器,这里的基本分类器可采用诸如SVM、OVA分类器(One-Vs-All), GMM(Gaussian Mixture Model)以及HMM(Hidden Markov Model)之类的各种统计模型作为基 本分类器。

2、聚类标签传播阶段,此阶段根据训练样本和测试样本的聚类划分进行标签传播,得 到测试样本的聚类类别标签(CCI,cluster class information)。

聚类标签传播阶段的具体过程可以包括:

201,测试样本首先经过语音信号预处理,该过程同训练阶段的语音信号预处理101过程。

202,测试样本的特征提取,该过程同训练阶段的特征提取102过程,

203,样本的聚类划分,该过程包括:将全部样本使用聚类方法进行聚类,得到全部样本 的聚类划分,其中,全部样本包括训练样本和测试样本,聚类方法可以有多种,如k-means 或FCM(Fuzzy-C-Means)、LSC(Landmark-based Spectral Clustering)。

204,使用基本分类器f对测试样本进行预分类,得到测试样本的预测集合f_pre。

205,使用基于图的近邻标签传播方法(GBCP,Graph Based Cluster label Propagation)得到 测试样本的聚类类别标签(CCI)。

2051,建立近邻关系,具体的:根据聚类划分对测试样本建立近邻关系图G,标签图LG。

近邻关系图为:如果xi和xj在同一簇中且互为近邻, w(xi,xj)=(1+dist(xi,xj))-1,其中dist(xi,xj)表示样本xi,xj之间的距离;否则w(xi,xj)=0。

标签图LG为:LG(xi)=l,l=label(xi)l∈[0...num]。

2052,确定测试测试样本的可能类别近邻集合。

测试样本xi首先进行OVA预分类,首先将最大决策值devalue值对应类别放入xi可能类 别集合set中,然后将devalue>0对应的类别放入set,且set中类别唯一。 set={cl1,cl2...clm},0<m<num。OVA分类方法中共有num个OVA分类器,其中单一类别为正类, OVA分类中所有决策值大于0的类别都是xi可能的类别。xi的近邻样本为 g(xi)={g|g=G(xi,xj),g(xi,xj)>0且LG(xj)∈set}其对应的类别标签为lg(xi),将g(xi)按照值降序 排序,同时对lg(xi)排序。

2053,近邻标签传播。

对lg(xi)中所有样本按类别按公式1分别计算类别相似值f(i,c),表示数据xi与c类近 邻数据的相似性。

f(xic)=1/n×Σc=lg(xi,xj)s(xi,xj|c)×g(xi,xj)×exp(-gammaΣxjc(xj-xi)p),c{0}set---(1)

其中n表示在g(xi)中属于类c的样本总数,p等于2。s(xi,xj|c)表示基本分类器对样本 的分类情况,定义如公式(2)。

s(xi,xj|c)=1ifxjclassifiedcorrectandc{0}set+1else>0---(2)

公式(2)中,加大了被分类器错误分类的训练样本的值,以此降低待分类样本因分类 误差而导致标签传播的误差。最后取最大相似值对应的类别c作为其聚类类别标签。

CCI(xi)=c,LG(xi)=c。

2054,标签确立

假设xi的近邻样本中与其他未标记的待分类样本相似,此时无法得到xi的聚类类别标签。 此时可以借助无标签样本之间共有近邻样本的类别信息推断此xi的聚类类别标签。则xi聚类 类别标签为0时,取g(xi)前n个近邻{gi,1,gi,2,...gi,n1},并对它们进行近邻扫描得到 (g(xi),g(gi,1),g(gi,2),...g(gi,n1))总共有n+1个近邻样本集合,统计集合中的最大近邻子集V,计 算pre(V)∪CCI(V)集合中所有类别样本的相似值(包括无标签类别即c=0),将得最大相似性 类别c(不为0)作为其聚类类别标签,CCI(xi)=c。

3、融合分类阶段

301,将第一阶段得到的r个基本分类器M1,...,Mr和第二阶段得到的m-r个聚类分类信息 CCIr+1,....,CCIm,分别按照类别初始化分组信息,得到其中每个都将样本划分成c组,共有v=mc 个分组g1,...gv,其中s=rc个来自基本分类器,剩余v-s个是聚类类别信息。

302,定义基本分类器每个分组的限制范围参数,其定义如下表示:

kj=10<jsλs<jv,0<λ<1---(3)

表示在融合过程中s个分类器分组起限制作用,聚类类别信息的限制作用比分类器的限 制作用小。

303,融合目标方程如公式(4)所示:

F=minQ,U(Σi=1nΣj=1vaij||ui-qj||2+Σj=1vaikj||qj-yj||2+βΣi=1nhi||ui-fi||2)---(4)

s.tui·>0,|ui·|=1,i=l:nqj·>0,|qj·|=1,j=l:v

其中An×v,aij=1如果xi被划分到gj中,否则为0;Un×c,表示xi被分类 成Z类的概率;Qv×c,表示gi被分为Z类的概率;yjz=1是基本分类器分 类为Z概率,否则yjz=0。α,β为限制参数,定义如下:

αi=Nfi,correctNfi,all+1i=1:sNfci,correctNfci,all+2i=s+1:v

其中Nfi,all和Nfci,all分别表示使用分类器和CCI分类的样本总数,Nfi,correct,Nfci,correct分别表示 其正确分类的样本个数。

当融合过程中不使用有标签样本辅助融合时,则β=0;否则,当使用部分有 标签样本用来提高分类准确率时为BGCM标记为BGCM_L(Bipartite Graph Consensus  Maximization-Label)算法,此时β≠0,fiz=1有标签样本xi的类别标签为类别Z。BGCM算 法通过优化目标方程,得到所有样本xi的预测类别U。

通过上述分类方法,本发明与各种BGCM融合分类方法进行分类准确率对比,对每类情 感的分类准确率如表1所示,可以看出利用本发明的方法,对每类情感的分类准确率是比较 高的。其中BGCM(180)是在180个测试样本上使用BGCM的分类方法;BGCM和BGCM_L 分别是指在720个全部样本集合上分别使用BGCM和部分测试样本参与的BGCM融合分类 方法;GBCP_1是指在全部样本集合上使用通过GBCP方法得到的CCI的BGCM分类方法; GBCP_2是GBCP_1在融合时候使用了部分有标签测试样本参与BGCM融合的分类方法; GBCP_BGCMxg_L是指本发明的分类方法。

表1各方法对每种情感的分类准确率(%)

将本发明的分类方法与其他方法在多维特征样本上做分类准确率对比,其中96维特征是 使用序列浮动前向选择(SFFS,Sequential Floating Forward Selection)方法选择得到的,遗传算 法选出43维特征。聚簇个数为6时,不同特征维数的测试样本的分类准确率如表2所示:

表2不同特征维数分类准确率对比(%)

如图3所示,本发明还公开了一种基于图聚类标签传播的集成多分类器融合分类的系 统,包括训练模块31和分类模块32,其中,

训练模块31,用于使用训练样本训练基本分类器,对训练样本和测试样本进行多次聚 类,得到多种聚类划分状态;以及根据训练样本和测试样本的聚类划分状态进行标签传播, 得到测试样本的聚类类别标签CCI;

分类模块32,用于所有聚类划分状态和基本分类器经过训练模块31的处理,得到测试 样本的聚类类别信息集合;将聚类类别信息和基本分类器的分类信息共同构成集成分类器的 决策矩阵,根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程 的参数,以便于限制参数在融合中的限制范围;以及根据分类融合目标方程,将待分类样本 的聚类类别信息和基本分类器的预测标签信息使用二分图最大共识法进行融合分类,得到最 终的类别标签。

进一步的,上述训练模块31,具体用于对测试样本进行语音信号预处理和特征提取; 对训练样本和测试样本进行聚类划分,获得聚类划分状态;使用基本分类器对测试样本进行 预分类,得到测试样本的预分类结果;以及使用基于图的近邻标签传播方法,得到测试样本 的聚类类别标签CCI。

进一步的,上述使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI, 具体包括:根据聚类划分对测试样本建立近邻关系图G和标签图LG,其中,近邻关系图G 为:G(xi,xj)=w(xi,xj),如果xi和xj在同一簇中且互为近邻,w(xi,xj)=(1+dist(xi,xj))-1,其中 dist(xi,xj)表示样本xi,xj之间的距离,否则w(xi,xj)=0;标签图LG为: LG(xi)=l,l=label(xi)l∈[0...num];根据待分类样本的近邻样本的类别标签计算类别相似值 以推断其聚类类别标签;若无法得到聚类类别标签则此时待分类样本的近邻样本大多数均为 无标签的待分类样本,此时利用此待分类样本的最大近邻子集和基本分类器的分类结果计算 类别相似值推断其在此聚类情况下的类别信息。

上面描述仅是本发明的一个具体实施例,显然在本发明的技术方案指导下本领域的任何 人所作的修改或局部替换,均属于本发明权利要求书限定的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号