首页> 中文学位 >结合先验知识的分类器设计研究
【6h】

结合先验知识的分类器设计研究

代理获取

摘要

分类器设计是模式识别系统的关键环节,其目的在于根据给定的观测或训练数据学习分类规则,实现对未见样本的预测,并达到尽可能好的泛化或推广性能。然而实际应用中可资利用的训练数据数量有限,且往往含有噪声,导致能够正确分类训练数据的分类器未必能在未见或测试数据上获得好的分类推广性能,此时,为提高推广性能,必须在分类器设计中尽可能多地利用与当前分类任务相关的先验知识(或信息)。同时,由著名的“没有免费午餐定理(No FreeLunch Theorem,NFL)”可知,不存在任何一种分类算法具有“与生俱来”的优越性,想要获得“最佳”分类性能,必须结合与特定分类任务相关的先验知识。因此,分类器推广性能=数据+先验知识!本文通过分析发现最常用和有效的基于判别函数的支持向量机(Support VectorMachine,SVM)及其改进算法在一些分类学习任务中并没有充分利用先验知识,性能仍有进一步提升的空间。因此我们尝试在其学习过程中嵌入先验知识以进一步提升其推广性能。本文所结合的先验信息类型包括特征判别能力信息和样本聚类结构信息,所采用的结合方式包括正则化方式和改变模型刻画的方式。本文主要贡献在于:
   1)首次尝试在分类器设计中考虑反映特征判别能力的先验信息,并通过在SVM中结合该信息提出了结合特征判别性的SVM算法FDSVM(Feature Discrimination incorporated SVM)。SVM同等程度地惩罚各特征权值,而FDSVM约束各特征权值的惩罚程度反比于对应的判别能力值,使具有强判别能力的特征在学习过程中被赋予更高的重要性。实验表明,FDSVM能达到优于SVM的推广性能,同时保持相当的计算效率。
   2)通过在AUC-SVM(AUC-maximized SVM)中嵌入样本对的整体聚类结构信息提出了结构嵌入的AUC-SVM算法SAUC-SVM(Structure-embedded AUC-SVM)。一方面,AUC-SVM仅关注与支持向量对相关的数据局部判别信息,忽略了数据分布的全局结构信息。另一方面,通过样本采样技术降低AUC-SVM训练复杂度的策略会进一步导致数据整体分布信息的丢失。而SAUC-SVM通过将数据局部判别信息和全局聚类结构信息相融合弥补了上述不足,进而提升了推广性能。实验表明,SAUC-SVM能达到比AUC-SVM更优的性能,并能保持相当的计算效率。
   3)指出在基于ECOC(Error Correcting Output Codes)的多类分类器设计中,利用多个原有类组成各二类子问题中的“超类”,并将各“超类”视为单个类掩盖了由各原有类所构成的内在结构信息。为此,我们将其嵌入基于ECOC的多类分类器设计中提出改进的多类分类方法。实验表明,改进方法确实能够获得性能提升,从而验证了在基于ECOC的多类分类器设计中利用各原有类结构信息的有效性。
   4)提出修正的聚类假设,并据此提出新的半监督分类算法SSCCM(Semi-SupervisedClassification based on Class Membership)。通过将“相似样本共享相近类标号”的聚类假设修正为“相似样本共享相近类标号隶属度”,SSCCM允许各样本同时属于多个类,对应不同的类标号隶属度。SSCCM返回决策函数和类标号隶属度函数,两者预测结果通常一致,可以相互印证,而不一致结果则可被利用以增强半监督分类学习的可靠性。实验表明,相比于基于聚类假设的半监督分类方法,SSCCM的分类性能具有相当的竞争力,从而验证了修正聚类假设的合理性。
   5)进一步将修正聚类假设应用于大间隔聚类中,发展出软大间隔聚类算法SLMC(Soft LargeMargin Clustering)。SLMC最大化聚类间间隔,并允许各样本以相应的软聚类隶属度同时属于多个聚类,因此结合了大间隔原理和软聚类思想的优点。实验表明,SLMC的性能优于大间隔聚类方法MMC(maximum margin clustering)和典型的模糊聚类方法FCM(Fuzzyc-means)。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号