首页> 中文学位 >基于Fisher判别技术的不平衡数据分类算法研究
【6h】

基于Fisher判别技术的不平衡数据分类算法研究

代理获取

目录

文摘

英文文摘

声明

第一章 绪论

第二章 不平衡数据分类问题介绍

第三章 一种面向单个正例的Fisher 线性判别分类方法

第四章 一种不平衡数据集的核Fisher 线性判别模型

第五章 一种基于抽样方法的不平衡数据的集成学习方法

第六章 结语

参考文献

致 谢

附录

展开▼

摘要

现实世界中数据分类的应用通常会遇到数据不平衡的问题,即数据中的一类样本在数量上远多于另一类,例如欺诈检测和文本分类问题等。其中少数类的样本通常具有巨大的影响力和价值,是我们主要关心的对象,称为正类,另一类则称为负类。正类样本与负类样本可能数量上相差极大,这给训练不平衡数据提出了挑战。传统机器训练算法可能会产生偏向多数类的结果,因而对于正类来说,预测的性能可能会很差。传统分类器的设计都是基于类分布大致平衡这一假设的,如果用这些方法来对不平衡数据进行分类就会导致分类器的性能下降,因而研究用于处理不平衡数据集的分类方法显得相当重要。本文对不平衡问题做了深入的研究,力图在一定程度上解决不平衡数据学习中的若干问题。论文工作的主要成果表现在如下几个方面:
   (1)提出了一种面向单个正例的Fisher线性判别分类方法。该方法先找出单个正例在负类中的k个近邻,然后按照一定规则依次在单个正例和它的各个近邻的连线上产生合成样本,并把这些合成样本添加到原始的正类中,接着用加权Fisher线性分类方法对新的数据集进行训练。同时,为验证算法的有效性,从UCI中选取了8个数据集,对少数类进行测试,实验结果表明该方法可有效地提高少数类的分类性能。
   (2)提出了一种不平衡数据集的核Fisher线性判别模型。首先阐述了核Fisher线性判别的分类机制下,因样本不平衡而导致少数类样本的核协方差矩阵难以估计,从而导致核Fisher线性判别的性能下降。新提出的加权Fisher线性判别方法(WKFLD)试图减小样本不平衡的影响,以此提高少数类的分类性能,实验结果表明提出的算法是有效可行的。
   (3)提出了一种基于不同抽样比例的分类器集成方法。该方法按照不同的比例进行多次欠抽样,并分别用它们对原始数据集进行测试,对其中性能较好的分类器赋予较高的权重,性能较差的赋予较低的权重,最后把这些分类器进行加权线性组合。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号