基于Fisher判别技术的不平衡数据分类算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

现实世界中数据分类的应用通常会遇到数据不平衡的问题，即数据中的一类样本在数量上远多于另一类，例如欺诈检测和文本分类问题等。其中少数类的样本通常具有巨大的影响力和价值，是我们主要关心的对象，称为正类，另一类则称为负类。正类样本与负类样本可能数量上相差极大，这给训练不平衡数据提出了挑战。传统机器训练算法可能会产生偏向多数类的结果，因而对于正类来说，预测的性能可能会很差。传统分类器的设计都是基于类分布大致平衡这一假设的，如果用这些方法来对不平衡数据进行分类就会导致分类器的性能下降，因而研究用于处理不平衡数据集的分类方法显得相当重要。本文对不平衡问题做了深入的研究，力图在一定程度上解决不平衡数据学习中的若干问题。论文工作的主要成果表现在如下几个方面：
　　（1）提出了一种面向单个正例的Fisher线性判别分类方法。该方法先找出单个正例在负类中的k个近邻，然后按照一定规则依次在单个正例和它的各个近邻的连线上产生合成样本，并把这些合成样本添加到原始的正类中，接着用加权Fisher线性分类方法对新的数据集进行训练。同时，为验证算法的有效性，从UCI中选取了8个数据集，对少数类进行测试，实验结果表明该方法可有效地提高少数类的分类性能。
　　（2）提出了一种不平衡数据集的核Fisher线性判别模型。首先阐述了核Fisher线性判别的分类机制下，因样本不平衡而导致少数类样本的核协方差矩阵难以估计，从而导致核Fisher线性判别的性能下降。新提出的加权Fisher线性判别方法(WKFLD)试图减小样本不平衡的影响，以此提高少数类的分类性能，实验结果表明提出的算法是有效可行的。
　　（3）提出了一种基于不同抽样比例的分类器集成方法。该方法按照不同的比例进行多次欠抽样，并分别用它们对原始数据集进行测试，对其中性能较好的分类器赋予较高的权重，性能较差的赋予较低的权重，最后把这些分类器进行加权线性组合。

著录项

作者
尹军梅;
展开▼
作者单位

南京师范大学;

展开▼
授予单位南京师范大学;
学科计算机科学与技术；计算机应用技术
授予学位硕士
导师姓名杨明;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工） ;
关键词
不平衡数据; 分类算法; 线性判别;

相似文献

中文文献
外文文献
专利

1. 基于CPD-SMOTE的类不平衡数据分类算法研究 [J] . 彭如香 ,杨涛 ,孔华锋 . 计算机应用与软件 . 2018 ,第012期
2. 基于IUS和SMOTE结合的不平衡数据随机森林分类算法研究 [J] . 李建 . 金华职业技术学院学报 . 2017 ,第003期
3. 基于随机平衡采样的不平衡数据集分类算法研究 [J] . 袁磊 ,季梦遥 . 海南大学学报（自然科学版） . 2017 ,第003期
4. 基于Boosting的不平衡数据分类算法研究 [J] . 李秋洁 ,茅耀斌 ,王执铨 . 计算机科学 . 2011 ,第012期
5. 基于重采样技术在医学不平衡数据分类中的应用研究 [J] . 闫慈 ,田翔华 ,阿拉依·阿汗 . 中国卫生统计 . 2018 ,第002期
6. 基于重采样技术在医学不平衡数据分类中的应用研究 [C] . 闫慈 ,阿拉依·阿汗 ,张伟文 . 2017年中国卫生统计学学术年会 . -1
7. 基于核函数Fisher判别的数据分类算法研究 [A] . 彭陈松 . 2011

基于Fisher判别技术的不平衡数据分类算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅