首页> 中文学位 >面向不均衡数据集中少数类样本细分的过采样算法的研究
【6h】

面向不均衡数据集中少数类样本细分的过采样算法的研究

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1 研究背景及意义

1.2 研究现状

1.3 本文主要研究内容和创新点

1.4 本文组织结构

1.5 本章小结

2 不均衡数据分类研究基础

2.1 主要研究方向

2.2经典分类算法

2.3 本章小结

3 相关过采样算法

3.1 SMOTE算法

3.2 Borderline-SMOTE算法

3.3 ISMOTE算法

3.4 本章小结

4 面向少数类样本细分的SD-ISMOTE算法及其改进

4.1 面向少数类样本细分的SD-ISMOTE算法

4.2 SD-ISMOTE2算法

4.3 本章小结

5 实验设计与结果分析

5.1 实验环境

5.2 近邻参数k值的选择

5.3聚类参数的选择

5.4 实验结果及分析

5.5 本章小结

6 总结与展望

6.1 论文总结

6.2 研究展望

致谢

参考文献

附录

作者在攻读硕士学位期间发表论文的目录

展开▼

摘要

在数据挖掘研究中,分类问题一直是备受研究学者关注的方向。传统的分类算法对样本类别分布均衡的数据集进行分类往往能够取得较好的分类效果。但在实际应用中,通常数据集的类别分布不平衡,即当数据集中某一类别样本的数目明显多于其他类别样本时,传统的分类算法往往不能够很好的对这种数据集分类。由于不均衡数据集中,各个少数类样本相对于决策边界的分布各不相同,且越靠近决策边界的样本越易被错分,对分类器而言便更具有学习的价值,因此,本文提出面向少数类样本细分的过采样算法,按照少数类样本相对于决策边界的分布差异,将少数类样本集划分为多个细分,再对不同细分做不同的过采样处理,更加合理有效地达到多数类与少数类均衡的目的。本文学习了已有的经典过采样算,总结分析各自的优点与不足,并以面向少数类样本的细分为基础,提出如下改进:
  1.少数类样本相对于决策边界的分布具有差异性,经典过采样算法通常并未对它们做区别处理,或者仅处理部分样本的信息。本文按照少数类样本的 k近邻分布,将其划分至DANGER、AL_SAFE、SAFE三个细分中,对不同细分中的样本使用不同的采样策略进行处理,有效的利用不同细分的所有少数类样本信息;
  2. AL_SAFE细分中样本依然靠近决策边界,但数量较多,因此需要减少在原本少数类样本分布稠密的区域的采样数量,增大稀疏区域采样数量。少数类样本的 k近邻中,同类样本数越多,表示其支持度越高,选择概率越小。利用轮盘赌进行选择,使得采样范围分布更加均匀。上述两步称之为SD-ISMOTE算法。
  3.上述算法在对已有少数类样本细分后,仅从细分级别的粒度进行过采样操作,细分内部样本分布不均衡的情况并未处理。为此,使用 K-均值聚类方法对每个细分聚类,形成若干个簇再从簇的级别进行过采样,合理确定每个细分中的每个簇的采样数量,以此解决细分内部样本分布不均衡的问题;
  4.在对AL_SAFE细分样本处理过程中,由于使用已有的采样策略仅能在初始点间的距离为半径的球体内采样,不能更大限度将决策边界向多数类方向推移。因此,增大采样随机因子,使得新样本的分布范围更靠近决策边界。以上两步称之为SD-ISMOTE2算法。
  从 UCI数据集中选取不均衡数据分类常用的数据集用于实验验证,通过实验结果可以得出,改进的算法能够获得较好的分类性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号