首页> 中文学位 >基于改进抽样策略的不平衡数据分类方法研究
【6h】

基于改进抽样策略的不平衡数据分类方法研究

代理获取

目录

展开▼

摘要

不平衡数据集在当今社会生活中大量存在,如肺癌病人诊断数据、信用评估数据、网络攻击识别数据等。针对不平衡数据集的分类叫做不平衡分类,传统的分类器以整体分类精度为学习目标,故其在对不平衡数据集进行分类时会更关注多数类样本的特征而忽略少数类样本的信息,导致少数类样本很难被识别出来,但少数类样本往往具有更重要的价值。  现有的对不平衡数据分类的解决方法主要可分为数据、算法、两者结合这三个层面。其中数据层面上的主要方式是通过更改不同类别样本的个数,来平衡数据集中各类别信息,算法层面上的主要方式则是通过增加少数类样本的权重,使分类器对少数类样本的重视程度得到提高。  SMOTE算法是数据层面中的一种过采样方法,主要是在距离相近的少数类样本之间进行线性插值得到新的少数类样本,从而平衡原始数据集。该方法有效解决了随机过采样方法带来的过拟合问题,但仍存在不能区别性地选择少数类样本、生成新样本时忽略近邻中多数类样本信息等不足。因此本文在此基础上提出一种新的过采样方法ReW-SMOTE。相比SMOTE算法,本文提出的方法能够实现有区别性地选择少数类样本并在生成样本时能够利用近邻中多数类样本的信息,提升了生成的少数类样本的质量和多样性。  在来自UCI和KEEL的多个真实不平衡数据集上进行实验,使用AUC、F1、Recall、TNR、Precision、G-Mean六个指标作为评价标准,并与其他重采样方法进行对比,通过实验结果表明ReW-SMOTE方法能有效地解决存在在不平衡数据集中的少数类样本分类困难问题,且该方法对少数类样本的分类相比SMOTE方法和Borderline-SMOTE方法更具准确性和稳定性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号