首页> 中文学位 >面向不平衡数据集分类的层次引力模型研究
【6h】

面向不平衡数据集分类的层次引力模型研究

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1课题研究背景及意义

1.2本文主要研究内容及创新点

1.3本文组织结构

2 非平衡数据集分类研究综述

2.1非平衡数据集分类的基本问题

2.2非平衡数据集分类的相关研究

2.3非平衡数据集分类的评价指标

2.4本章小结

3 层次分类和数据引力模型

3.1层次分类模型

3.2数据引力模型

3.3本章小结

4 层次引力模型

4.1基本思路

4.2相关概念

4.3层次引力模型

4.4 HDGC学习过程

4.5 HDGC分类过程

4.6本章小结

5 实验结果与结论

5.1不平衡比对分类结果的影响

5.2类内不平衡对结果的影响

5.3不同算法性能比较

5.4 HDGC效率分析

5.5本章小结

6 总结及展望

6.1总结

6.2未来工作

致谢

参考文献

附录

A. 作者在攻读学位期间发表的论文目录

展开▼

摘要

分类是数据挖掘和机器学习领域的一个热点问题,传统的分类问题主要关注数据分布平衡的情况,但是在实际应用当中数据不平衡的情况时有发生。数据的不平衡给分类直接或间接地带来了很多困难,传统的方法在对不平衡数据集进行分类时往往变得不再适用。由于不平衡数据集分类问题的挑战性和在现实中的广泛应用,吸引了越来越多的人对其进行研究。目前对不平衡数据集分类的解决方法主要分三种:问题定义层的解决方法、数据层的解决方法和算法层的解决方法。
  在对不平衡数据集分类中的主要问题进行分析后,该文介绍了两种传统的分类方法,即层次分类模型和数据引力模型,并分析了将它们用于不平衡数据集分类的可行性:将两者结合可以同时降低类间不平衡和小析取项对分类影响。然后在此基础上对两者进行了修改,提出了一种用于不平衡数据集分类的层次引力模型,即HDGC。本文的主要工作如下:
  1.将层次分类模型和数据引力模型相结合,在吸纳两者优点的同时使两者弥补了彼此的不足,即层次分类模型精确分类能力的不足和数据引力模型分类代价较高的问题。
  2.改变了传统层次分类模型中采用新生成样本代替原始样本的做法,将划分后位于同一区域的样本看作一个数据单元,根据数据单元距离边界的远近对其进行不同标记,并使用标记结果辅助分类。
  3.采用了局部引力和全局引力相结合进行分类的方法。局部引力只采用相邻的训练样本对测试样本进行分类,在有足够信息的情况下提高了分类的效率,而使用全局引力则可以利用尽可能多的信息对难分样本进行分类。
  为了验证HDGC算法的有效性,分别在实际数据集和人工数据集上进行了实验,实验结果表明该方法能够很好的处理不平衡数据集的分类问题,同时具有较高的分类效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号