首页> 中文学位 >多类类别不平衡学习研究
【6h】

多类类别不平衡学习研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 两类类别不平衡学习

1.1.1 问题分析

1.1.2 评价准则

1.1.3 研究现状

1.2 本文主要工作

1.3 本文组织结构

第二章 多类类别不平衡学习

2.1 问题分析

2.2 评价准则及其讨论

2.3 多类分类算法简介

2.4 多类类别不平衡学习算法简介

2.5 本章小结

第三章 多类类别不平衡学习算法

3.1 EasyEnsemble.M算法

3.2 ChunkCombine算法

3.3 本章小结

第四章 实验对比

4.1 实验设置

4.2 对比结果及分析

4.2.1 各算法性能比较

4.2.2 EasyEnsemble.M算法的实验分析

4.2.3 ChunkCombine算法的实验分析

4.3 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

致谢

参考文献

在校期间发表的学术论文

展开▼

摘要

类别不平衡问题是指各个类别的样本数差异明显,某些类别样本数远远小于其他类别,小类别是关注的重点。但标准分类算法假设所有样本的重要性相同,以最大化正确率为目标,往往忽略小类样本。以往的大多数研究针对两类类别不平衡问题并取得了显著成果,但现实世界中多类类别不平衡问题普遍存在,与两类类别不平衡问题相比,数据分布更加多样化,概念复杂度更高,因此面临更大的挑战。目前,多类类别不平衡学习正在成为领域的研究热点。
  本文针对多类类别不平衡问题进行研究,主要取得了以下成果:
  (1)分析了多类类别不平衡问题的困难,讨论了多类类别不平衡学习的性能评价准则,研究发现Macro-averaged F-measure值相比于多类的G-mean和MAUC更关注大类样本,因此在多类问题中需谨慎使用;对多类类别不平衡学习算法进行了综述;
  (2)为了避免随机下采样算法忽略潜在有用的大类样本信息的缺点,提出了基于集成学习的EasyEnsemble.M算法。利用对大类的多次独立随机采样获取更多的大类信息,并结合集成学习提高了分类器的性能;
  (3)在EasyEnsemble.M算法的基础上,为了更加充分利用大类样本信息提出了ChunkCombine算法。该算法采用无放回的随机采样获得多个不重复的大类样本子集,与EasyEnsemble.M算法相比涵盖了更多的大类信息,而且不同数据块的组合提高了集成学习中的弱分类器的多样性,进一步提高了泛化性能。
  本文共五章。第一章介绍本文工作的研究背景,包括类别不平衡问题介绍,两类类别不平衡学习简介。第二章针对多类类别不平衡问题,分析了困难本质,介绍并讨论了性能评价准则,总结了以往的学习算法。第三章提出了多类类别不平衡学习算法EasyEnsemble.M和ChunkCombine。第四章进行了实验比较。第五章是论文工作的总结与展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号