多类类别不平衡学习研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

类别不平衡问题是指各个类别的样本数差异明显，某些类别样本数远远小于其他类别，小类别是关注的重点。但标准分类算法假设所有样本的重要性相同，以最大化正确率为目标，往往忽略小类样本。以往的大多数研究针对两类类别不平衡问题并取得了显著成果，但现实世界中多类类别不平衡问题普遍存在，与两类类别不平衡问题相比，数据分布更加多样化，概念复杂度更高，因此面临更大的挑战。目前，多类类别不平衡学习正在成为领域的研究热点。
　　本文针对多类类别不平衡问题进行研究，主要取得了以下成果:
　　(1)分析了多类类别不平衡问题的困难，讨论了多类类别不平衡学习的性能评价准则，研究发现Macro-averaged F-measure值相比于多类的G-mean和MAUC更关注大类样本，因此在多类问题中需谨慎使用;对多类类别不平衡学习算法进行了综述;
　　(2)为了避免随机下采样算法忽略潜在有用的大类样本信息的缺点，提出了基于集成学习的EasyEnsemble.M算法。利用对大类的多次独立随机采样获取更多的大类信息，并结合集成学习提高了分类器的性能;
　　(3)在EasyEnsemble.M算法的基础上，为了更加充分利用大类样本信息提出了ChunkCombine算法。该算法采用无放回的随机采样获得多个不重复的大类样本子集，与EasyEnsemble.M算法相比涵盖了更多的大类信息，而且不同数据块的组合提高了集成学习中的弱分类器的多样性，进一步提高了泛化性能。
　　本文共五章。第一章介绍本文工作的研究背景，包括类别不平衡问题介绍，两类类别不平衡学习简介。第二章针对多类类别不平衡问题，分析了困难本质，介绍并讨论了性能评价准则，总结了以往的学习算法。第三章提出了多类类别不平衡学习算法EasyEnsemble.M和ChunkCombine。第四章进行了实验比较。第五章是论文工作的总结与展望。

著录项

作者
李倩倩;
展开▼
作者单位

东南大学;

展开▼
授予单位东南大学;
学科计算机软件与理论
授予学位硕士
导师姓名刘胥影,李必信;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.52;
关键词
类别不平衡问题; 采样算法; ChunkCombine算法; 泛化性能;

相似文献

中文文献
外文文献
专利

1. 多类类别不平衡学习算法：EasyEnsemble . M [J] . 李倩倩 ,刘胥影 . 模式识别与人工智能 . 2014,第002期
2. 基于类别不平衡数据联邦学习的设备选择算法 [J] . 王惜民 ,范睿 . 计算机应用研究 . 2021,第010期
3. 深度学习框架下类别不平衡数据情感分析 [J] . 张志武 ,薛娟 ,陈国兰 . 现代情报 . 2021,第010期
4. 数据集类别不平衡性对迁移学习的影响分析 [J] . 程磊 ,吴晓富 ,张索非 . 信号处理 . 2020,第001期
5. 面对类别不平衡的增量在线序列极限学习机 [J] . 左鹏玉 ,周洁 ,王士同 . 智能系统学报 . 2020,第003期
6. 类别不平衡性对代价敏感学习的影响 [C] . 刘胥影 ,姜远 ,周志华 . 中国人工智能学会第12届全国学术年会 . 2007
7. 改进的类别不平衡学习算法及其分布式研究 [A] . 刘稀文 . 2020

多类类别不平衡学习研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅