基于主动半监督学习的不均衡数据集分类问题的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着计算机存储技术和人工智能领域的发展，不均衡的数据集的研究越来越受到研究人员的关注。近年来，机器学习和数据挖掘领域常见的分类方法和采样技术针对传统的类别平衡的数据集有较好的分类效果，在不均衡数据集的条件下，少数类常被误分成多数类。主动学习和半监督学习都是利用少量标记样本和大量未标记样本的学习技术，利用大量未标记样本学习不仅能减小对未标记样本的标记代价，而且可以增强分类器的泛化能力。
　　本文尝试着运用主动学习思想和半监督学习方法相结合，提出了一种主动半监督协同分类算法（ActiveSemi-supervisedLearningCollaborationClassificationAlgorithm，简称ASCC算法）。该算法通过主动学习方法增加已标记样本的数量，满足了Tri-training算法训练所需足够的标记样本数量，从而减少协同训练学习所需要的次数和时间。
　　基于以上提出的方法，本文的主要工作如下:
　　(1)在已知少量的标记样本和大量的未标记样本的数据集的情况下，提出了基于样本KNN分布概率模型的主动学习算法。这种方法利用KNN的思想构造已标记和待标记样本之间的联系，通过这种联系建立概率模型，然后借助于基尼指数的专家评价标准，给出相对可能被标记的待标记样本。
　　(2)针对传统的Tri-training算法在处理不均衡数据集分类的不足，我们在训练样本的抽样、分类器的选择以及在最后的分类器集成方面对Tri-training算法做出了相应改进。通过UCI上不均衡数据验证了改进算法的有效性。
　　(3)针对少量已标记和大量未标记且是不均衡数据集的分类的问题，结合(1)和(2)中的方法，提出了基于改进的Tri-training的主动半监督协同训练学习算法。UCI上的不均衡数据集的实验结果表明，所提出的ASCC算法与以往算法相比有一定的性能提高，且表现出了一定的稳定性。

著录项

作者
曹建国;
展开▼
作者单位

厦门大学;

展开▼
授予单位厦门大学;
学科系统工程
授予学位硕士
导师姓名王颖;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;程序语言、算法语言;
关键词
不均衡数据集; 主动学习; 半监督协同分类; Tri-training算法;

相似文献

中文文献
外文文献
专利

1. 基于集成式均衡电路的电池包主动均衡仿真研究 [J] . 浦金欢 ,程思 . 上海汽车 . 2019,第010期
2. 基于非均衡数据集的代价敏感学习算法比较研究 [J] . 谷琼 ,袁磊 ,熊启军 . 微电子学与计算机 . 2011,第8期
3. 基于主动服务的领域数据集成研究 [J] . 许国艳 ,王志坚 . 微电子学与计算机 . 2008,第9期
4. 基于流挖掘与切换电量的主动均衡算法研究 [J] . 汪光 ,赵理 ,李昆 . 电源技术 . 2022,第1期
5. 基于SOC的动力电池组主动均衡研究 [J] . 刘春辉 ,任宏斌 . 储能科学与技术 . 2022,第2期
6. 基于非均衡数据集的代价敏感学习算法比较研究 [C] . 谷琼 ,袁磊 ,熊启军 . 2011全国开放式分布与并行计算学术年会 . 2011
7. 基于不平衡数据集的分类问题研究 [A] . 张德鑫 . 2020

基于主动半监督学习的不均衡数据集分类问题的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅