首页> 中文学位 >基于主动半监督学习的不均衡数据集分类问题的研究
【6h】

基于主动半监督学习的不均衡数据集分类问题的研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 选题的背景及意义

1.2 本文主要的研究内容

1.3 本文组织结构

第二章 不均衡数据集的研究现状

2.1 不均衡数据集的特点

2.2 不均衡数据集分类的研究现状

2.2.1 数据层面上的方法

2.2.2 算法层面上的方法

2.2.3 分类置的性能评价指标

2.3 本章小结

第三章 基于样本KNN分布概率模型的主动学习算法

3.1 主动学习

3.1.1 主动学习根据样倒选择的分类

3.1.2 常见的主动学习算法

3.1.3 主动学习和监督学习的比较

3.2 本文的主动学习方法

3.2.1 样本KNN分布的概率模型方法

3.2.2 实验与结果分析

3.3 本章小结

第四章 基于改进Tri-training的半监督学习算法

4.1 半监督学习

4.1.1 按照半监督学习目的分类

4.1.2 按照半监督学习方式分类

4.1.3 半监督学习和主动学习的比较

4.2 本文所改进的半监督学习方法

4.2.1 Tri-training算法的改进

4.2.2 实验与结果分析

4.3 本章小结

第五章 基于主动半监督学习的不均衡数据分类算法

5.1 主动半监督协同训练分类算法

5.2 算法整体描述

5.3 实验及结果分析

5.3.1 实验所用的数据集

5.3.2 实验设置

5.3.3 实验结果与分析

5.4 本章小结

第六章 总结与展望

6.1 论文工作总结

6.2 研究工作展望

参考文献

攻读硕士学位期间发表的学术论文

致谢

展开▼

摘要

随着计算机存储技术和人工智能领域的发展,不均衡的数据集的研究越来越受到研究人员的关注。近年来,机器学习和数据挖掘领域常见的分类方法和采样技术针对传统的类别平衡的数据集有较好的分类效果,在不均衡数据集的条件下,少数类常被误分成多数类。主动学习和半监督学习都是利用少量标记样本和大量未标记样本的学习技术,利用大量未标记样本学习不仅能减小对未标记样本的标记代价,而且可以增强分类器的泛化能力。
  本文尝试着运用主动学习思想和半监督学习方法相结合,提出了一种主动半监督协同分类算法(ActiveSemi-supervisedLearningCollaborationClassificationAlgorithm,简称ASCC算法)。该算法通过主动学习方法增加已标记样本的数量,满足了Tri-training算法训练所需足够的标记样本数量,从而减少协同训练学习所需要的次数和时间。
  基于以上提出的方法,本文的主要工作如下:
  (1)在已知少量的标记样本和大量的未标记样本的数据集的情况下,提出了基于样本KNN分布概率模型的主动学习算法。这种方法利用KNN的思想构造已标记和待标记样本之间的联系,通过这种联系建立概率模型,然后借助于基尼指数的专家评价标准,给出相对可能被标记的待标记样本。
  (2)针对传统的Tri-training算法在处理不均衡数据集分类的不足,我们在训练样本的抽样、分类器的选择以及在最后的分类器集成方面对Tri-training算法做出了相应改进。通过UCI上不均衡数据验证了改进算法的有效性。
  (3)针对少量已标记和大量未标记且是不均衡数据集的分类的问题,结合(1)和(2)中的方法,提出了基于改进的Tri-training的主动半监督协同训练学习算法。UCI上的不均衡数据集的实验结果表明,所提出的ASCC算法与以往算法相比有一定的性能提高,且表现出了一定的稳定性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号