首页> 中文学位 >距离度量学习中的类别不平衡问题研究
【6h】

距离度量学习中的类别不平衡问题研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 课题的研究背景及意义

1.2 相关工作

1.3 本文主要研究内容

1.4 本文组织结构

第二章 距离度量学习

2.1 距离度量学习概况

2.1.1 距离度量学习的定义

2.1.2 距离度量学习的一般意义

2.2 常见的距离度量学习算法

2.3 待研究问题

2.4 本章小结

第三章 类别不平衡学习

3.1 问题分析

3.2 评价准则

3.2.1 两类问题评价准则

3.2.2 多类问题评价准则

3.3 研究现状

3.3.1 两类问题研究现状

3.3.2 多类问题研究现状

3.4 本章小结

第四章 IMLMNN算法

4.1 问题分析

4.2 算法介绍

4.3 本章小结

第五章 实验结果以及分析

5.1 实验设置

5.2 实验结果及分析

5.2.1 两类实验结果

5.2.2 多类实验结果

5.3 与类别不平衡方法的比较

5.4 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

致谢

参考文献

附录

展开▼

摘要

距离度量学习学习样本之间的距离度量,为估计样本相似性提供更可靠的依据。很多经典的分类算法如k近邻、以及聚类算法如层次聚类等都非常依赖样本之间的距离度量方式,因此,距离度量学习是机器学习和数据挖掘中一类很重要的学习问题。在现实世界中类别不平衡问题普遍存在,类别不平衡问题是指各个类别的样本数差异明显,某些类别样本数远远小于其他类别,小类别是关注的重点,重要性大。距离度量学习也会遭遇到类别分布不平衡的情况。距离度量学习算法通常通过优化某个距离度量损失函数,得到新的距离度量方式。但是当类别不平衡时,由于小类别的样本数少,在已有的距离度量学习算法中对学习过程的影响较小,导致算法通常会关注大类样本而忽略小类样本距离度量的准确性。然而,在类别不平衡问题中,小类样本重要性更高,距离度量学习应该更关注小类样本距离度量学习的准确性。目前尚无对距离度量学习中类别不平衡问题的研究。
  本文针对距离度量学习中的类别不平衡问题进行研究,主要取得了以下成果:
  (1)以LMNN算法为基础,提出考虑类别不平衡性的距离度量学习算法IMLMNN算法。此方法是一种有监督的距离度量学习算法,在距离度量学习算法LMNN的基础上处理类别不平衡性带来的问题,优化加权的距离度量损失函数,样本权重与其所在类别的样本数成反比。因此IMLMNN使得小类具有更高的权重,小类样本的距离度量带来的损失在学习过程中的影响就更大,导致小类样本距离度量的准确性更高。
  (2)由于在距离度量学习阶段仅使得小类的距离度量更准确,而没有改变小类样本集的大小,所以在基于度量学习的分类任务中仍要考虑类别分布的不平衡性。因此,在分类阶段使用考虑类别不平衡性的改进的kNN算法IMKNN算法进行分类。IMKNN是一种加权的kNN算法,近邻样本加权投票进行决策,样本权重与其所在类别的样本数成反比。
  此外IMLMNN算法在学习到距离度量的基础上使用INNN方法进行分类,也可以看做是一种新型的类别不平衡学习方法。此方法既适用于两类问题,又适用于多类问题。
  在多个两类和多类数据集上的实验结果表明,IMLMNN算法和kNN、PNN、IMKNN、LMNN算法相比,G-mean、F-measure、AUC值均有明显提升,这说明该算法使小类样本的距离度量更准确。本文提出的算法可以看做是一种类别不平衡学习方法,在二类问题上将其与几种流行的类别不平衡学习算法进行了对比,结果表明其有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号