距离度量学习中的类别不平衡问题研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

距离度量学习学习样本之间的距离度量，为估计样本相似性提供更可靠的依据。很多经典的分类算法如k近邻、以及聚类算法如层次聚类等都非常依赖样本之间的距离度量方式，因此，距离度量学习是机器学习和数据挖掘中一类很重要的学习问题。在现实世界中类别不平衡问题普遍存在，类别不平衡问题是指各个类别的样本数差异明显，某些类别样本数远远小于其他类别，小类别是关注的重点，重要性大。距离度量学习也会遭遇到类别分布不平衡的情况。距离度量学习算法通常通过优化某个距离度量损失函数，得到新的距离度量方式。但是当类别不平衡时，由于小类别的样本数少，在已有的距离度量学习算法中对学习过程的影响较小，导致算法通常会关注大类样本而忽略小类样本距离度量的准确性。然而，在类别不平衡问题中，小类样本重要性更高，距离度量学习应该更关注小类样本距离度量学习的准确性。目前尚无对距离度量学习中类别不平衡问题的研究。
　　本文针对距离度量学习中的类别不平衡问题进行研究，主要取得了以下成果:
　　(1)以LMNN算法为基础，提出考虑类别不平衡性的距离度量学习算法IMLMNN算法。此方法是一种有监督的距离度量学习算法，在距离度量学习算法LMNN的基础上处理类别不平衡性带来的问题，优化加权的距离度量损失函数，样本权重与其所在类别的样本数成反比。因此IMLMNN使得小类具有更高的权重，小类样本的距离度量带来的损失在学习过程中的影响就更大，导致小类样本距离度量的准确性更高。
　　(2)由于在距离度量学习阶段仅使得小类的距离度量更准确，而没有改变小类样本集的大小，所以在基于度量学习的分类任务中仍要考虑类别分布的不平衡性。因此，在分类阶段使用考虑类别不平衡性的改进的kNN算法IMKNN算法进行分类。IMKNN是一种加权的kNN算法，近邻样本加权投票进行决策，样本权重与其所在类别的样本数成反比。
　　此外IMLMNN算法在学习到距离度量的基础上使用INNN方法进行分类，也可以看做是一种新型的类别不平衡学习方法。此方法既适用于两类问题，又适用于多类问题。
　　在多个两类和多类数据集上的实验结果表明，IMLMNN算法和kNN、PNN、IMKNN、LMNN算法相比，G-mean、F-measure、AUC值均有明显提升，这说明该算法使小类样本的距离度量更准确。本文提出的算法可以看做是一种类别不平衡学习方法，在二类问题上将其与几种流行的类别不平衡学习算法进行了对比，结果表明其有效性。

著录项

作者
刘江涛;
展开▼
作者单位

东南大学;

展开▼
授予单位东南大学;
学科计算机技术
授予学位硕士
导师姓名张敏灵,刘胥影;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
数据挖掘; 距离度量学习; 类别不平衡; 小类样本;

相似文献

中文文献
外文文献
专利

1. SVDD在类别不平衡学习中的应用 [J] . 缪志敏 ,胡谷雨 ,丁力 . 应用科学学报 . 2008,第001期
2. 基于类别不平衡数据联邦学习的设备选择算法 [J] . 王惜民 ,范睿 . 计算机应用研究 . 2021,第010期
3. 深度学习框架下类别不平衡数据情感分析 [J] . 张志武 ,薛娟 ,陈国兰 . 现代情报 . 2021,第010期
4. 数据集类别不平衡性对迁移学习的影响分析 [J] . 程磊 ,吴晓富 ,张索非 . 信号处理 . 2020,第001期
5. 面对类别不平衡的增量在线序列极限学习机 [J] . 左鹏玉 ,周洁 ,王士同 . 智能系统学报 . 2020,第003期
6. 类别不平衡性对代价敏感学习的影响 [C] . 刘胥影 ,姜远 ,周志华 . 中国人工智能学会第12届全国学术年会 . 2007
7. 类别不平衡学习方法及其在Android恶意应用检测中的应用 [A] . 庞颖 . 2019

距离度量学习中的类别不平衡问题研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅