面向不均衡数据集中少数类样本细分的过采样算法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在数据挖掘研究中，分类问题一直是备受研究学者关注的方向。传统的分类算法对样本类别分布均衡的数据集进行分类往往能够取得较好的分类效果。但在实际应用中，通常数据集的类别分布不平衡，即当数据集中某一类别样本的数目明显多于其他类别样本时，传统的分类算法往往不能够很好的对这种数据集分类。由于不均衡数据集中，各个少数类样本相对于决策边界的分布各不相同，且越靠近决策边界的样本越易被错分，对分类器而言便更具有学习的价值，因此，本文提出面向少数类样本细分的过采样算法，按照少数类样本相对于决策边界的分布差异，将少数类样本集划分为多个细分，再对不同细分做不同的过采样处理，更加合理有效地达到多数类与少数类均衡的目的。本文学习了已有的经典过采样算，总结分析各自的优点与不足，并以面向少数类样本的细分为基础，提出如下改进：
　　1.少数类样本相对于决策边界的分布具有差异性，经典过采样算法通常并未对它们做区别处理，或者仅处理部分样本的信息。本文按照少数类样本的 k近邻分布，将其划分至DANGER、AL_SAFE、SAFE三个细分中，对不同细分中的样本使用不同的采样策略进行处理，有效的利用不同细分的所有少数类样本信息；
　　2. AL_SAFE细分中样本依然靠近决策边界，但数量较多，因此需要减少在原本少数类样本分布稠密的区域的采样数量，增大稀疏区域采样数量。少数类样本的 k近邻中，同类样本数越多，表示其支持度越高，选择概率越小。利用轮盘赌进行选择，使得采样范围分布更加均匀。上述两步称之为SD-ISMOTE算法。
　　3.上述算法在对已有少数类样本细分后，仅从细分级别的粒度进行过采样操作，细分内部样本分布不均衡的情况并未处理。为此，使用 K-均值聚类方法对每个细分聚类，形成若干个簇再从簇的级别进行过采样，合理确定每个细分中的每个簇的采样数量，以此解决细分内部样本分布不均衡的问题；
　　4.在对AL_SAFE细分样本处理过程中，由于使用已有的采样策略仅能在初始点间的距离为半径的球体内采样，不能更大限度将决策边界向多数类方向推移。因此，增大采样随机因子，使得新样本的分布范围更靠近决策边界。以上两步称之为SD-ISMOTE2算法。
　　从 UCI数据集中选取不均衡数据分类常用的数据集用于实验验证，通过实验结果可以得出，改进的算法能够获得较好的分类性能。

著录项

作者
杨炀;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机软件与理论
授予学位硕士
导师姓名古平;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
不均衡数据集; 决策边界; 样本细分; 数据挖掘; 过采样算法;

相似文献

中文文献
外文文献
专利

1. 面向不均衡数据集中少数类细分的过采样算法 [J] . 古平 ,杨炀 . 计算机工程 . 2017,第002期
2. 基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法 [J] . 霍玉丹 ,谷琼 ,蔡之华 . 计算机应用 . 2015,第001期
3. 面向不平衡数据分类的最近邻三角区域合成少数类过采样技术 [J] . 刘丹 ,王晓兰 ,邢胜 . 科学技术与工程 . 2018,第028期
4. 不均衡数据集文本分类中少数类样本生成方法研究 [J] . 杜娟 ,姜丽丽 ,陈红丽 . 计算机应用研究 . 2009,第010期
5. 不均衡数据集中KNN分类器样本裁剪算法 [J] . 景永霞 ,苟和平 ,冯百明 . 科学技术与工程 . 2013,第016期
6. 加权合成少数类过采样技术在故障诊断中的应用 [C] . WANG Jian ,王健 ,FENG Jian . 第九届全国技术过程故障诊断与安全性学术会议 . 2014
7. 面向不平衡样本分类的过采样集成学习算法研究 [A] . 齐常青 . 2019

面向不均衡数据集中少数类样本细分的过采样算法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅