一种基于样本空间的类别不平衡数据采样方法

张永清; 卢荣钊; 乔少杰; 韩楠; GUTIERREZ Louis Alberto; 周激流

首页> 中文期刊>自动化学报 >一种基于样本空间的类别不平衡数据采样方法

一种基于样本空间的类别不平衡数据采样方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

不平衡数据是机器学习中普遍存在的问题并得到广泛研究,即少数类的样本数量远远小于多数类样本的数量.传统基于最小化错误率方法的不足在于:分类结果会倾向于多数类,造成少数类的精度降低,通常还存在时间复杂度较高的问题.为解决上述问题,提出一种基于样本空间分布的数据采样方法,伪负样本采样方法.伪负样本指被标记为负样本(多数类)但与正样本(少数类)有很大相关性的样本.算法主要包括3个关键步骤:1)计算正样本的空间分布中心并得到每个正样本到空间中心的平均距离;2)以同样的距离计算方法计算每个负样本到空间分布中心的距离,并与平均距离进行比较,将其距离小于平均距离的负样本标记为伪负样本;3)将伪负样本从负样本集中删除并加入到正样本集中.算法的优势在于不改变原始数据集的数量,因此不会引入噪声样本或导致潜在信息丢失;在不降低整体分类精度的情况下,提高少数类的精确度.此外,其时间复杂度较低.经过13个数据进行多角度实验,表明伪负样本采样方法具有较高的预测准确性.

著录项

来源
《自动化学报》|2022年第10期|2549-2563|共15页
作者
张永清; 卢荣钊; 乔少杰; 韩楠; GUTIERREZ Louis Alberto; 周激流;
展开▼
作者单位

成都信息工程大学计算机学院;

电子科技大学计算机科学与工程学院;

成都信息工程大学软件工程学院;

成都信息工程大学管理学院;

伦斯勒理工学院计算机科学系;

展开▼
原文格式 PDF
正文语种 chi
中图分类计算技术、计算机技术;
关键词
不平衡数据; 样本空间; 机器学习; 采样方法; 空间中心;
入库时间 2022-12-05 17:43:47

相似文献

中文文献
外文文献
专利

1. 一种基于级联模型的类别不平衡数据分类方法 [J] . 刘胥影 ,吴建鑫 ,周志华 . 南京大学学报：自然科学版 . 2006,第2期
2. 一种基于SMOTE的不平衡数据集重采样方法 [J] . 张天翼 ,丁立新 . 计算机应用与软件 . 2021,第9期
3. 一种基于样本学习复杂度的不平衡数据过采样方法 [J] . 许皓 ,孙廷凯 . 计算机与数字工程 . 2020,第8期
4. 基于遗传算法的一种不平衡数据集采样方法GSA [J] . 张巡 ,黎平 ,刘萍 . 贵州科学 . 2018,第002期
5. 一种改进过采样算法在类别不平衡信用评分中的应用 [J] . 邵良杉 ,周玉 . 计算机应用研究 . 2019,第6期
6. 一种基于临床大数据评估中医类别执业医师业务能力的方法 [C] . 黄玲 ,陈菊 ,程小恩 . 第三届中国中医药民族医药信息大会 . 2016
7. 一种改进的不平衡数据集过采样方法及其并行算法研究 [A] . 高阳 . 2021

一种基于样本空间的类别不平衡数据采样方法

摘要

著录项

相似文献

相关主题

期刊订阅