首页> 中文学位 >非平衡数据集分类算法的改进和并行化研究
【6h】

非平衡数据集分类算法的改进和并行化研究

代理获取

目录

第一个书签之前

Abstract

第1章绪 论

1.1引言

1.2国内外研究现状分析

1.2.1 非平衡数据集分类算法的国内外研究现状

1.2.2 基于云平台下非平衡数据集分类算法的国内外研究现状

1.3本文主要内容

1.4论文结构

第2章相关理论

2.1 非平衡数据集分类困难的原因

2.2 数据层面

2.2.1 SMOTE算法

2.2.2 Tomek links算法

2.3 集成学习

2.3.1 AdaBoost算法

2.3.2 Bagging算法

2.4 代价敏感学习

2.5 非平衡数据集的评价标准

2.6 本章小结

第3章基于NKSMOTE算法的非平衡数据集分类方法

3.1 NKSMOTE基本原理及算法

3.1.1 NKSMOTE基本原理

3.1.2 核距离

3.1.3 NKSMOTE算法

3.2 实验设计及性能分析

3.2.1 实验数据集

3.2.2 近邻参数K的选取

3.2.3 高斯核参数σ的选取

3.2.4 NKSMOTE算法性能分析

3.3 本章小结

第4章基于NIBoost算法的非平衡数据集分类方法

4.1 NIBoost基本原理及算法

4.1.1权值更新

4.1.2NIBoost算法

4.2 实验设计及性能分析

4.2.1 实验数据集

4.2.2 NIBoost算法性能分析

4.3 本章小结

第5章 基于MapReduce框架NIBoost算法并行化研究

5.1 Hadoop平台

5.1.1 HDFS分布式存储系统

5.1.2 MapReduce技术简介

5.2 PNIBoost算法设计及性能分析

5.2.1 PNIBoost算法设计

5.2.2 实验数据集

5.2.3 实验环境

5.2.4 性能分析

5.3 本章小结

第6章 非平衡数据集分类系统设计与实现

6.1 系统架构

6.1.1 系统开发环境

6.1.2 系统总体设计

6.2系统模块设计

6.2.1 过采样算法

6.2.2 分类算法

6.2.3 并行分类算法

6.3 本章小结

总结与展望

致 谢

参考文献

攻读硕士学位期间发表的论文及科研成果

展开▼

摘要

非平衡数据集分类是指在数据集中各类样本数目不相等的分类问题。传统的分类算法大多是建立在样本分布均等或者样本错分代价相同的基础之上,因此在处理非平衡数据时较容易出现少数类样本的错分现象。随着互联网的广泛应用,网络中储存的信息量变得相当庞大,同时这些大数据中含有非平衡数据集,为提取信息带来了巨大的挑战。 1. SMOTE(Synthetic Minority Over-sampling Technique)在进行样本合成时只在少数类中求其K近邻,这会导致过采样之后少数类样本的密集程度不变的问题。鉴于此,提出一种新的过采样算法NKSMOTE(New Kernel Synthetic Minority Over-Sampling Technique)。该算法首先利用一个非线性映射函数将样本映射到一个高维的核空间,在核空间上计算少数类样本在所有样本中的K个近邻,然后根据少数类样本的分布对算法分类性能的影响程度,赋予少数类样本不同的向上采样倍率,从而改变数据集的非平衡度。实验分别采用决策树(Decision Tree,简称DT)、误差逆传播算法(error Back Propagation,简称BP)、随机森林(Random Forest,简称RF)作为分类算法。并将几类经典的过采样方法和NKSMOTE方法进行多组对比实验。在UCI数据集上的实验结果表明NKSMOTE算法具有更好的分类性能。 2. 在代价敏感的理论基础上,结合RareBoost算法和GMBoost算法的思想,给出一种将代价敏感思想与过采样技术相结合的非平衡数据分类算法—NIBoost算法。该算法首先在每次迭代过程当中使用过采样算法(NKSMOTE)对数据集进行过采样,然后在该数据集上对分类器进行训练;随后根据分类结果的类标不同分别调整样本的权值。实验分别采用决策树、朴素贝叶斯算法作为弱分类器算法,在UCI数据集上的实验结果表明NIBoost算法在处理非平衡数据分类问题上具有一定的优势。 3. 大数据中存在一定数量的非平衡数据集,通过采用MapReduce并行计算框架,基于NIBoost算法设计并行非平衡数据处理算法PNIBoost,使其在大数据环境下可以较好的对非平衡数据集进行处理。在UCI数据集上进行了实验,实验结果表明该算法在大数据环境下具有良好的并行性能。 4. 构建了基于B/S结构的非平衡数据集分类系统,该系统将本文所提到的过采样算法和分类算法进行了集成,以及为了方便用户对集群的管理,同时提供了集群管理界面。

著录项

  • 作者

    王莉;

  • 作者单位

    西南交通大学;

  • 授予单位 西南交通大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 陈红梅;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    非平衡数据集; 分类算法; 改进;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号