首页> 中文学位 >基于hubness与集成学习的高维不平衡数据分类算法
【6h】

基于hubness与集成学习的高维不平衡数据分类算法

代理获取

目录

声明

第1章 绪 论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 高维数据研究现状

1.2.2 不平衡数据研究现状

1.3 本文研究内容

1.4 本文组织架构安排

第2章 相关研究综述

2.1 高维数据概述

2.1.1 高维数据特点

2.1.2 高维数据处理技术

2.2 高维中的hubness现象

2.2.1 hubness现象

2.2.2 hubs与bad hubs

2.3 Hubness相关算法

2.3.1 基于hubness的聚类算法

2.3.2 基于hubness的模糊分类算法

2.3.3 基于hubness的kNN分类算法

2.3.4 基于hubness的朴素贝叶斯算法

2.4 不平衡数据概述

2.5 不平衡数据处理技术

2.5.1 数据重采样方法

2.5.2 代价敏感方法

2.5.3 集成学习方法

2.6 本章小结

第3章 基于Hubness与过采样的高维不平衡分类算法

3.1 研究动机

3.2 算法思想

3.3 算法流程

3.3.1 原始的AdaBoost算法

3.3.2 基于Hubness的AdaBoost算法

3.3.3 引入过采样SMOTE

3.3.4 HIBoost算法实现过程

3.4 实验研究

3.4.1 实验数据

3.4.2 对比算法

3.4.3 性能评价指标

3.4.4 实验结果与分析

3.4.5 实验参数选取设置

3.5 本章小结

第4章 基于Hubness与欠采样的高维不平衡分类算法

4.1 研究动机

4.2 算法思想

4.3 算法流程

4.3.1 原始的RUSBoost

4.3.2 基于Hubness的RUSBoost算法

4.3.3 引入聚类欠采样

4.3.4 HUBoost算法实现过程

4.4 实验研究

4.4.1 实验结果与分析

4.4.2 实验参数解释与设置

4.5 本章小结

第5章 系统设计与实现

5.1 系统架构设计

5.2 数据收集与数据库设计

5.3 模型训练与迭代

5.4 模型预测接口定义与实现

5.5 前端展示页面设计

5.6 本章小结

结论

参考文献

附录A 攻读硕士学位期间所发表的学术论文目录

致谢

展开▼

摘要

随着数据采集技术的不断发展,实际应用中收集到的数据逐渐呈现规模大、维度高和不平衡的特点。高维不平衡数据学习在许多重要应用中非常普遍,这也对传统的数据挖掘与机器学习算法提出了不小的挑战。现有的方法通常先采用降维技术来处理维数灾难,然后运用传统的类不平衡学习技术来解决类不平衡问题。但是,降维可能造成信息损失问题,而不平衡数据中少数类数据的丢失将更容易导致分类的错误。  Hubness现象是高维空间中的固有现象,即某些样本频繁地(或很少地)作为其它样本的k最近邻居出现。因此,本文考虑从hubness现象入手,针对高维不平衡数据中普遍存在的维度灾难与类不平衡分布这两大问题展开研究,从新的角度来解决数据的高维不平衡问题,论文主要包括以下三个方面的工作:  (1)针对高维空间中学习不平衡问题,提出了一种基于hubness与过采样的集成分类算法HIBoost。该算法考虑了维度灾难中的hubness现象,即高维空间中普遍存在奇异点(hubs和antihubs),这些奇异点频繁(或很少)出现在其他点的k近邻中。对于高维空间产生的hubs和antihubs,算法在权值更新过程中引入了一个影响因子来限制它们的权值增长,从而在训练成员分类器时能够降低过拟合风险。对于类不平衡问题,算法在每次迭代中采用过采样技术(SMOTE)来平衡训练数据,以减轻成员分类器的预测偏差。实验结果表明,HIBoost在主要的评价指标上优于典型的集成分类算法。  (2)针对HIBoost算法在分类器数量较高时所遇到的过拟合和运行开销较大的问题,提出一种基于hubness和聚类采样的集成分类算法HUSBoost。对于高维中普遍存在的hubs,算法在权重更新的过程中为多数类与少数类样本分别引入了不同的权重因子来减缓其权重的过度增长,从而缓解“badhubs”对成员分类器分类决策的负面影响。为了解决类别分布不平衡的问题,算法采用了基于聚类的欠采样方法,即先通过k-hub聚类技术将多数类样本划分为多个聚类,然后从每个聚类中选取具有代表性的多数类样本,以形成均衡的类分布。实验表明,HUSBoost优于几种典型的集成算法。  (3)基于提出的上述两种算法,论文设计并实现了一个轻量级的智能医疗诊断原型系统,主要工作包括架构设计,数据库存储,模型训练与迭代,接口封装等内容,并将其搭载在微信小程序平台上。

著录项

  • 作者

    吴琴;

  • 作者单位

    湖南大学;

  • 授予单位 湖南大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 林亚平,彭一江;
  • 年度 2020
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    数据分类算法,Hubness,类不平衡,集成学习;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号