首页> 中文学位 >类别不平衡与代价敏感数据的集成分类方法研究
【6h】

类别不平衡与代价敏感数据的集成分类方法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景与意义

1.2 本文组织结构

1.3 本文主要研究内容与创新点

第2章 相关知识与理论

2.1 分类概述

2.1.1 分类技术

2.1.2 欠拟合和过拟合

2.2 类别不平衡分类问题概述

2.2.1 类别不平衡分类问题的定义与难点

2.2.2 类别不平衡分类问题的研究现状与常用解决方法

2.3 代价敏感分类问题概述

2.3.2 代价敏感问题的研究现状与常用解决方法

2.4 类别不平衡问题与代价敏感问题的联系

2.5 本章小结

第3章 基于重采样技术的集成学习研究

3.1.1 刀切法和自助法

3.1.2 重采样技术在类别不平衡和代价敏感数据中的应用

3.2 集成学习

3.2.1 Boosting

3.2.2 Bagging

3.2.3 不平衡数据的集成分类方法

3.3 xEnsemble算法

3.3.1 基本原理

3.3.2 XGBoost

3.3.3 算法分析

3.4 RSEnsemble算法

3.4.1 基本原理

3.4.2 随机子空间算法

3.4.3 算法分析

3.5 本章小结

第4章 实验设计与结果分析

4.1 评价标准

4.2 实验环境

4.3 数据集及预处理

4.3.1 数据集简介

4.3.2 数据清洗

4.3.3 缺失值处理

4.3.4 数据变换

4.3.5 特征工程

4.3.6 生成样本

4.4 不同类别比例和错分代价对分类影响

4.4.1 实验目的与设计

4.4.2 实验结果与分析

4.4.3 实验结论

4.5 采样子集数量、采样方式以及特征子集规模对分类影响

4.5.1 实验目的与设计

4.5.2 实验结果与分析

4.5.3 实验结论

4.6 类别不平衡和代价敏感数据集分类

4.6.1 实验目的

4.6.2 实验设计

4.6.3 实验结果与分析

4.6.4 实验结论

4.7 本章小结

第5章 总结与展望

5.1 本文研究内容总结

5.2 进一步的工作

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

随着大数据时代的来临,机器学习作为现代数据分析技术的理论基石,发挥了至关重要的作用,同时也面临着大大小小的挑战。分类问题作为机器学习领域最基本最核心的问题之一,持续受到学术界的热切关注。传统的分类算法一般基于两个假设:一是不同类别的样本数量大致相同;二是不同类别的错分代价基本相等。然而在真实世界中,数据集往往存在类别不平衡问题和代价敏感问题,这使得基于准确率的传统分类算法变得不再适用。类别不平衡指的是不同类别的样本数量分布不平衡;代价敏感指的是不同类别的错误分类代价相差很大。在类别不平衡的数据集中,传统分类算法为了获得较高准确率,倾向于错分少数类样本,然而这些少数类样本往往更加重要;在代价敏感的数据集中,传统分类算法对错误分类代价不敏感,无法最小化错误分类总代价。
  由于类别不平衡问题和代价敏感问题在现实中的普遍性和重要性,国内外学术界对此展开了广泛而深入的研究,并提出了各种各样的解决方法。经过归纳总结,这些方法大致从两个层面来解决问题:一是从数据层面,通过重构训练集改变样本分布,典型的是采用重采样技术;二是从算法层面,通过重新设计现有算法使之适应这两个问题,典型的是代价敏感学习和基于Boosing的方法。在这些方法中,集成学习扮演了举足轻重的角色。经过十几年的研究,该领域已经取得了十分瞩目的成就,但是仍然存在一些问题,比如过拟合,丢失信息等,影响了分类模型的稳定性和可靠性。
  本文针对类别不平衡问题和代价敏感问题,做了以下两点工作:
  提出两种基于重采样的集成分类方法:xEnsemble和RSEnsemble。首先介绍这两种方法的理论基石,然后对现有算法进行改进,最后分别从偏差-方差分解、误差-分歧分解的角度,理论上证明这两种方法的有效性。
  将xEnsemble和RSEnsemble方法应用于真实的糖尿病诊断数据集。该数据集规模庞大,高度类别不平衡且代价敏感。首先明确实验的评价标准,然后对该数据集进行预处理,最终实验结果证明:相比其他类似方法,这两种方法能够取得更好的分类效果。

著录项

  • 作者

    魏勋;

  • 作者单位

    中国科学技术大学;

  • 授予单位 中国科学技术大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 (蒋)凡;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    机器学习; 类别不平衡; 代价敏感; 集成分类;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号