首页> 中文学位 >面向高维不平衡数据的在线流特征选择方法
【6h】

面向高维不平衡数据的在线流特征选择方法

 

目录

摘要

Abstract

第1章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 在线流特征选择方法研究现状

1.2.2 在线流特征选择存在的挑战

1.2.3 分层特征选择方法研究现状

1.3 主要研究内容

1.3.1 课题来源

1.3.2 主要研究内容

1.4 论文组织结构

第2章 相关工作和理论

2.1 类别层次结构和异类的定义策略

2.2 分层分类常用的评价方法

2.3 在线流特征选择算法

2.4 邻域粗糙集理论

2.5 本章小结

第3章 面向长尾分布数据的在线流特征选择

3.1 引言

3.2 相关知识

3.3 基于邻域粗糙集的长尾分布数据在线流特征选择算法

3.3.1 新的邻域关系

3.3.2 依赖度计算方法

3.3.3 在线特征子集评估方法

3.3.4 算法设计

3.4 实验结果与分析

3.4.1 实验数据

3.4.2 实验结果与分析

3.5 本章小结

第4章 基于层次结构邻域粗糙集的在线流特征选择

4.1 引言

4.2 基于层次结构邻域粗糙集的在线流特征选择算法

4.2.1 自适应邻域关系

4.2.2 在线特征子集评估方法

4.2.3 算法步骤

4.3 实验结果与分析

4.3.1 实验数据集描述和实验设置

4.3.2 结果对比与分析

4.3.3 参数和流特征顺序的影响

4.4 本章小结

第5章 总结与展望

5.1 研究工作总结

5.2 研究工作展望

参考文献

展开▼

摘要

在数据的特征预处理阶段,特征选择是其中的一种重要手段,能够有效的降低训练模型的时间并优化学习的结果。然而现在数据的产生速度相较过去急剧提高,因此特征选择算法面临着严峻挑战:(1)数据特征空间往往呈现出高维性、未知性和演化性,在实际的应用场景中,特征常常是随着时间进入特征空间,难以一次性获得所有的特征,这就要求特征选择具有处理流特征的能力;(2)数据往往伴随着类不平衡的现象;(3)数据类别间往往存在层次结构关系,而不是独立无关的。传统的特征选择已无法很好的处理这类数据。本文在现有的流特征选择方法上,研究其存在的问题和不足,针对不平衡数据,提出了新的流特征选择算法。主要研究内容如下:(1)面向长尾分布数据的在线流特征选择。现有的特征选择算法未考虑类别不平衡,本文考虑不平衡数据的分布情况、特点以及数据间的层次关系,借助数据中的兄弟关系降低数据的不平衡性。通过定义邻域粗糙集模型,借助邻域依赖度和重要度的计算,选择出在稀有类和正常类中具有高可分离性的特征,给出了在线流特征选择算法。通过实验结果显示,证明了所提算法能够较好的处理类别不平衡数据的分类问题。(2)基于层次结构邻域粗糙集的在线流特征选择。现有许多在线流特征选择算法都需要先验知识,在不同的邻域设置一个统一的参数是一个问题。本文定义了面向层次结构数据的自适应邻域粗糙模型。其次还设计了计算特征对标记的层次依赖度,通过计算在线重要度在线冗余度,进行重要特征的动态选择。通过实验证明了算法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
AI论文写作

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号