首页> 中文学位 >基于粗糙集的特征选择高效算法研究
【6h】

基于粗糙集的特征选择高效算法研究

代理获取

目录

摘要

第一章 引言

1.1 论文的研究目的与意义

1.2 国内外研究现状

1.2.1 动态数据集特征选择研究现状

1.2.2 半监督特征选择研究现状

1.3 论文的主要工作及结果

1.4 论文结构

第二章 粗糙集理论基础知识

2.1 不可区分关系

2.2 三种代表性信息熵

2.3 特征选择

2.4 半监督特征选择

第三章 面向动态数据集的粗糙特征选择算法

3.1 问题描述

3.2 互补熵的动态更新机制

3.3 特征重要度度量

3.4 面向动态数据集的粗糙特征选择算法

3.5 实验分析

3.6 小结

第四章 基于聚类假设的半监督特征选择算法

4.1 聚类分析相关知识

4.2 半监督学习相关内容

4.3 基于聚类假设的半监督特征选择算法

4.4 实验分析

4.5 小结

第五章 结论与展望

参考文献

攻读学位期间取得的研究成果

致谢

个人简况及联系方式

声明

展开▼

摘要

数据挖掘是指使用一定的机器学习算法从获取到的大规模数据中发现有用信息的过程,是人工智能领域中一个重要的研究方向。目前,随着网络技术与database技术的日渐成熟,各行各业中获得到的信息正呈现着指数级的增长态势,尤其在大数据背景下,数据集的规模和高维度为传统的数据挖掘技术带来了前所未有的挑战,探索高效可行的数据挖掘技术已成为一个亟待解决的关键问题。
  特征选择是数据挖掘中一种常用的数据预处理技术,探索面向大规模数据集的更为高效的特征选择处理技巧,也已经成为特征选择研究中一个研究热点和难点。为此,本文以粗糙集理论为背景,针对面向大规模数据集的高效特征选择进行了分析和研究,并取得了以下的研究成果:
  1、通过借鉴粗糙集理论中的部分核心概念,基于信息熵理论,提出了一种面向数据集中数据取值动态更新的特征选择算法,可一次处理一组取值发生变化的数据.该算法中通过分析并证明互补信息熵随数据取值动态更新的变化机理,并借鉴了粗糙集理论中属性约简的求解策略,设计了一种基于互补熵的高效特征选择算法。实验分析和结果进一步验证了该算法的有效性。
  2、面向数据挖掘中“少量标记问题”,借助于半监督学习的思想,提出了一种基于聚类假设的半监督特征选择算法.算法利用有标记数据作为种子,采用聚类算法对未标记数据进行聚类并赋标签,选取每一类无标签数据中的部分数据作为无标签数据代表与原有标记数据组成新的数据集,以信息熵作为特征重要度的度量,给出了基于聚类假设的半监督粗糙特征选择算法.实验结果进一步验证了新算法的可行性和高效性.
  本文通过分析大数据背景下,现有特征选择技巧处理大规模高维数据集的局限性,以粗糙集理论为背景,提出了一种面向动态数据集的高效特征选择算法和一种面向少量标记数据集的半监督特征选择算法。相关的理论证明和实验结果分析也都表明了本文中新算法的可行性和高效性。因此,本文的主要研究内容和成果为面向大规模数据集的降维技术提供了可以借鉴的处理技巧和新思路。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号