基于粗糙集的特征选择高效算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

数据挖掘是指使用一定的机器学习算法从获取到的大规模数据中发现有用信息的过程，是人工智能领域中一个重要的研究方向。目前，随着网络技术与database技术的日渐成熟，各行各业中获得到的信息正呈现着指数级的增长态势，尤其在大数据背景下，数据集的规模和高维度为传统的数据挖掘技术带来了前所未有的挑战，探索高效可行的数据挖掘技术已成为一个亟待解决的关键问题。
　　特征选择是数据挖掘中一种常用的数据预处理技术，探索面向大规模数据集的更为高效的特征选择处理技巧，也已经成为特征选择研究中一个研究热点和难点。为此，本文以粗糙集理论为背景，针对面向大规模数据集的高效特征选择进行了分析和研究，并取得了以下的研究成果:
　　1、通过借鉴粗糙集理论中的部分核心概念，基于信息熵理论，提出了一种面向数据集中数据取值动态更新的特征选择算法，可一次处理一组取值发生变化的数据.该算法中通过分析并证明互补信息熵随数据取值动态更新的变化机理，并借鉴了粗糙集理论中属性约简的求解策略，设计了一种基于互补熵的高效特征选择算法。实验分析和结果进一步验证了该算法的有效性。
　　2、面向数据挖掘中“少量标记问题”，借助于半监督学习的思想，提出了一种基于聚类假设的半监督特征选择算法.算法利用有标记数据作为种子，采用聚类算法对未标记数据进行聚类并赋标签，选取每一类无标签数据中的部分数据作为无标签数据代表与原有标记数据组成新的数据集，以信息熵作为特征重要度的度量，给出了基于聚类假设的半监督粗糙特征选择算法.实验结果进一步验证了新算法的可行性和高效性.
　　本文通过分析大数据背景下，现有特征选择技巧处理大规模高维数据集的局限性，以粗糙集理论为背景，提出了一种面向动态数据集的高效特征选择算法和一种面向少量标记数据集的半监督特征选择算法。相关的理论证明和实验结果分析也都表明了本文中新算法的可行性和高效性。因此，本文的主要研究内容和成果为面向大规模数据集的降维技术提供了可以借鉴的处理技巧和新思路。

著录项

作者
张娇鹏;
展开▼
作者单位

山西大学;

展开▼
授予单位山西大学;
学科系统工程
授予学位硕士
导师姓名梁吉业;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
数据挖掘; 特征选择; 粗糙集; 信息熵; 半监督学习;

相似文献

中文文献
外文文献
专利

1. 一种基于相容粗糙集的特征选择算法研究 [J] . 焦娜 . 漳州师范学院学报（自然科学版） . 2014,第001期
2. 一种基于相容粗糙集的特征选择算法研究 [J] . 焦娜 . 闽南师范大学学报：自然科学版 . 2014,第001期
3. 基于邻域粗糙集的莆田地区肺癌特征选择 [J] . 沈林 ,陈金清 ,胡建雄 . 廊坊师范学院学报：自然科学版 . 2021,第002期
4. 基于邻域粗糙集的莆田地区肺癌特征选择 [J] . 沈林 ,陈金清 ,胡建雄 . 廊坊师范学院学报（自然科学版） . 2021,第002期
5. 基于样本和特征搜索空间不断缩小的模糊粗糙集特征选择 [J] . 杨燕燕 ,张晓 ,李翔宇 . 重庆邮电大学学报（自然科学版） . 2021,第005期
6. 基于粗糙集和禁忌搜索的特征选择方法 [C] . 顾成杰 ,张顺颐 ,刘凯 . 江苏省电子学会2010年学术年会 . 2010
7. 基于粗糙集的多标签特征选择算法研究 [A] . 李雨晨 . 2021

基于粗糙集的特征选择高效算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅