基于全信息熵的高维分类型数据子空间算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

高维数据聚类是数据挖掘领域的重点、难点，特别是高维分类型数据的聚类。数据的稀疏性以及“维度灾难”等因素，使得传统的相似度度量方法在分类型数据之间的相似度都趋于无穷而无法计算，以至于无法对数据进行聚类。大多数分类型数据聚类算法通常是在全空间上来进行传统的相似度的度量，在实际应用中，这对高维分类型数据来说几乎是不可能完成的任务，而利用软子空间聚类方法来对高维数据聚类是最高效的、最实用的方式。高维分类型聚类分析是聚类分析的一个重要的研究分支，已在多个领域得到了很好的应用，诸如文本挖掘，mb挖掘和基因表达等
　　为了解决高维分类型数据的聚类问题，本文结合软子空间聚类的方式，根据高维分类型数据的特征以及特性。本文采用软子空间聚类方法，深入研究分析了信息熵及全信息熵在聚类分析中的应用，提出了一种基于全信息熵的高维分类型数据聚类算法HPCCD。该算法主要分为四个步骤：首先，根据传统的相似度将数据集划分若干子簇，即初始化步骤；接着，搜索特征子空间。由于不同子簇有着不同的特征子空间，所以子空间搜索也是高维数据挖掘领域中的一个挑战性难题。在这一步骤中，我们基于全信息熵理论提出了一种新型的特征子空间的搜索方法：先利用信息熵对属性的重要性进行评估，再利用全信息熵的特性来搜索对于子簇有意义的特征属性，从而达到特征子空间搜索的目的；然后，计算紧凑度及子簇的全并。再次利用全信息熵能够反应子簇的内部特性的性质，并结合权重的分配方法计算两合并子簇的紧凑度。搜索紧凑度最小的子簇的进行子簇合并，从而达到层次聚类的效果。最后，在Zoo, soybean等9个数据集上对提出HPCCD算法仿真实验进行分析，证实了该算法在预测准确率和性能上都有显著提升。

著录项

作者
陈荣波;
展开▼
作者单位

汕头大学;

展开▼
授予单位汕头大学;
学科计算机应用技术
授予学位硕士
导师姓名孙浩军;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息论（信息论的数学理论）;
关键词
高维数据聚类; 数据挖掘; 全信息熵; 数据子空间; 权重分配;

相似文献

中文文献
外文文献
专利

1. 基于混合网格划分的子空间高维数据聚类算法 [J] . 许倡森 . 计算机技术与发展 . 2010,第010期
2. 基于粗糙集的高维分类型数据子空间聚类算法 [J] . 孙浩军 ,游俊斌 ,吴廷发 . 汕头大学学报（自然科学版） . 2012,第004期
3. 基于信息熵的高维数据流子空间聚类方法 [J] . 张俊 . 安徽师范大学学报（自然科学版） . 2015,第001期
4. 基于信息熵的高维稀疏大数据降维算法研究 [J] . 何兴高 ,李蝉娟 ,王瑞锦 . 电子科技大学学报 . 2018,第002期
5. 一种基于压缩策略的高维空间子空间skyline查询算法 [J] . 孟熠 ,刘玉葆 ,李启睿 . 计算机研究与发展 . 2013,第0z1期
6. 一种基于压缩策略的高维空间子空间skyline查询算法 [C] . Meng Yi ,孟熠 ,Liu Yubao . 第30届中国数据库学术会议 . 2013
7. 基于信息熵的高维分类型数据子空间聚类算法研究 [A] . 杜育林 . 2011

基于全信息熵的高维分类型数据子空间算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅