高维类别数据集的粗糙聚类算法的研究与应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

聚类分析是数据挖掘的重要技术之一，所处理的数据分为数值型、类别型和混合型。针对数值型数据，聚类算法已经取得了非常卓越的成果。而对于类别数据，由于不能进行传统意义上的几何距离计算，所以有很多问题需要解决:比如，设计合理的差异度函数，探求有效的聚类初始化机制。大数据时代出现了高维海量数据，其属性个数达到几十、几百乃至上千个，它们通常具有不完备、不精确、不一致性等特征，传统聚类算法很难满足这些数据的聚类需求，但是，不断丰富的数据带来了更多有价值的信息。如何从高维数据中发掘到有用的信息，已成为当今聚类分析领域最前沿的研究课题;其中，设计高维数据下的“距离”度量成为一项严峻的任务。针对高维聚类，目前最为常见的方法主要有维度约简和子空间聚类。维度约简是解决高维数据聚类分析的特别有效的方法，降维方法主要包括特征变换和特征选择，特征选择是数据挖掘中常见的降维技术。到目前为止，对类别型数据的初始化问题研究较少，如果初始类中心选择的不合理，不仅得不到最佳的聚类簇，还会增加算法的复杂度。特别是高维类别数据，初始类中心的选择尤为重要。目前仍然没有一种被广泛接受的针对类别数据的初始类中心选择算法。因此，为高维类别数据聚类提出一种初始类中心选择算法是非常必要的。经典粗糙集的扩展模型，能够很好地处理不完备的、不精确的、有噪声的数据集。将扩展粗糙集方法运用到高维不完备的数据集的处理中，已经取得了一些很好的聚类算法。
　　本文运用扩展的粗糙集模型----限制容差关系，对高维不完备的类别数据进行特征选择、设计聚类算法，主要工作包括以下两个部分：⑴针对高维类别不完备数据的特征选择:使用限制容差关系扩展粗糙集模型，重新定义信息熵以及条件信息熵，构造基于条件熵的高维类别不完备数据的维度约简算法CEHDAR。⑵基于加权重叠距离和加权平均密度的初始类中心选择算法:在算法中，我们使用限制容差关系的信息熵定义属性重要度，进而定义各属性的权重。在计算对象间的距离和对象的密度时，不同的属性被赋予相应的权重，从而体现不同属性对聚类贡献的不同。实验证明，相比于现有的聚类初始化方法，WDADI算法是最优的。

著录项

作者
邵珠全;
展开▼
作者单位

大连海事大学;

展开▼
授予单位大连海事大学;
学科数学
授予学位硕士
导师姓名桑琳;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类模糊数学;
关键词
高维数据; 模糊数学; 聚类算法; 粗糙集模型;

相似文献

中文文献
外文文献
专利

1. 一种高维数据集的子空间聚类算法 [J] . 乐耀佳 ,许建华 . 南京师范大学学报（工程技术版） . 2009,第003期
2. 基于分治法的高维大数据集模糊聚类算法 [J] . 王宝文 ,阎俊梅 ,刘文远 . 计算机工程 . 2007,第024期
3. 一种大规模高维数据集的高效聚类算法 [J] . 周晓云 ,孙志挥 ,张柏礼 . 应用科学学报 . 2006,第004期
4. 基于邻域粗糙模型的高维数据集快速约简算法 [J] . 刘遵仁 ,吴耿锋 . 计算机科学 . 2012,第010期
5. 基于粗糙集理论的模糊C-means高维数据聚类算法 [J] . 朱付保 ,徐显景 ,白庆春 . 华中师范大学学报（自然科学版） . 2015,第004期
6. 一种基于单调递减阈值函数的高维数据集聚类算法 [C] . 周晓云 ,孙志挥 ,张柏礼 . 第二十二届中国数据库学术会议 . 2005
7. 高维数据集的子空间聚类算法研究 [A] . 周晓云 . 2004

高维类别数据集的粗糙聚类算法的研究与应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅