面向高维数据的子空间聚类算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

聚类是数据挖掘的重要研究内容,其中对大规模、高维数据库的聚类分析是研究的热点和难点问题.由于高维数据的稀疏性、空空间现象及维数灾难的影响,高维数据不可能在全维空间密集,于是传统聚类方法不能获得理想效果.针对高维数据聚类方法存在的问题,本文的主要工作如下: 分析了传统聚类算法在处理大规模、高维数据集时遇到的困难和问题.比较了各种降维处理方法的优劣,从原理上论证了子空间聚类算法处理大规模、高维数据集的优势. 在此基础上,进一步对已有子空间聚类算法进行分析,基于Aporiori算法思想的子空间聚类算法在应用中存在一些问题:首先在确定簇的相关维时需要多遍扫描数据库,降低了聚类的时间效率;其次,这些算法都只能对单一数据类型进行处理.关联规则挖掘中频繁模式的发现与簇相关维的确定具有很大的相似性.因此本文提出了一种基于模式树的子空间聚类算法PSC,仅需扫描数据库一遍,大大提高了子空间聚类算法的效率.同时通过扩展簇的定义,将对符号型和数值型数据的聚类整合到一个统一的框架中. 目前大多数聚类算法都是用对象在属性集上的距离来衡量对象相似度.然而距离函数并不总能有效的发现对象之间的联系.事实上距离很远但属性值具有相似变化模式的对象也可能属于一类.基于模式相似度的聚类算法是子空间聚类算法的一种,它能有效发现这一类的簇.但是已有的方法在高维大规模数据库中效率不高,并且对聚类所得的簇质量没有评价.为此本文提出了一个新的算法,该方法应用新的簇质量评价标准来挖掘最优的簇,从而聚类的结果更加有意义,同时应用基于模式树发现簇的相关维方法也有效地提高了算法效率.

著录项

作者
甘杨兰;
展开▼
作者单位

合肥工业大学;

展开▼
授予单位合肥工业大学;
学科计算机软件与理论
授予学位硕士
导师姓名王浩;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
数据挖掘; 子空间聚类; 模式相似度; 聚类算法;

相似文献

中文文献
外文文献
专利

1. 基于可变加权的高维数据子空间聚类算法研究 [J] . 邓莹 ,杨双远 ,刘菡 . 微型机与应用 . 2009,第010期
2. 高维数据的高密度子空间聚类算法 [J] . 万静 ,郑龙君 ,何云斌 . 哈尔滨理工大学学报 . 2020,第004期
3. 基于决策树的网络高维数据软子空间聚类方法研究 [J] . 张勇 ,陈菊 . 现代电子技术 . 2019,第020期
4. 一种基于海量高维数据的软子空间聚类改进算法 [J] . 容会 ,沈江炎 ,韩珂 . 云南民族大学学报（自然科学版） . 2018,第002期
5. 基于子空间聚类的高维数据可视分析方法综述 [J] . 田帅 ,陈谊 . 计算机工程与应用 . 2018,第013期
6. 基于模式树的高维数据快速子空间聚类算法 [C] . 甘杨兰 ,王浩 ,杨静 . 第六届中国Rough集与软计算学术研讨会（CRSSC'2006） . 2006
7. 高维数据子空间聚类算法研究 [A] . 张井 . 2012

面向高维数据的子空间聚类算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅