面向高维数据的PCA-Hub聚类方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

传统的聚类分析算法往往可以在低维数据空间中取得不错的聚类效果，然而在高维数据空间中却表现很差，这主要是由高维数据空间中的维数灾难所引起的。维数灾难造成的影响之一是距离集中，Hinneburg和 Aggarwal等人已经对高维数据中的距离集中和无意义的最近邻作了深入的研究。维数灾难造成的另一方面影响是hubness现象，本文将会从这个新的方向进行深入分析。Hubness这一概念最初是在2010年由Milos Radovanovic等人提出的，hubness描述的是这样一种现象：在 k近邻列表中某些对象趋向于高频率地出现在其它对象的最近邻居列表中。Milos Radovanovic等人利用这一属性提出了四种hub聚类分析算法。Hub聚类算法虽然可以在高维数据空间中进行聚类分析，但是它却忽略了高维数据空间中的冗余和噪声数据，从而无法获得更优的簇结构以及更快的聚类收敛速度。
　　本文针对hub聚类分析算法的上述问题，提出了一种基于逆近邻数偏度降维的PCA-Hub聚类分析算法，此算法可以解决高维数据空间中的冗余和噪声数据，并且能够获得更好的簇结构和更快的聚类收敛速度。实验结果表明，PCA-Hub聚类算法相比之前的聚类算法在轮廓系数上平均提高了15％；当数据集的维数或者逆近邻数的偏度较高时，PCA-Hub聚类算法对近邻数k的选择未表现出强烈的相关性；在实验环境和聚类参数一致的情况下，PCA-Hub聚类算法的结果在很大程度上具有一致性。
　　PCA-Hub聚类算法虽然可以很好地解决高维数据空间中的冗余和噪声特征，然而随着数据集样本数和数据集维数的不断增加，PCA-Hub聚类算法的时间复杂度将会变得越来越严重甚至不可接受。因此，本文提出了一种Quick PCA-Hub聚类分析算法从快速搜索前k个理想的主成分来加快PCA-Hub算法的聚类分析速度。实验结果表明，Quick PCA-Hub聚类算法相比之前的聚类算法在轮廓系数上平均提高了8%；Quick PCA-Hub在高维数据空间中搜索理想的前k个主成分时表现出了巨大的优势。
　　最后，本文提出的PCA-Hub方法可以解决hub聚类算法无法处理高维数据空间中冗余和噪声特征的问题，并且从多方面的实验证实了该算法的有效性。针对PCA-Hub聚类算法搜索前k个主成分时间复杂度过高的问题，Quick PCA-Hub聚类算法通过快速搜索前k个主成分解决了该问题，实验结果表明该算法在高维数据空间上具有较好的表现性。

著录项

作者
郎江涛;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机科学与技术
授予学位硕士
导师姓名葛亮;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
高维数据; PCA-Hub聚类; 噪声特征; 逆近邻数; 偏度降维;

相似文献

中文文献
外文文献
专利

1. 面向高维数据的PCA-Hubness聚类方法 [J] . 葛亮 ,郎江涛 ,唐黄 . 现代计算机（专业版） . 2017,第011期
2. 面向高维数据的PCA-Hubness聚类方法 [J] . 葛亮 ,郎江涛 ,唐黄 . 现代计算机：上半月版 . 2017,第004期
3. 一种面向高维数据的密度峰值聚类模型 [J] . 蔡旭芬 ,靳聪 ,胡飞 . 中国传媒大学学报（自然科学版） . 2016,第005期
4. 一种面向GIS系统的高维数据双层聚类方法 [J] . 贺杨成 ,王士同 ,江南 . 微计算机信息 . 2010,第034期
5. 基于决策树的网络高维数据软子空间聚类方法研究 [J] . 张勇 ,陈菊 . 现代电子技术 . 2019,第020期
6. 高维数据聚类中相似性度量方法的研究 [C] . 潘国涛 ,黄德才 . 2011年青年通信国际会议(ICYC2011) . 2011
7. 面向高维数据的聚类算法设计和张量低秩表示研究 [A] . 卓林琳 . 2020

面向高维数据的PCA-Hub聚类方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅