基于核主成分和高维距离的密度聚类算法研究及应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

聚类分析旨在根据某种相似性度量将无序、混杂的数据进行划分聚集成不同的簇，是大数据时代下智能化分析不可分割的重要组成部分。然而高维数据的特殊性和维度灾难的出现，导致传统聚类算法不再能高效地处理数据，因此本文对高维聚类展开研究。　　首先，阐述了高维数据的特点，并论述其对传统相似性度量造成的影响。针对这一问题，分析了各种高维数据的邻近度度量函数，讨论不同度量函数的作用和特点，利用不同维度的数据集进行k-means聚类对比，结合聚类结果得出最优距离度量函数。其次，阐述现存的几种基于降维的高维聚类技术，比较不同降维技术的优点和适用数据类型。最后根据以上研究本文提出了一种基于核主成分分析(KPCA)降维和改进高维距离(Gsimi)的基于密度的KGDBSCAN聚类算法及其应用。　　本文利用UCI数据库中不同维度的数据集来验证KGDBSCAN聚类算法的实际效果，并与传统的DBSCAN聚类算法进行比较。实验结果表明，在高维空间中，改进后的聚类算法在三种维度下的准确度都最高，有效地提高了聚类的质量和结果。同时将改进后的聚类算法应用到实际问题中，利用某广电网络运营公司收集的客户收视信息和电视产品数据进行聚类分析。首先将原始数据通过预处理计算形成用户观看频率和用户点播频率两个维度高达上百的数据表，通过KPCA技术对处理后的数据集降维，并对其运用Gsimi函数计算相似度并进行DBSCAN聚类，聚类形成四种不同类型的用户和两种不同类型的节目。然后对不同类型的用户和节目进行特征分析，对比总结不同类型用户的收看行为和收视偏好，最后结合聚类结果从历史行为、相似节目推荐、同类用户收看、综合推荐等角度给出个用户性化电视产品推荐方案示例，实验结果验证了改进后的高维聚类算法的有效性和可行性。

著录项

作者
黄琳洁;
展开▼
作者单位

暨南大学;

展开▼
授予单位暨南大学;
学科应用统计
授予学位硕士
导师姓名侯雅文;
年度 2019
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
聚类算法,高维数据,邻近性度量,KPCA降维,DBSCAN算法;

相似文献

中文文献
外文文献
专利

1. 基于维度距离的混合属性密度聚类算法研究 [J] . 吴天虹 ,黄德才 ,翁挺 . 浙江工业大学学报 . 2009,第004期
2. 基于核函数的高维离散数据聚类算法研究与应用 [J] . 叶福兰 . 贵阳学院学报（自然科学版） . 2018,第003期
3. 基于核函数的高维离散数据聚类算法研究与应用 [J] . 叶福兰 . 长春工程学院学报（自然科学版） . 2018,第003期
4. 基于加权主成分距离聚类的江苏省环境质量评价 [J] . 陈军飞 ,陈琳 . 资源开发与市场 . 2018,第010期
5. 基于二维属性的高维数据聚类算法研究 [J] . 游芳 ,姜建国 ,张坤 . 计算机技术与发展 . 2009,第005期
6. 基于聚类的核主成分分析方法在地震属性降维中的应用 [C] . 熊伟 ,万忠宏 ,张红英 . 中国地球物理学会第二十七届年会 . 2011
7. 基于变量聚类的主成分Lasso降维算法研究 [A] . 许赟娟 . 2020

基于核主成分和高维距离的密度聚类算法研究及应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅