首页> 中文学位 >基于核主成分和高维距离的密度聚类算法研究及应用
【6h】

基于核主成分和高维距离的密度聚类算法研究及应用

代理获取

目录

声明

1 绪论

1.1 研究背景

1.2国内外研究现状

1.3研究目的与创新点

1.4论文结构

2高维聚类算法研究

2.1 高维数据特点及影响

2.2 高维数据邻近性度量方法研究

2.3 基于降维的高维聚类方法比较研究

3 基于降维和改进距离的DBSCAN算法

3.1 传统DBSCAN算法

3.2 KGDBSCAN算法的提出

3.3 聚类效果比较分析

4 KGDBSCAN算法的电视产品推荐应用

4.1数据处理

4.2聚类结果与产品推荐

4.3本章小结

5 总结与展望

5.1主要结论

5.2 展望

参考文献

附录A

附录B

致谢

展开▼

摘要

聚类分析旨在根据某种相似性度量将无序、混杂的数据进行划分聚集成不同的簇,是大数据时代下智能化分析不可分割的重要组成部分。然而高维数据的特殊性和维度灾难的出现,导致传统聚类算法不再能高效地处理数据,因此本文对高维聚类展开研究。  首先,阐述了高维数据的特点,并论述其对传统相似性度量造成的影响。针对这一问题,分析了各种高维数据的邻近度度量函数,讨论不同度量函数的作用和特点,利用不同维度的数据集进行k-means聚类对比,结合聚类结果得出最优距离度量函数。其次,阐述现存的几种基于降维的高维聚类技术,比较不同降维技术的优点和适用数据类型。最后根据以上研究本文提出了一种基于核主成分分析(KPCA)降维和改进高维距离(Gsimi)的基于密度的KGDBSCAN聚类算法及其应用。  本文利用UCI数据库中不同维度的数据集来验证KGDBSCAN聚类算法的实际效果,并与传统的DBSCAN聚类算法进行比较。实验结果表明,在高维空间中,改进后的聚类算法在三种维度下的准确度都最高,有效地提高了聚类的质量和结果。同时将改进后的聚类算法应用到实际问题中,利用某广电网络运营公司收集的客户收视信息和电视产品数据进行聚类分析。首先将原始数据通过预处理计算形成用户观看频率和用户点播频率两个维度高达上百的数据表,通过KPCA技术对处理后的数据集降维,并对其运用Gsimi函数计算相似度并进行DBSCAN聚类,聚类形成四种不同类型的用户和两种不同类型的节目。然后对不同类型的用户和节目进行特征分析,对比总结不同类型用户的收看行为和收视偏好,最后结合聚类结果从历史行为、相似节目推荐、同类用户收看、综合推荐等角度给出个用户性化电视产品推荐方案示例,实验结果验证了改进后的高维聚类算法的有效性和可行性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号