首页> 中文学位 >基于K近邻方法的密度峰值点快速搜索聚类算法研究
【6h】

基于K近邻方法的密度峰值点快速搜索聚类算法研究

代理获取

目录

第一个书签之前

摘 要

Abstract

目 录

Contents

1 绪 论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文的研究内容

1.4 论文的章节安排

2 相关概念和理论

2.1 聚类分析

2.1.1聚类分析介绍

2.1.2 经典聚类算法

2.2 密度峰值快速搜索聚类算法

2.2.1 密度峰值快速搜索聚类算法介绍

2.2.2 局部密度与距离定义

2.3 特征工程与参数调节

2.3.1 数据预处理

2.3.2 降维方法

2.3.3 参数调节

2.4 文本挖掘技术

2.4.1 自然语言处理技术介绍

2.4.2 中文分词技术

2.4.3 文本结构化

2.4.4 word2vector介绍

2.5 本章小结

3基于K近邻图的密度峰值点快速搜索聚类算法

3.1 预备知识

3.2 DPC算法分析

3.3 KG-DPC算法

3.3.1 样本分配策略

3.3.2 局部密度定义

3.3.3 算法描述

3.4 实验结果及分析

3.4.1 实验数据集和评价指标

3.4.2 实验结果及分析

3.4.3 人脸数据集实验

3.5 本章小结

OLE_LINK5

4基于噪声去除的密度峰值点快速搜索聚类算法

4.1 分层算法

4.2 NR-DPC聚类算法

4.2.1 NR-DPC算法概述

4.2.2 噪声检测算法

4.2.3 NR-DPC算法

4.3 实验结果及分析

4.3.1 实验数据集和评价指标

4.3.2 二维数据集结果对比

4.3.3 实验结果对比

4.3.4 文本聚类实验

4.4 本章小结

5总结与展望

5.1 论文的工作总结

5.2 未来的工作展望

参考文献

致谢

攻读学位期间取得的学术成果

展开▼

摘要

人工智能理论和技术飞速发展,其中最重要的领域之一,数据挖掘和机器学习,正在不断地影响和改变人们的工作和生活。迄今为止,机器学习已被应用到很多的领域,例如电商的CRT预估,股票的量化交易,文本或声音信息的处理,图像识别与自动驾驶,个性化推荐等等。这些技术无疑会使我们的生活更加便捷。在众多应用领域中,聚类分析是一类重要的应用技术。  2014年出现的密度峰值点快速搜索聚类算法(DPC)是一种新颖的聚类算法,它利用样本的密度和不同样本间的距离实现聚类,整个过程简单高效。但是,传统DPC算法在识别不同密度类簇、发现任意形状的类簇和噪声去除方面存在不足。本文结合K近邻法的思想,针对这两个不足,提出了两种DPC算法的改进算法。论文的主要工作如下:  (1)针对传统DPC算法无法有效识别不同密度类簇的不足,利用K近邻图,提出一种基于K近邻图的密度峰值点快速搜索聚类算法(KG-DPC)。改进算法定义了一种新的密度估计函数,计算样本的K近邻样本集合与K近邻距离集合,通过给定样本的K近邻距离估计样本密度。再计算样本距离,使用决策图选择聚类中心,根据改进的样本分配法则进行聚类。最后,根据K近邻集合完成二次聚类。实验结果表明,KG-DPC算法相较于DPC算法在区分不同密度类簇方面有明显提升,在对人脸数据集聚类的实验中表示其准确率优于DPC算法。  (2)针对DPC算法识别噪声数据和难以发现任意形状类簇的不足,结合K近邻方法和DBSCAN算法,提出基于噪声去除的密度峰值点快速搜索聚类算法(NR-DPC)。NR-DCP算法使用K近邻距离集合估计样本噪声指标,对数据集进行分层,选择密度较高样本。再使用噪声指标估计样本密度,计算样本距离,使用决策图选择聚类中心。最后使用DBSCAN算法策略从密度最高的聚类中心为起点扩张类簇。实验结果表明,NR-DPC算法在大多数的指标中都优于DPC算法。对文本试题数据的聚类结果显示,NR-DPC算法的准确率提升明显,具有实际应用意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号