基于网格的密度峰值聚类算法研究及其应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近几年来，数据挖掘技术发展非常迅速，各种各样的数据挖掘方法被源源不断地提出，聚类作为数据挖掘领域一种重要的研究方法，已经被广泛地运用在城市热点发现、图像识别、广告推荐、客户细分等各个领域。
　　密度峰值聚类算法是2014年提出的一种具有代表性的聚类算法，在大多数数据集上都可以得到比传统聚类算法更好的聚类效果，并且在聚类过程中，需要人为设定的参数很少，与传统算法相比，具有运行速度较快、可以发现任意形状簇等优点，已经被广泛地应用在图像识别和社区划分等领域。由于近年来数据科学的飞速发展，各种各样的数据形式，越来越大的数据量，使得聚类算法需要不断地适应新的数据要求。本文通过对密度峰值算法聚类过程的详细分析，发现当数据规模达到一定程度时，密度峰值聚类算法就很难在普通计算机上直接处理数据集，而且聚类时间也随着数据量的增长变得越来越长，这就大大限制了密度峰值聚类算法在大规模数据集上的应用。
　　针对以上问题，本文提出了一种基于网格的密度峰值聚类算法。该算法在密度峰值聚类算法的基础上，结合网格聚类算法的思想，对数据进行网格划分，一方面优化了算法计算相关参数所需要的时间，提高了算法运行速度，另一方面避免了密度峰值聚类算法在处理大规模数据集时出现的内存溢出情况，使得算法在单个普通计算机上也能够处理大规模数据集。实验分别在低维和高维的标准数据集上验证了基于网格的密度峰值聚类算法的有效性。
　　本文将基于网格的密度峰值聚类算法运用在国内某城市出租车的真实轨迹数据集，利用乘客上下车的位置信息来发现城市中的热点区域，验证了本文算法在大规模数据上的适用性和优越性，并结合出租车司机的收入信息对各个热点区域进行分析。最后将热点区域之间的来往流量作为区域之间的相似性，对热点区域进行聚类，探究各个热点区域之间的联系。

著录项

作者
陈晓光;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科系统工程
授予学位硕士
导师姓名郭崇慧;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;U492.434;
关键词
数据挖掘; 密度峰值; 聚类算法; 网格; 出租车; 热点区域;

相似文献

中文文献
外文文献
专利

1. 基于网格的密度峰值聚类算法研究 [J] . 滕建 ,乐红兵 . 信息系统工程 . 2018,第011期
2. 基于数据空间网格化的密度峰值聚类算法 [J] . 张萍 . 廊坊师范学院学报（自然科学版） . 2021,第004期
3. 基于数据空间网格化的密度峰值聚类算法 [J] . 张萍 . 廊坊师范学院学报：自然科学版 . 2021,第004期
4. 一种基于网格划分的密度峰值聚类改进算法 [J] . 江平平 ,曾庆鹏 . 计算机应用与软件 . 2019,第008期
5. 基于网格密度峰值聚类的实时雷达分选系统 [J] . 顾军华 ,田喆 ,苏鸣 . 计算机应用与软件 . 2019,第010期
6. 数据流环境下的基于加权网格的聚类算法研究 [C] . 李国徽 ,黄蕾 . 第二十四届中国数据库学术会议 . 2007
7. 基于密度峰值的聚类算法研究及其在文本聚类中的应用 [A] . 卜秋瑾 . 2019

基于网格的密度峰值聚类算法研究及其应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅