基于数据场的划分聚类算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

聚类分析是数据挖掘和机器学习领域中的研究热点之一，其目的是根据物理或者抽象对象间的相似性将数据对象划分成不同的类别，使同一个聚类形成的簇中的对象具有较高相似度，不同簇中的对象相似度较低。聚类技术在图像分割、文本分析、空间数据知识挖掘以及其他诸多领域都有广泛的应用前景。
　　聚类算法主要分为基于划分的方法、基于层次的方法、基于密度的方法、基于模型的方法和基于网格的方法等等。基于划分的方法简单有效，易于操作，但由于算法需要预先指定聚类数目，极大地影响了原始数据聚簇的形态分布，同时算法还存在聚类结果对初始簇类中心选择敏感、对噪声适应性差、不能发现任意形状的簇等缺点。基于密度的方法主要优点是具有良好的可扩展性，可以发现任意形状的簇，对噪声数据不敏感，但是聚类结果严重依赖于用户参数的合理选择。
　　因此，本文结合数据场理论，利用数据场反映数据间多对一作用关系的优势，研究了基于数据场的聚类算法。主要工作内容包括以下三个方面：
　　（1）结合数据场理论，依照簇类中心被具有较低势值的邻居点包围，且与具有更高势值的其它数据对象有相对较大的距离的规律，计算每个数据对象的势值和距离值，作出势值与距离的分布图，并从中确定数据的聚类中心，不需要预先设置聚类中心的数量，同时能够自动聚类中心的位置。等聚类中心确定后，将其余点按到最近邻的更高势值对象的最小距离进行划分，只需要一次划分就可以完成整个聚类过程，获得最终结果。通过与K-means算法、DBSCAN算法和数据场聚类算法的性能比较，结果表明提出的算法具有较好的聚类结果。
　　（2）为了解决传统聚类算法对混合属性数据聚类时存在结果不稳定、随机性大、准确度不高等缺陷，对现有算法进行扩展，提出了基于数据场和属性重要性的混合属性数据聚类融合算法（DF_SPCA），根据获取的数据对象信息，利用欧式距离计算数值属性相似性，对于分类属性，根据分类属性间的共现概率，分析分类属性的重要性，以此计算分类属性间的距离，采用现有的数据场聚类算法对数值属性和分类属性分别获得聚类成员，采用基于交集的融合策略获得最终的聚类结果。通过与K-prototypes算法、K-modes算法以及SBAC算法的性能比较，结果表明提出的算法具有较好的聚类结果。
　　（3）为了探索DF_SPCA算法的实际应用能力，研究了如何利用DF_SPCA算法基于基站定位数据进行商圈分析。通过基站得到定位数据，将数据规约并变换成需要利于挖掘商圈信息的数据形式，主要分析基站覆盖范围的人流量及人均停留时间等重要特征，利用聚类算法对定位数据进行聚类分析，能够识别出不同的商圈，并分析了不同的商圈具有的典型特征及其消费习性，以便于研究潜在顾客的分布以制定适宜的商业对策。
　　本文结合数据场理论，为解决传统聚类算法需要预设聚类个数，聚类中心难以确定以及参数敏感性等问题提供了新的思路，利用融合策略处理混合属性数据，最后对基站定位数据进行商圈分析的研究。

著录项

作者
陈天天;
展开▼
作者单位

浙江工业大学;

展开▼
授予单位浙江工业大学;
学科控制科学与工程
授予学位硕士
导师姓名张霓;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
数据场; 划分聚类; 混合属性; 交集融合; 欧式距离;

相似文献

中文文献
外文文献
专利

1. 基于数据场和单次划分的聚类算法 [J] . 张霓 ,陈天天 ,何熊熊 . 浙江工业大学学报 . 2016,第001期
2. 基于数据场的粗糙聚类算法研究 [J] . 卜耀华 ,姜秀柱 ,李连习 . 福建电脑 . 2009,第008期
3. 基于划分的蚁群聚类算法研究 [J] . 李伟 . 信息与电脑 . 2019,第002期
4. 基于划分的聚类算法研究与应用 [J] . 何宇 . 电脑知识与技术 . 2017,第016期
5. 基于电厂工况划分的模糊C-均值聚类算法研究 [J] . 王惠杰 ,李鑫鑫 ,许小刚 . 电力科学与工程 . 2016,第011期
6. 基于k最近邻划分的聚类算法研究 [C] . 刘大有 ,刘杰 ,金弟 . 中国人工智能学会第12届全国学术年会 . 2007
7. 复杂网络中基于数据场的自适应聚类算法研究 [A] . 徐翠 . 2014

基于数据场的划分聚类算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅