基于区间数的不确定数据自适应聚类算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

受硬件设备精度制约或人为干扰等因素的影响，传感网络应用收集到的数据集往往具有不确定性。不确定数据无法使用确切的数值描述事物属性的状态，导致面向确定数据的聚类算法无法完成不确定数据的聚类任务。近年来，不确定数据聚类方法被陆续提出，但仍然存在以下问题：①运行效率。不确定数据聚类算法在计算不确定对象距离的过程中进行了大量无意义的实例距离计算，导致算法的运行效率不高。②聚类精度。不确定数据模型以及聚类过程中的相关概念破坏了不确定数据信息的完整性，导致聚类对象产生精度误差，算法的聚类精度下降。③自适应性。由于密度聚类算法在发现非球形簇方面的优势，基于密度的不确定数据聚类算法被陆续提出，但关于密度聚类算法的非自适应阈值问题始终没有得到很好的解决。区间数模型是不确定性决策分析常用的一种数据模型，它基于不确定数据的上限和下限描述属性可能值的概率分布情况，最大程度地保证了数据信息的完整性。因此，本文针对上述问题，开展基于区间数的不确定数据自适应聚类算法研究。主要工作包括：　　①本文提出了一种新的不确定数据聚类算法IN-DBSCAN（DBSCAN algorithm based on Interval Number model）。算法基于区间数模型描述不确定实例的数据分布信息，保证了数据信息的完整性；然后，算法设计了一种高效的距离计算策略来计算不确定对象之间的距离，提高了算法的运行效率；最后，算法重新定义了经典密度聚类算法DBSCAN（Density-Based Spatial Clustering of Applications with Noise）的相关概念，实现了不确定数据的密度聚类。　　②在IN-DBSCAN算法基础上，本文提出了自适应聚类的改进算法IN-DBSCANa（IN-DBSCAN adaptive algorithm）。算法首先提出使用最大直接可达概率替代IN-DBSCAN算法中的固定概率阈值，然后基于Gaussian-Means算法提出了密度参数自适应策略，有效避免了人为因素对聚类结果的影响，最终实现了算法的自动聚类。　　③本文测试了所提算法与UK-Means，MMVar，FDBSCAN，FOPTICS，KKL和REP共6种不确定数据聚类算法在合成数据集、真实基准数据集以及真实世界数据集上的性能表现。实验结果表明，本文所提算法的运行效率和聚类精度均优于现有不确定数据聚类算法，算法更具有竞争力。

著录项

作者
李春晖;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机科学与技术
授予学位硕士
导师姓名郑林江;
年度 2020
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
不确定数据,聚类算法,阈值自适应,区间数;

相似文献

中文文献
外文文献
专利

1. 基于区间数的不确定数据流2κ近邻聚类算法 [J] . 陆亿红 ,任胜亮 . 浙江工业大学学报 . 2018,第003期
2. 障碍空间中基于Voronoi图的不确定数据聚类算法 [J] . 万静 ,崔美玉 ,何云斌 . 计算机研究与发展 . 2019,第005期
3. 基于离群点检测的不确定数据流聚类算法研究 [J] . 叶福兰 . 中国电子科学研究院学报 . 2019,第010期
4. 障碍空间中基于网格的不确定数据聚类算法 [J] . 崔美玉 ,万静 ,何云斌 . 计算机科学与探索 . 2019,第003期
5. 基于快速高斯变换的不确定数据聚类算法 [J] . 迟荣华 ,程媛 ,朱素霞 . 通信学报 . 2017,第003期
6. 一种基于网格索引的空间数据聚类算法 [C] . 孙焕良 ,邱菲 ,刘俊岭 . 第二届中国国际数字城市建设技术研讨会 . 2006
7. 空间数据库中基于网格的自适应聚类算法研究 [A] . 董琰 . 2007

基于区间数的不确定数据自适应聚类算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅