基于置信半径的分布式聚类算法的研究与应用

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

聚类分析作为数据挖掘的一个重要研究方向，可以有效地挖掘出这些数据背后所包含的知识，在金融、电信、保险业、市场营销、网络异常检测、网络安全、科学决策等方面具有十分重要的应用价值。传统的聚类算法只适用于集中式数据的聚类，随着信息技术、数据库技术、特别是网络技术的快速发展，基于单个服务器的集中式聚类分析已不能适应处理这些分布式、海量数据的需求。本文在整理归纳前人的研究成果基础上，研究利用对等网络(Peer-to-Peer，P2P)进行分布式海量数据的聚类方法。论文主要工作如下：
　　首先，介绍了分布式聚类算法的基础理论以及国内外相关研究成果，其中包括集中式聚类分析的概述、分布式聚类概述以及基于P2P网络的分布式聚类算法。
　　其次，本文引入了置信半径的思想来加快分布式聚类收敛速度。在此思想基础上，本文先提出了一种基于节点数据密度的分布式K-Means聚类算法。该算法通过计算P2P网络节点上数据分布密度的梯度，找到同一类数据在节点的稠密和稀疏分布，确定稠密数据的置信半径并用以指导下一步的聚类迭代，从而可以用较少的带宽消耗(即迭代数)使网络上的数据聚类快速达到稳定状态。
　　再次，本文在前一个算法的基础上，提出了基于Fisher线性判别率的分布式K-Means聚类算法。该算法根据数据在节点上的局部分布，通过Fisher线性判别率计算出数据稠密分布和稀疏分布的分界，从而确定数据的置信半径并用以指导下一步的聚类。以达到消耗较少网络带宽并提高聚类精度的目的。
　　根据模拟和真实数据所做实验表明，本文所提两个算法与集中式聚类算法以及DFEKM算法相比，在保证聚类精度的基础上，大幅减少聚类时所需迭代数，以及消耗的网络带宽。而基于节点数据密度的分布式K-Means聚类算法与基于Fisher。线性判别率的分布式K-Means聚类算法相比，前者在聚类精度上优于后者，而后者在算法效率和带宽消耗上优于前者。

著录项

作者
张科泽;
展开▼
作者单位

江苏大学;

展开▼
授予单位江苏大学;
学科计算机应用技术
授予学位硕士
导师姓名杨鹤标;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
分布式聚类算法; 对等网络; K-Means算法; 置信半径; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 基于分位数半径动态K-means的分布式负荷聚类算法 [J] . 刘季昂 ,刘友波 ,程明畅 . 电力系统保护与控制 . 2019,第024期
2. 基于分布式哈希表的分布式子空间聚类算法 [J] . 曲琳 ,周凡 ,田翔 . 浙江大学学报（工学版） . 2010,第002期
3. 基于清晰半径的模糊点二次聚类算法 [J] . 高翠芳 ,胡权 . 计算机应用 . 2013,第002期
4. 基于半径/中心约束的模糊C-球壳聚类算法 [J] . 李茂宽 ,姜涛 ,关键 . 光电工程 . 2011,第004期
5. 基于密度半径自适应选择的K-均值聚类算法 [J] . 杨鑫华 ,于宽 . 大连交通大学学报 . 2007,第001期
6. 基于z值的分布式密度峰值聚类算法 [C] . Lu Jing ,卢晶 ,Duan Yong . 第33届中国数据库学术会议（NDBC2016 ） . 2016
7. 基于Hadoop的分布式聚类算法研究与应用 [A] . 吴德超 . 2018

基于置信半径的分布式聚类算法的研究与应用

摘要

著录项

相似文献

相关主题

期刊订阅