流数据聚类算法的研究与改进

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

伴随着计算机技术和信息全球化的高速发展，我们迎来了大数据时代，人们面临着从数据中获取有用信息以支持更好的决策和发展。面对着源源不断产生的大量的流数据，如何从流数据中获取知识越来越得到重视。
　　设计并实现一种既聚类质量好和聚类效率高的数据流聚类算法是本课题的主要研究内容，主要工作内容如下：在对课题的领域进行深入理解以后，研究了流数据的特性和处理流数据的聚类的要求与技术；总结了目前较经典的流数据聚类算法的实现技术和优缺点进行了；并对基于网格的聚类算法进行重点研究。在以上工作的基础上设计并实现了DD-Stream算法，该算法采用了CluStream算法中提及的双层框架的思想。在在线层，不断顺序访问数据集中的数据点，根据维度半径的大小并按照一定的规则对数据空间进行划分，从而形成网格结构，并得到数据流的概要信息，同时以网格单元特征向量的形式记录这些信息。其中，为每个数据点设置了密度系数，密度系数和该数据点到达的时间点有关，它随着时间递减，将历史数据和当前数据的重要性区别开来，体现了流数据的演化特征。同时，每个网格都有网格密度，每一个网格的网格密度由所有映射到该网格的数据点的密度系数形成，因此，网格密度随着时间或者随着新数据点的不断加入而更新着。在后台离线层把稠密网格衰退成稀疏网格的最小时间gap作为确定检查、更新网格的时间间隔的长度，并根据网格密度和连通性对网格进行聚类，聚类分成初始化聚类和调整聚类两种，初始聚类只在第一个gap时进行聚类形成初始聚类的结果，在此基础上以后每隔gap就对网格进行聚类并对满足条件的稀疏网格进行删除，同时调整簇聚类。
　　最后，通过在人工数据集和真实数据集上对算法进行实验验证，证明了算法取得了满意的聚类质量和聚类效率，能对流数据进行高速有效的聚类分析。

著录项

作者
李静芬;
展开▼
作者单位

河北工业大学;

展开▼
授予单位河北工业大学;
学科计算机应用技术
授予学位硕士
导师姓名沈西挺;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
流数据聚类; 双层框架; 网格结构; 密度系数; DD-Stream算法;

相似文献

中文文献
外文文献
专利

1. 流数据聚类算法的研究和改进 [J] . 余小军 ,赵娟娟 ,张平健 . 电脑与电信 . 2009,第003期
2. 在数据流数据库中集成聚类算法研究与实现 [J] . ZHANG Jing ,ZHANG Yang . 计算机应用研究 . 2014,第005期
3. 流数据挖掘中数据流聚类算法研究 [J] . 王高洋 ,李英梅 . 智能计算机与应用 . 2014,第5期
4. 基于滑动窗口的流数据聚类算法研究 [J] . 胡彧 ,闫巧梅 . 计算机工程与设计 . 2008,第021期
5. K-means聚类算法的一种改进方法研究 [J] . 曾如明 ,李云飞 . 邵阳学院学报（自然科学版） . 2021,第002期
6. Web点击流数据聚类算法 [C] . 高学东 ,周磊 . 2006年全国第十届企业信息化与工业工程学术年会 . 2006
7. 基于势能模型的流数据聚类算法研究 [A] . 舒越 . 2020

流数据聚类算法的研究与改进

目录

摘要

著录项

相似文献

相关主题

期刊订阅