首页> 中文学位 >流数据聚类算法的研究与改进
【6h】

流数据聚类算法的研究与改进

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 课题研究背景及意义

1.2 国内外研究现状

1.3 论文研究的主要内容

1.4 论文组织结构

第二章 流数据聚类相关内容

2.1 流数据的定义与特点

2.2 概要结构的相关技术

2.3 流数据聚类分析

2.4 流数据聚类算法

2.5 本章小结

第三章 基于网格聚类算法

3.1基于网格算法研究

3.2网格算法优势

3.3 本章小结

第四章 基于动态网格流数据聚类算法

4.1 基于密度和网格的聚类算法优势和问题

4.2 动态网格的相关定义

4.3 网格密度聚类的相关定义

4.4 算法的基本思想

4.5 算法实现与性能分析

4.6 性能分析

4.7 本章小结

第五章 实验结果与分析

5.1 实验环境和数据集

5.2 聚类质量

5.3 聚类速度

5.4 伸展性

5.5 本章小结

第六章 结论

6.1总结

6.2未来工作展望

参考文献

致谢

展开▼

摘要

伴随着计算机技术和信息全球化的高速发展,我们迎来了大数据时代,人们面临着从数据中获取有用信息以支持更好的决策和发展。面对着源源不断产生的大量的流数据,如何从流数据中获取知识越来越得到重视。
  设计并实现一种既聚类质量好和聚类效率高的数据流聚类算法是本课题的主要研究内容,主要工作内容如下:在对课题的领域进行深入理解以后,研究了流数据的特性和处理流数据的聚类的要求与技术;总结了目前较经典的流数据聚类算法的实现技术和优缺点进行了;并对基于网格的聚类算法进行重点研究。在以上工作的基础上设计并实现了DD-Stream算法,该算法采用了CluStream算法中提及的双层框架的思想。在在线层,不断顺序访问数据集中的数据点,根据维度半径的大小并按照一定的规则对数据空间进行划分,从而形成网格结构,并得到数据流的概要信息,同时以网格单元特征向量的形式记录这些信息。其中,为每个数据点设置了密度系数,密度系数和该数据点到达的时间点有关,它随着时间递减,将历史数据和当前数据的重要性区别开来,体现了流数据的演化特征。同时,每个网格都有网格密度,每一个网格的网格密度由所有映射到该网格的数据点的密度系数形成,因此,网格密度随着时间或者随着新数据点的不断加入而更新着。在后台离线层把稠密网格衰退成稀疏网格的最小时间gap作为确定检查、更新网格的时间间隔的长度,并根据网格密度和连通性对网格进行聚类,聚类分成初始化聚类和调整聚类两种,初始聚类只在第一个gap时进行聚类形成初始聚类的结果,在此基础上以后每隔gap就对网格进行聚类并对满足条件的稀疏网格进行删除,同时调整簇聚类。
  最后,通过在人工数据集和真实数据集上对算法进行实验验证,证明了算法取得了满意的聚类质量和聚类效率,能对流数据进行高速有效的聚类分析。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号