首页> 中文学位 >基于MSF模型的数据流聚类算法研究
【6h】

基于MSF模型的数据流聚类算法研究

代理获取

目录

封面

目录

中文摘要

英文摘要

第1章 绪论

1.1 流数据挖掘

1.2 国内外研究现状及意义

1.3 本文主要工作

1.4 本章小结

第2章 流数据聚类算法研究

2.1 静态数据聚类挖掘概述

2.2 流数据聚类特点

2.3 典型的流数据聚类算法分析

2.4 本章小结

第3章 MSF模型研究

3.1群智能优化算法

3.2 MSF模型的应用研究

3.3 本章小结

第4章 基于MSF模型的数据流聚类算法

4.1 问题的提出与分析

4.2 算法的理论基础与相关参数

4.3 算法分析与设计

4.4 本章小结

第5章 实验及结果分析

5.1 数据集分析及实验环境说明

5.2 实验评价指标及相关参数设置

5.3 实验结果分析

5.4 本章小结

结论

参考文献

攻读学位期间发表的学术论文

声明

致谢

展开▼

摘要

近些年来,随着无线传感网络和网络流量监控等行业的飞速发展,流数据逐渐地成为主流的数据形式之一。流数据与传统数据库中所存储的静态数据不同,它是一种实时到达的数据序列,数据到达的次序是独立的,数据规模理论上可以认为是无限的等等特点。这些与众不同的特点也导致流数据的处理方面出现了新的挑战。因此,如何从这些高速变化的流数据中挖掘出用户感兴趣的信息也成为了数据挖掘领域中的一个研究热点问题。在数据挖掘研究领域中,聚类分析作为其中非常重要技术之一,流数据的聚类挖掘算法的改进研究成为当下学术研究的关注点之一。
  本文通过对流数据聚类算法DenStream的研究,将其与MSF(Multiple Species Flocking)模型相结合,提出了一种聚类效果更优化的MSFS(Multiple Species Flocking on Stream)算法。MSF模型是一种用于文本聚类的群智能模型,我们对模型中的相似性原则加以利用,使其适用于流数据的聚类分析。
  MSFS算法将虚拟空间中的代理与特征空间中的数据点相关联,代理在虚拟空间中存在一个预定义的可见范围和代理相互之间的一个最小距离。当某一个代理在它的可见范围内遇到另一个代理,算法将根据相似性的原则判断二者是否具有一定的相似度,从而决定是否可以形成聚类。算法借鉴了基于密度的聚类算法——DenStream算法的基础上,但是却在避免了其中的离线聚类阶段的同时提高了聚类纯度。
  通过实验验证分析,在真实数据集和仿真数据集上,基于仿生计算的MSFS算法的聚类纯度更高,即能够在产生更好的聚类效果。

著录项

  • 作者

    李敏;

  • 作者单位

    哈尔滨师范大学;

  • 授予单位 哈尔滨师范大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 李英梅;
  • 年度 2014
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.131;
  • 关键词

    流数据; 聚类算法; 群智能模型; 相似性原则;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号