首页> 中文学位 >时态数据流的增量聚类算法研究及其应用
【6h】

时态数据流的增量聚类算法研究及其应用

代理获取

目录

文摘

英文文摘

声明

1 绪论

1.1选题的目的和意义

1.2相关概念

1.2.1数据挖掘

1.2.2时序(态)数据挖掘

1.2.3数据流

1.2.4数据流挖掘

1.3国内外研究现状

1.3.1数据挖掘

1.3.2时态数据挖掘

1.3.3数据流挖掘

1.4研究动机

1.5研究内容与组织结构

2 数据流聚类算法

2.1传统聚类算法

2.1.1划分方法

2.1.2层次方法

2.1.3基于密度的方法

2.1.4基于网格的方法

2.1.5基于模型的方法

2.2现有的数据流聚类算法

3 时态数据流

3.1时态数据

3.1.1时间模型

3.1.2时态型与时间粒度概念的性质

3.1.3时态型的连续性

3.2时态数据流

4 时态数据流的增量聚类算法

4.1问题描述及其相关概念

4.2算法框架及其描述

4.2.1聚类初始化阶段

4.2.2增量聚类阶段

4.3算法的性能分析

4.3.1理论分析

4.3.2实际分析

5 股票数据上的应用

5.1概述

5.2数据采集、表示和预处理

5.2.1数据采集

5.2.2数据表示

5.2.3数据预处理

5.3实验结果与分析

5.4小结

6 结论与展望

参考文献

致谢

攻读学位期间主要科研成果

展开▼

摘要

聚类分析是数据挖掘领域一项重要的研究课题。近年来,随着计算机和应用技术的高速发展,人们获得数据的能力有了极大的提高,同时获得的数据途径也越来越多。数据流(datastream)作为一种特殊的数据来源,越来越备受关注。如WEB点击流、气象观测信息流、电话记录信息流、卫星数据流等。由于数据流的数据量无限、对算法的响应要求很高,而且通常只能对数据访问一次,而传统的聚类算法对快速变化的数据流进行在线分析的支持存在着很多限制,因此急需开发适应数据流环境的聚类算法。计算机工作者们面临着新的挑战。 本文针对时态数据流进行了研究,给出了时态数据流的概念和定义,同时在subspacea-cluster的基础上提出了TMSC(temporalmultiple-dimensionsubspacecluster)聚类算法来查找聚类,该算法采用了滑动窗口的形式,使得算法能保证无须针对所有时间点的数据同时进行聚类,减少了算法所需空间开销;同时有增量保持阶段,增量阶段无须重复计算之前的数据,只需处理新到达的相关数据,因此增量处理快;最后把算法用Java实现后,应用到了股票数据中,通过不同的参数设置,找到了不同时间段的聚类,有其一定意义。 TMSC算法的主要创新之处为:1)从只能处理单维数据流扩展到了多维数据流;2)改进了聚类剪枝标准;3)对从m—level查找m+1—level的聚类给出了明确的定义和证明;4)发现了原先算法在增量更新阶段将会漏掉的聚类结果,通过保留所有聚类结果,解决了这一问题。

著录项

  • 作者

    张锡琴;

  • 作者单位

    浙江工业大学;

  • 授予单位 浙江工业大学;
  • 学科 管理科学与工程
  • 授予学位 硕士
  • 导师姓名 孟志青;
  • 年度 2009
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    时态数据流; 增量聚类算法; 数据挖掘;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号