首页> 中文学位 >多变量时间序列的预处理和聚类研究
【6h】

多变量时间序列的预处理和聚类研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景及意义

1.2数据挖掘的过程与方法

1.2.1数据挖掘的一般过程

1.2.2数据挖掘的主要技术

1.3多变量时间序列的研究现状

1.4本文的主要工作

1.5论文组织结构

第二章时间序列数据挖掘

2.1时间序列数据挖掘概述

2.1.1时间序列数据的概念

2.1.2时间序列的分类

2.1.3时间序列数据挖掘的目的

2.2时间序列数据挖掘的主要任务

2.2.1时间序列的数据预处理

2.2.2时间序列表示

2.2.3时间序列分割

2.2.4时间相似性度量

2.2.5时间序列异常检测

2.2.6时间序列的聚类

2.2.7时间序列的分类

2.3本章小结

第三章多变量时间序列的数据预处理

3.1预处理过程中插值的意义

3.2一些主要的插值技术

3.2.1 拉格朗日(Lagrange)插值

3.2.2牛顿(Newton)插值

3.2.3分段线性插值

3.2.4三次样条插值

3.2.5分段三次Hermite插值

3.3时间序列插值的研究进展

3.4双重插值模型及其在移动对象中的应用

3.4.1模型思想

3.4.2时间序列的保形三次Hermite插值

3.5双重插值模型在移动对象中的应用

3.5.1评价因素

3.5.2实验与分析

3.6本章小结

第四章多变量时间序列的聚类

4.1相似性度量

4.1.1 Frobenius范数

4.1.2扩展的Frobenius范数

4.1.3动态时间弯曲距离

4.1.4 PCA相似因子

4.1.5距离相似因子

4.2多变量时间序列的聚类算法的研究现状

4.2.1数值多变量时间序列的聚类

4.2.2混合多变量时间序列的聚类

4.3一种基于加权矩阵覆盖的多变量时间序列的聚类算法

4.3.1 WMCA的整体框架

4.3.2变量间的协方差计算

4.3.3加权矩阵覆盖的定义

4.3.4多变量时间序列的加权矩阵覆盖

4.3.5时间序列的聚类

4.4实验与评价

4.4.1数据集

4.4.2评价指标

4.4.3混合多变量时间序列实验

4.4.4数值多变量时间序列实验

4.4.5算法参数分析

4.5本章小结

第五章总结与展望

5.1全文总结

5.2研究展望

参考文献

攻读学位期间承担的科研任务与主要成果

致谢

个人简历

展开▼

摘要

时间序列是一类重要的复杂数据,普遍存在于社会的各个领域,如生物医学、气象预报、网络入侵检测和移动对象模拟等。如何对这些时间序列数据进行有效的分析,揭示隐藏在其背后的信息,帮助人们正确认识事物并据此做出科学的决策,已经引起了数据挖掘领域的广泛关注。时间序列按照变量(属性)的数目可分为单变量时间序列和多变量时间序列,但是目前大部分有关于时间序列数据挖掘的文献都是面对单变量时间序列,并在这方面形成了一套较为完整的理论体系,而对多变量时间序列的研究工作还很少。多变量时间序列不仅描述了各个变量的变化规律,而且还揭示了各变量间相互依存关系的动态规律性,因此,那些处理单变量时间序列的方法和技术无法照搬到多变量时间序列的研究中去。 多变量时间序列的预处理是时间序列数据挖掘的重要课题,而插值是预处理的一种重要技术。本文围绕多变量时间序列预处理的插值技术与聚类这两个主题,进行了研究现状分析,并提出了具有针对性的改进方法,具体内容及贡献概括如下: (1)第一章说明本文的研究背景及意义,探讨数据挖掘的一般过程和主要技术,着重分析了分类预测、聚类分析和关联规则三种方法;介绍本文的主要工作,以及论文的结构安排。 (2)第二章对时间序列的理论体系进行较为全面的概述,描述时间序列的概念,从统计学和数据挖掘两个角度对时间序列分类,并阐述了时间序列数据挖掘的目的;介绍时间时间序列数据挖掘的主要课题,简单探讨它们的技术分类和适用范围,总结了这些方面的研究现状和发展前景。 (3)第三章说明了多变量时间序列数据预处理过程中插值的意义,介绍一些常用的插值技术,且对它们的优缺点进行分析和比较;将保形三次Hermite插值引入时间序列的插值,并在此基础上提出了双重插值模型。双重插值模型两次使用保形三次Hermite插值技术对时间序列进行插值,继承了保形三次Hermite插值的优点,不需要导数信息便可以形成序列轨迹,容易将模型推广到高维空间。以移动对象时间序列为例,将双重插值模型和其它插值技术(分段线性插值、非结点样条插值和保形三次Hermite插值)进行比较,实验结果表明双重插值模型的插值精度较高。 (4)第四章介绍了数值多变量时间序列的一些相似性度量方法,且对它们的优缺点进行分析和比较,指出它们各自的适用范围;分别综述了数值多变量时间序列和混合多变量时间序列聚类的研究现状,指出多变量时间序列聚类研究有待发展的地方。针对混合属性的多变量时间序列,首先引进混合变量之间的协方差计算公式,基于协方差矩阵进行奇异值分解,实现了数据的降维;然后采用加权矩阵覆盖的方法,直观地判断多变量时间序列的邻居关系,并以对象间的共同邻居数量作为多变量时间序列的新度量标准;对传统的凝聚层次聚类算法进行适当的改进,每一层上同时合并满足条件的若干对节点,这样减少了噪音对聚类过程的干扰,避免聚类结果过度集中的现象,具有较好的鲁棒性;实验结果表明,这种方法在混合多变量时间序列的数据集上具有良好的效果,此外,在数值多变量时间序列的数据上,实验效果比基于动态时间弯曲距离(DTW)的标准层次聚类算法更好。 (5)第五章全面总结了论文的总体结构与创新点,并提出了一些需要改进的地方,以及今后值得深入研究的方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号