首页> 中文学位 >时间序列的曲线排齐及其相似性度量方法研究
【6h】

时间序列的曲线排齐及其相似性度量方法研究

代理获取

目录

第一章 引言

1.1 研究背景

1.2 国内外研究现状

1.3 论文的主要工作

1.4 论文结构

第二章 背景知识

2.1 S-GEM曲线排齐方法简介

2.2 传统的相似性度量方法简介

2.3 聚类分析简介

2.4 本章小结

第三章 非均匀采样策略下的曲线排齐方法

3.1 基于弧长的非均匀采样

3.2 基于斜率的非均匀采样

3.3 数值实验

3.4 本章小结

第四章 相似性度量方法

4.1 基于排齐相关系数最大化相似性度量方法

4.2 基于属性变换的相似性度量方法

4.3 数值实验

4.4 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

攻读学位期间取得的研究成果

致谢

个人简况及联系方式

声明

展开▼

摘要

在信息爆炸的大数据时代,无时无刻都在产生各式各样的海量数据,这使得数据挖掘技术也随着数据量以及数据种类的增加而不断发展。时间序列数据(简称时序数据)是一类常见的数据(如股票、居民消费价格指数、温度、湿度、心电图等等),也是数据挖掘中经常研究的数据对象。此外,一些数据由于其自身特征比较复杂,现有的数据分析技术较难对其分析,因此将其转换成时序数据可以更好地对数据进行分析,如在研究树叶形状时,可以将经测量得到的树叶边缘到几何中心的距离数据按照相邻位置关系组成一个时间序列,进而对其进行分析。由于时序数据具有容易建模、分析技术比较成熟等优点,所以直接对时序数据分析更加方便且可以提取更多信息。
  时序数据挖掘的主要研究内容有预测建模、聚类、分类等,而数据对象之间的相关度分析是其挖掘方法的重要前提,相关度分析结果的优劣会在很大程度上影响数据分析的结果,所以如何提高目标数据之间的相关度分析精度是时间序列分析的一项主要工作。在对时序数据进行相关度分析时,会遇到在形状和走势上有很大相似性但是存在时间弯曲(时间差)的一类数据,时间弯曲的出现会严重影响研究对象间的相关度分析效果,因而很容易产生类别误判,所以首先对时序数据进行排齐;此外,对于如何提取属性并通过属性定义相关性也是时序数据挖掘的关键。因此,本文针对时序数据曲线排齐和相似性度量展开研究,主要研究内容如下:
  (1)提高曲线排齐的效果和效率方法研究。本文提出两种非均匀采样方法对曲线进行排齐:基于斜率的非均匀采样(SBNS)和基于弧长的非均匀采样(ALBNS),前者按照函数曲线的斜率大小采样,后者在函数曲线的弧长上采样。这两种方法都不是在时间轴上均匀采样,而是根据曲线的形状特征进行采样,因而可在一定程度上克服均匀采样方法由采样点数量和位置分配不当而产生的缺陷,从而提高曲线排齐效果。在模拟数据和实际数据中的测试效果说明,两种非等间隔采样方式在效率和效果上都优于均匀采样。
  (2)提高时间序列间的相关度分析精度方法研究。提出两种解决方法,分别为平移最大化相关系数方法(MSCD)和基于属性变换的相似性度量方法(AT)。前者通过曲线排齐来避免由时差引起的相关性误差,进而提高带时差数据对象间的相关度分析精度;后者是将更能表示时间序列本身特征以及相互之间关系的特征作为自身的属性,将这些属性构成的新的序列替换原始时间序列以进一步对其相似性进行度量。通过多组聚类方法测试效果表明提出的两种相关度分析方法在一定水平上可以提升时间序列相关度分析精度。
  本文针对时序数据的曲线排齐和相关度分析展开研究,提出的曲线排齐方法和相关度分析方法可以为时序数据的聚类、分类及预测建模等分析技术奠定基础。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号