时间序列的曲线排齐及其相似性度量方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在信息爆炸的大数据时代，无时无刻都在产生各式各样的海量数据，这使得数据挖掘技术也随着数据量以及数据种类的增加而不断发展。时间序列数据（简称时序数据）是一类常见的数据（如股票、居民消费价格指数、温度、湿度、心电图等等），也是数据挖掘中经常研究的数据对象。此外，一些数据由于其自身特征比较复杂，现有的数据分析技术较难对其分析，因此将其转换成时序数据可以更好地对数据进行分析，如在研究树叶形状时，可以将经测量得到的树叶边缘到几何中心的距离数据按照相邻位置关系组成一个时间序列，进而对其进行分析。由于时序数据具有容易建模、分析技术比较成熟等优点，所以直接对时序数据分析更加方便且可以提取更多信息。
　　时序数据挖掘的主要研究内容有预测建模、聚类、分类等，而数据对象之间的相关度分析是其挖掘方法的重要前提，相关度分析结果的优劣会在很大程度上影响数据分析的结果，所以如何提高目标数据之间的相关度分析精度是时间序列分析的一项主要工作。在对时序数据进行相关度分析时，会遇到在形状和走势上有很大相似性但是存在时间弯曲（时间差）的一类数据，时间弯曲的出现会严重影响研究对象间的相关度分析效果，因而很容易产生类别误判，所以首先对时序数据进行排齐；此外，对于如何提取属性并通过属性定义相关性也是时序数据挖掘的关键。因此，本文针对时序数据曲线排齐和相似性度量展开研究，主要研究内容如下：
　　（1）提高曲线排齐的效果和效率方法研究。本文提出两种非均匀采样方法对曲线进行排齐：基于斜率的非均匀采样（SBNS）和基于弧长的非均匀采样（ALBNS），前者按照函数曲线的斜率大小采样，后者在函数曲线的弧长上采样。这两种方法都不是在时间轴上均匀采样，而是根据曲线的形状特征进行采样，因而可在一定程度上克服均匀采样方法由采样点数量和位置分配不当而产生的缺陷，从而提高曲线排齐效果。在模拟数据和实际数据中的测试效果说明，两种非等间隔采样方式在效率和效果上都优于均匀采样。
　　（2）提高时间序列间的相关度分析精度方法研究。提出两种解决方法，分别为平移最大化相关系数方法（MSCD）和基于属性变换的相似性度量方法（AT）。前者通过曲线排齐来避免由时差引起的相关性误差，进而提高带时差数据对象间的相关度分析精度；后者是将更能表示时间序列本身特征以及相互之间关系的特征作为自身的属性，将这些属性构成的新的序列替换原始时间序列以进一步对其相似性进行度量。通过多组聚类方法测试效果表明提出的两种相关度分析方法在一定水平上可以提升时间序列相关度分析精度。
　　本文针对时序数据的曲线排齐和相关度分析展开研究，提出的曲线排齐方法和相关度分析方法可以为时序数据的聚类、分类及预测建模等分析技术奠定基础。

著录项

作者
张文凯;
展开▼
作者单位

山西大学;

展开▼
授予单位山西大学;
学科软件工程
授予学位硕士
导师姓名王文剑;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类软件工程;
关键词
时间序列; 曲线排齐; 非均匀采样; 属性变换; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 时间序列趋势相似性度量方法研究 [J] . 谭章禄 ,王兆刚 ,胡翰 . 计算机工程与应用 . 2020,第010期
2. 基于时间序列的轨迹数据相似性度量方法研究及应用综述 [J] . 潘晓 ,马昂 ,郭景峰 . 燕山大学学报 . 2019,第006期
3. 时间序列数据挖掘中的特征表示与相似性度量方法研究分析 [J] . 王培屹 . 电脑与电信 . 2018,第006期
4. 基于SAX方法的股票时间序列数据相似性度量方法研究 [J] . 刘威 ,邵良杉 ,曾繁慧 . 计算机工程与科学 . 2009,第009期
5. 新型时间序列相似性度量方法研究 [J] . 刘懿 ,鲍德沛 ,杨泽红 . 计算机应用研究 . 2007,第005期
6. 基于SAX方法的股票时间序列数据相似性度量方法研究 [C] . 刘威 ,邵良杉 ,曾繁慧 . 2009年全国理论计算机科学学术年会 . 2009
7. 时间序列的相似性度量方法研究 [A] . 曲丽 . 2021

时间序列的曲线排齐及其相似性度量方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅