基于循环神经网络的时序数据聚类算法及其并行化

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

时间序列数据是现实世界中极为重要的一类数据，是随时间累积而逐渐产生的数据。由于时序数据具有动态增长的特性，所以时序数据往往维度较高，并且数据规模很大。近年来随着科学和金融领域的快速发展，使得时序数据的获取变得愈加容易，这也带动了相关领域的快速发展。尤其时间序列数据聚类领域，因其可以隐式地发现时序数据中蕴含的规律，为进一步研究时序数据做准备，正受到越来越多的研究学者的关注。从当前该领域的研究方法来看，主要还是围绕如何度量相似性，以及如何找到序列中的关键成分。这些方法虽然在一些数据集上可以得到较优的效果，但由于这些方法无法建模时间序列特有的性质，而且难以理解，使得应用十分受限。近来，深度学习在一些应用场景中取得了尤为显著的效果，其中就包括循环神经网络在序列学习上的成功应用。但在时间序列数据挖掘领域，更多是将其用于时间序列预测，还没有将该方法用于时间序列聚类任务中。
　　本研究基于以上分析和已有问题，提出利用长短期记忆网络（LSTM）学习时间序列数据的隐式表达，来更好的建模时间序列数据的时序性。采用时间序列预测的方法，利用时间序列前一时刻的值来预测下一时刻的值，从而训练模型。循环神经网络做特征表达的一般做法是选取最后一层隐藏单元作为学到的表达，但是往往仅用最后一层无法很好的将原始时序数据表达出来，所以采用池化技术对全部时间步的隐藏层表达进行结合，从而更好的对时序数据进行表达。然后，利用不同距离测度的 k-means聚类算法对学到的表达进行聚类。另一方面，时间序列数据还往往伴有局部性，所以采用类似SiameseNetwork的网络结构来建模该性质。通过对原始时间序列进行随机采样得到时间片段，然后利用门限循环单元（GRU）来学习该时间片段的表达，接着根据片段出现的先后将时间片段拼接起来进行分类训练。分类的目的是建模时间序列的时序上下文信息，类标是两个时间片段在原始序列中出现的先后。最后将原始序列输入到已训练好的GRU网络，提取隐藏层表达，利用k-means算法进行聚类。

著录项

作者
王国瑞;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机技术
授予学位硕士
导师姓名徐晓飞;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
信息检索; 数据挖掘; 程序语言; 聚类算法;
入库时间 2022-08-17 10:36:50

相似文献

中文文献
外文文献
专利

1. 基于动态时间弯曲的时序数据聚类算法的研究 [J] . 翁颖钧 ,朱仲英 . 计算机仿真 . 2004,第003期
2. 基于仿射传播聚类算法的大数据并行化分析研究 [J] . 汪俭华 ,陈守维 . 电子设计工程 . 2021,第013期
3. 基于网格密度和局部敏感哈希函数的并行化聚类算法 [J] . 毛伊敏 ,陶涛 ,曹文梁 . 计算机应用研究 . 2021,第005期
4. 基于Spark的层次聚类算法的并行化研究 [J] . 余胜辉 ,李玲娟 . 计算机技术与发展 . 2020,第006期
5. 基于MapReduce并行化计算的大数据聚类算法 [J] . 张文杰 ,蒋烈辉 . 计算机应用研究 . 2020,第001期
6. k-means聚类算法的MapReduce并行化实现 [C] . 李锦文 ,张清辉 ,魏化震 . 第三届中国国家网格学术年会 . 2011
7. 基于循环神经网络的时序数据预测方法研究 [A] . 王鑫 . 2020

基于循环神经网络的时序数据聚类算法及其并行化

目录

摘要

著录项

相似文献

相关主题

期刊订阅