首页> 外文期刊>電子情報通信学会技術研究報告 >無限長モデル距離を用いた異種時系列クラスタリング
【24h】

無限長モデル距離を用いた異種時系列クラスタリング

机译:使用无限长模型距离的异构时间序列聚类

获取原文
获取原文并翻译 | 示例
           

摘要

This paper addresses the issue of heterogeneous time series clustering, which means clustering of time series having various phases and various length. Time series clustering is a data analysis method, which is basic and has wide variety of applications. Comparing with the other clustering tasks, we usually face a problem of a distance function, in the case of time series clustering. This is because it is not trivial how to compare time series having different length and different phases. If we employ an inappropriate distance, meaningless results are derived. Especially, it is well known as "sine wave problem" that time series clustering without taking into account phase difference usually derives meaningless cluster centers, which have no information of the observed time series. We propose a method for heterogeneous time series clustering. The key idea of the method is that we do not employ distance between observed time series but employ distance between models learned from observed time series (namely we employ KL distance). The reasons for this employment are as follows: (1) We can directly compare time series of different length by employing the same integral ranges in the calculation of KL distance between two models, and (2) we can align the phases by giving the same intial conditions ( boundary conditions or the lower edges of the integral ranges) to two time series. Therefore we can conduct clustering of time series having various length and various phases by empoying the proposed method.%本稿では長さと位相が異なる時系列のクラスタリング(異種時系列クラスタリング)の問題を取り扱う。時系列クラスタリングは、基礎的かつ応用範囲の広い分析手法である。他のクラスタリング問題を扱う場合と比べて、時系列クラスタリングで特に問題となるのが時系列間の距離である。異なる長さと位相を持つ時系列(異種時系列)をどのように比較すれば良いかは自明ではなく、不適切な距離を採用すれば無意味な結果しか得られない。特に、位相差を無視して時系列をクラスタリングするとデータに含まれる特徴的なパターンの情報を含まない無意味なクラスター中心が得られるという問題は「正弦波問題」としてよく知られている。本稿では異種時系列クラスタリングの手法を提案する。提案手法の核となるアイデアは時系列間の距離として観測されたデータ間の距離ではなくデータから学習されたモデル間の距離(KL距離)を用いてクラスタリングを実行することである。この方法を採用する利点は以下の二点である:(1)KL距離を計算する際の積分範囲を揃えることで異なる長さの観測データを直接比較でき、(2)KL距離の積分範囲の端(初期状態・境界条件)を固定することで位相を揃えた比較ができる。このため、提案手法によって長さと位相の異なる時系列のクラスタリングを実現できる。
机译:本文解决了异构时间序列聚类的问题,这意味着具有不同阶段和不同长度的时间序列的聚类。时间序列聚类是一种基本的数据分析方法,具有广泛的应用范围。与其他聚类任务相比,在时间序列聚类的情况下,我们通常面临距离函数的问题。这是因为如何比较具有不同长度和不同相位的时间序列并非易事。如果我们采用不适当的距离,则将得出毫无意义的结果。特别是,众所周知的“正弦波问题”是,不考虑相位差的时间序列聚类通常会得出无意义的聚类中心,这些聚类中心没有所观察到的时间序列的信息。我们提出了一种异构时间序列聚类的方法。该方法的关键思想是,我们不采用观察到的时间序列之间的距离,而是采用从观察到的时间序列中学到的模型之间的距离(即,我们使用KL距离)。采用这种方法的原因如下:(1)我们可以通过在两个模型之间的KL距离计算中采用相同的整数范围来直接比较不同长度的时间序列;(2)通过给出相同的值可以对齐相位初始条件(边界条件或整数范围的下边缘)到两个时间序列。因此,我们可以利用提出的方法对具有不同长度和各个阶段的时间序列进行聚类。の用范囲の広い分析手法である。他のクラスタリング问题を扱う场合と比べて,时系列系列)をどのように比较すれば良いかは自明ではなく,适当切な距离を采用すれば无意味な结果しか得られない。特に,位相差を无视して时系列をクラスタリングするとデータに含まれる特徴的なパターンの情报を含まない无意味なクラスター中心が得られるという问题は「正弦波问题」としてよく知られている。アイアアは时系列间の距离との测されたデータ间の距离ではなくデータから学习されたモデル间の距离(KL距离)二点である:(1)KL距离を计算する际の积分范囲を揃えることで异なる长さの観测データを直接比较でき,(2)KL距离の积分范囲の端(初期状态・境界条件)を固定ことで位相を揃えた比较ができる。このため,实行手法によって长さと位相の异で时系列のクラスタリングを実现できる。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号