首页> 中国专利> 不确定时间序列之间的相似性的广义符号表示

不确定时间序列之间的相似性的广义符号表示

摘要

一种用于发现多个时间序列之间的距离的方法,其中多个时间序列中的每个个体时间序列包括数据,其中数据是不确定数据,该方法包括:从多个时间序列选择至少两个时间序列;计算在给定时刻的两个序列之间的第一差值;将第一差值与值表进行映射;使用值表来计算第二差值,其中第二差值是时间序列之间的相似性的测量。

著录项

  • 公开/公告号CN102985917A

    专利类型发明专利

  • 公开/公告日2013-03-20

    原文格式PDF

  • 申请/专利权人 国际商业机器公司;

    申请/专利号CN201180033950.9

  • 发明设计人 S·R·萨朗吉;K·穆尔蒂;

    申请日2011-07-08

  • 分类号G06F17/18(20060101);G06K9/62(20060101);

  • 代理机构11256 北京市金杜律师事务所;

  • 代理人王茂华;黄倩

  • 地址 美国纽约阿芒克

  • 入库时间 2024-02-19 18:23:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-07-21

    未缴年费专利权终止 IPC(主分类):G06F17/18 专利号:ZL2011800339509 申请日:20110708 授权公告日:20160601

    专利权的终止

  • 2016-06-01

    授权

    授权

  • 2013-04-17

    实质审查的生效 IPC(主分类):G06F17/18 申请日:20110708

    实质审查的生效

  • 2013-03-20

    公开

    公开

说明书

技术领域

本发明涉及标识多个时间序列之间的距离。

背景技术

用于相似性搜索和数据挖掘的距离测量经常聚焦于不确定数 据,比如从传感器网络产生的数据。然而,近来已经转向认识到在许 多应用领域中应当捕获并且考虑这样的数据的不确定性。但是,没 有许多方式应对时间序列或者流传输数据。

通常,与时间序列中的不同时隙对应的值具有不同误差贡献。 需要一种用于执行数据挖掘任务、比如时间序列聚类和分类的技术。 常规距离度量无法对不确定数据有效。

论文″A framework for clustering uncertain data streams″(C.C. Aggarwal和P.S.Yu,2008)提出一种用于对不确定数据流聚类的框 架。该论文假设已知关于不确定性的一些统计量。基于这一点而创 建微聚类,并且在新数据点到来时基于预计相似性值来动态更新微 聚类。这一方式因此不适用于一般数据挖掘任务。

论文″Probabilistic similarity search for uncertain time series″(J. Aβfalg、H.Kriegel,P.Krger和M.Renz.,SSDBM,2009)和″Proud:A prob abilistic approach to processing similarity queries over uncertain data  streams″(M.Yeh、K.Wu、P.S.Yu和M.Chen,EDBT,2009)介绍了 用于时间序列数据的概率有界范围查询(PBRQ)的符号表示。给定距 离界限e和概率阈值τ,如果两个时间序列之间的距离的概率等于或者 小于e等于或者大于τ,则认为这两个时间序列相似。这是一种相似性 搜索的方式。

Aβfalg等人假设时间序列的不确定性由在每个时隙的采样集合代 表。因此,不确定时间序列T代表规律性时间序列S(T)的集合,其中通 过针对每个时隙挑选一个采样点来构造每个规律性时间序列。两个不确 定时间序列T1与T2之间的距离被定义为在来自S(T1)和S(T2)的所有 组合之间的距离的集合。并非所有应用领域针对每个时隙提供多个采样 点。这一方式也未在计算上高效。

Mi-Yen Yeh等人的方式处理的是针对数据流的不确定性。将 在每个时间点的不确定性建模为仅均值和标准差已知的连续随机变 量。在两个时间序列之间的距离是随机变量。这足以用于计算概率 有界范围查询的结果,但是它不允许直接计算在两个时间序列之间 的距离。这一方式的另一限制在于,为了使PBRQ的计算更高效并 且允许及早削减候选,而假设不确定偏差对于序列的所有时间点而 言相同。

美国专利公开US20090327185″Systems for Structural Clustering  of Time Sequences″公开了一种将两个时间序列中的误差分布的非线性 纳入考虑之中的距离函数。通过确立与接收的时间序列数据有关的结构 特征、确定在不同时间序列之间的距离,并且基于该距离将不同时间序 列分割成包含时间序列中的至少一个时间序列的聚类,从而在不同时间 序列之间执行结构聚类。

美国专利公开US20100002538″Determining the Structure of a Towed Seismic Spread Element″公开了一种在确定在地震源之间的位置/ 距离中考虑读数/测量值的非高斯误差分布的方法。

美国专利公开US20090222472″Method and Apparatus for  Aggregation in Uncertain Data″公开了一种通过考虑一阶和二阶误差统计 量来计算在误差引起的值之间的距离的特征。

美国专利公开US20030093227″Statistical Combining of Cell  Expression Profiles″公开了一种特征,其中距离函数通过使用来自多个重 复实验的数据来考虑值中的误差分布的非线性,以生成针对每个数据点 的置信度值、增加灵敏度并且消除系统性实验偏置。

生成不确定数据的基于传感器的系统变得越来越重要。另外, 传感器在工业控制系统中发挥重要作用。在多数情况下,存在与传 感器关联的某一误差量。没有用于处置不确定数据中误差的有效技 术就不可能高效处理并且有效使用传感器数据。

发明内容

本发明的实施例主要地涉及一种用于发现在多个时间序列之 间的距离的方法、系统和计算机程序产品,其中多个时间序列中的 每个个体时间序列包括数据,并且其中时间序列的数据值是不确定 的。从多个时间序列选择至少两个时间序列。计算在给定时刻的两 个序列之间的差值,并且在计算的差值与值表之间进行映射。使用 值表来计算新差值,并且使用差值来计算距离值,其中距离值是对 时间序列之间的相似性的测量。提供计算的新距离值作为例如有利 地用于与可以与其它时间序列相关联的数据挖掘任务的输入。还公 开了其它实施例。

根据第一方面,本发明相应地提供一种用于发现在多个时间序 列之间的距离的方法,其中多个时间序列中的每个个体时间序列包 括数据,其中数据是不确定数据,该方法包括:从多个时间序列选 择至少两个时间序列;计算在给定时刻两个序列之间的第一差值; 映射第一差值与值表;使用值表来计算第二差值,其中第二差值是 对时间序列之间的相似性的测量。

根据第二方面,本发明相应地提供一种至少包括处理器和存储 器的数据处理系统,该系统被配置用于发现在多个时间序列之间的 距离,其中多个时间序列中的每个个体时间序列包括数据,其中数 据是不确定数据,该系统包括:选择器,用于从多个时间序列选择 至少两个时间序列;第一计算部件,用于计算在给定时刻两个序列 之间的第一差值;映射器,用于映射第一差值与值表;第二计算部 件,用于使用值表来计算第二差值,其中第二差值是对时间序列之 间的相似性的测量。

根据第三方面,本发明相应地提供一种包括计算机程序代码的 计算机程序单元,该计算机程序代码在向计算机系统中加载并且在 计算机系统上被执行时使计算机执行如上文描述的方法的步骤。

附图说明

将参照以下附图仅通过示例描述本发明的优选实施例:

图1是图2至图5中所示一般实施例可以实施于其上的、至少 包括处理器和存储器的诸如计算机系统之类的数据处理系统的一个 示例性实施例;

图2是根据本发明一个一般实施例的典型传感器网络设置和 从多个传感器收集数据的方法的一个示例性实施例;

图3是根据本发明一个一般实施例的方法的流程图的一个示 例性实施例;

图4是根据本发明一个一般实施例的方法的流程图的一个示 例性实施例;并且

图5是根据本发明一个一般实施例的方法的流程图的一个示 例性实施例。

具体实施方式

在对于附图中的具有相同标号的步骤和/或特征的任一幅或者 多幅图进行参考时,除非出现相反意图,那些步骤和/或特征出于本 说明书的目的而具有相同功能或者操作。

“计算机”或者“数据处理系统”意指任何能够如下操作的设备: 执行方法、如这里描述的那样产生压缩位图、或者在多个压缩位图 之间和在压缩与未压缩位图之间执行逻辑比较,在如这里公开的那 样,该设备包括但不限于:微处理器、微控制器、数字状态机、现 场可编程门阵列(FPGA)、数字信号处理器、具有微处理器和模拟 或者数字输出设备的共同定位式集成存储器系统、具有由数字或者 模拟信号协议连接的微处理器和逻辑或者数字输出设备的分布式储 存器系统。

“计算机可读介质”意味着可以由计算机处理以执行这里描述 的步骤以产生、存储全球联盟混合压缩位图、对该位图执行逻辑操 作或者传输该位图的任何有组织信息源,包括但不限于:磁可读存 储系统;光学可读存储介质,比如直接方法或者光学字符识别方法 可读取的打孔卡或者印刷物质;其它光学存储介质,比如紧致盘 (CD)、数字万用盘(DVD)、可重写CD和/或DVD;电可读介 质、比如可编程只读存储器(PROM)、电可擦除可编程只读存储器 (EEPROM)、现场可编程门阵列(FPGA)、快闪随机存取存储器 (flash RAM);以及通过电磁或者光学方法(包括但不限于无线传 输、铜线和光纤)远程传输的信息。

本发明一实施例的一种计算机可读介质具有存储于其上的用 于执行方法的一个或者多个计算机程序。该计算机可读介质可以是 可读数据存储介质或者另一类型的有形计算机可读介质。该方法确 定一个或者多个第一处理器是否具有小于阈值的第一任务利用率。 第一处理器具有部分地绑定到该第一处理器的一个或者多个第一任 务,从而第一处理器默认执行第一任务。第一任务利用率是第一处 理器在执行第一任务时的利用率。响应于确定第一任务利用率小于 阈值,该方法使已经向第二处理器组迁移的一个或者多个第一任务 迁移回第一处理器组。如果这不可能,则使当前在一个或者多个第 二处理器上执行的一个或者多个第二任务向第一处理器迁移,从而 使得第一处理器执行第二任务。

本发明的另一实施例的一种计算机可读介质也具有存储于其 上的用于执行方法的一个或者多个计算机程序。该计算机可读介质 可以是可读数据存储介质或者另一类型的有形计算机可读介质。该 方法确定一个或者多个第一处理器是否具有小于一个阈值的第二任 务利用率。第一处理器具有部分地绑定到第一处理器的一个或者多 个第一任务,从而第一处理器默认执行第一任务。第一处理器当前 执行已经迁移到第一处理器并且未部分地绑定到第一处理器的一个 或者多个第二任务。第二任务利用率是第一处理器在执行第二任务 的利用率。响应于确定第二任务利用率小于阈值,该方法使当前在 第一处理器上执行的第二任务向一个或者多个第二处理器迁移,从 而使得第二处理器执行第二任务。

图1示出了用于实施如图2至图5中所示示例数据流程实施例 所使用的下文称为计算机系统的数据处理系统的具体示意图。计算 机系统100至少包括处理器104。应当理解,虽然图1图示了单个处 理器,但是本领域技术人员将理解可以如需要的那样包括多个处理 器。处理器104连接到通信基础架构102(例如通信总线、交叉杆 (cross-over bar)或者网络),其中通信基础架构104被配置成有助 于在示例计算机系统100的各种单元之间的通信。根据这一示例计 算机系统来描述各种软件实施例。在阅读本说明书之后,如何使用 其它计算机系统和/或计算机架构来实施本发明将变得为本领域普通 技术人员所清楚。

示例计算机系统100可以包括显示接口108,该显示接口108 配置成转发来自通信基础架构102(或者来自未示出的帧缓冲器)的 图形、文字和其它数据用于在显示单元110上显示。计算机系统100 也包括主存储器106(可以是随机存取存储器(RAM))并且也可 以包括辅存储器112。辅存储器112可以例如包括硬盘驱动器114 和/或可拆卸存储驱动器116,该可拆卸存储驱动器代表软盘驱动器、 磁带驱动器、光盘驱动器等。可拆卸存储驱动器116以本领域普通 技术人员公知的方式从可拆卸存储单元118读取和/或向可拆卸存储 单元118写入。可拆卸存储单元118例如代表由可拆卸存储驱动器 116读取和写入的软盘、磁带、光盘等。如将理解的那样,可拆卸存 储单元118包括计算机可用存储介质,该计算机可用存储介质具有 存储于其中的计算机软件和/或数据。

在示例性实施例中,辅存储器112可以包括用于允许向计算机 系统中加载计算机程序或者其它指令的其它相似装置。这样的装置 可以例如包括可拆卸存储单元122和接口120。这样的装置的示例可 以包括程序盒和盒接口(比如在视频游戏设备中发现那样)、可拆 卸存储器芯片(比如EPROM或者PROM)和关联插口以及其它可 拆卸存储单元122和允许从可拆卸存储单元122向计算机系统100 传送软件和数据的接口120。

计算机系统100也可以包括通信接口124。通信接口124允许 在计算机系统与外部设备之间传送软件和数据。通信接口124的示 例可以包括调制解调器、网络接口(比如以太网卡)、通信端口、 PCMCIA槽和卡等。经由通信接口124传送的软件和数据是以信号 的形式,这些信号可以例如是能够由通信接口124接收的电子、电 磁、光学或者其它信号。经由通信路径(也就是信道)126向通信接 口124提供这些信号。信道126携带信号,并且可以使用接线或者 线缆、光纤、电话线、蜂窝电话线、RF链路和/或其它通信信道来实 施。

参照公开的实施例,术语“计算机程序介质”、“计算机可用介 质”和“计算机可读介质”用来一般指代介质,比如主存储器106和辅 存储器112、可拆卸存储驱动器116、安装于硬盘驱动器114中的硬 盘和信号。这些计算机程序产品是用于向计算机系统提供软件的装 置。计算机可读介质允许计算机系统从计算机可读介质读取数据、 指令、消息或者消息分组和其它计算机可读信息。计算机可读介质 例如可以包括非易失性存储器,比如软盘、ROM、闪存、盘驱动存 储器、CD-ROM和其它持久储存器。它例如可以用来在计算机系统 之间传送信息,比如数据和计算机指令。另外,计算机可读介质可 以包括暂时状态介质中的计算机可读信息,该暂时状态介质比如是 网络链路和/或网络接口,包括允许计算机读取这样的计算机可读信 息的有线网络或者无线网络。

计算机程序(这里也称为计算机控制逻辑)存储于主存储器 106和/或辅存储器112中。也可以经由通信接口124接收计算机程 序。这样的计算机程序在被执行时可以使计算机系统能够实现如这 里讨论的本发明示例性实施例的特征。具体而言,计算机程序在被 执行时使处理器104能够执行计算机系统100的特征。因而,这样 的计算机程序代表计算机系统的控制器。

上文公开的实施例可以实施为一种涉及到软件、固件、微代码、 硬件(比如逻辑、存储器)和/或其任何组合的方法、装置或者制造 品。这里所用的术语“制造品”指代介质中实施的代码或者逻辑和存 储器,其中这样的介质可以包括硬件逻辑和存储器[例如集成电路芯 片、可编程门阵列(PGA)、专用集成电路(ASIC)等]或者诸如磁 存储介质(例如硬盘驱动器、软盘、带等)之类的计算机可读介质、 光学储存器(CD-ROM、光盘等)、易失性和非易失性存储器设备[例 如电可擦除可编程只读存储器(EEPROM)、只读存储器(ROM)、 可编程只读存储器(PROM)、随机存取存储器(RAM)、动态随 机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、 固件、可编程逻辑等]。计算机可读介质中的代码由处理器访问和执 行。代码或者逻辑被编码于其中的介质也可以包括通过空间或者诸 如光纤、铜线等传输介质传播的传输信号。

传输信号(其中编码了代码或者逻辑)还可以包括无线信号、 卫星传输、无线电波、红外线信号、蓝牙、因特网等。代码或者逻 辑被编码于其中的传输信号能够由发送站发送并且由接收站接收, 其中可以在接收和发送站或者设备的硬件或者计算机可读介质中解 码并且存储被编码在传输信号中的代码或者逻辑。此外,“制造品” 可以包括在其中实现、处理并且执行代码的硬件与软件部件的组合。 当然,本领域技术人员将认识到可以进行许多修改而未脱离实施例 的范围,并且制造品可以包括任何信息承载介质。例如制造品包括 存储介质,该存储介质具有存储于其中的在由机器执行时导致操作 被执行的指令。

某些实施例可以采用全硬件实施例、全软件实施例或者包含硬 件与软件单元二者的实施例的形式。在一个优选实施例中,在包括 但不限于固件、常驻软件、微代码等的软件中实施本发明。除非另 有指明,则相互通信的单元无需相互连续通信。此外,相互通信的 单元可以直接或者通过一个或者多个中介间接通信。此外,对若干 部件相互通信的实施例的描述未意味着需要所有这样的部件。恰好 相反,描述多种可选部件以举例说明广泛多种可能实施例。

本发明一实施例的一种系统包括处理器和计算机可读介质。将 处理器组织成处理器组。每个处理器组具有分配至其中的一个或者 多个处理器。计算机可读介质用于存储用于每个处理器组的本机任 务列表、外来任务列表和迁移任务列表。本机任务是如下那些任务, 这些任务已经部分向处理器组绑定,从而处理器组的处理器默认执 行本机任务。注意本机任务列表未包含存在于迁移任务列表中的任 务。外来任务是如下那些任务,这些任务已经部分地绑定到不同处 理器组、但是已经暂时迁移到处理器组,从而处理器组的处理器暂 时执行外来任务。迁移任务是处理器组的如下那些本机任务,这些 任务已经暂时从处理器离开而向不同处理器组迁移,从而使得不同 处理器组的处理器暂时执行迁移任务。

现在参照图2,该图图示了根据本发明的一般实施例的典型传 感器网络设置和用于从多个传感器收集数据的方法的一个示例性实 施例。典型传感器201...20N说明了耦合到数据库的网络中的多个传 感器的网络设置,其中N是整数。存在多个传感器201...20N,因此 如果每个传感器产生传感器值,例如可以将这些传感器值或者数据 值记录为时间序列,则对于多传感器网络产生多个传感器值。在步 骤210优选地按照时间或者按照传感器在网络中的位置将传感器产 生的传感器值聚合成时间序列。在步骤220中,可以在贮存库中存 储针对多个传感器收集的各种时间序列。在步骤230中,如果需要 附加时间序列数据,则可以向传感器产生请求或者可以对传感器编 程以定期送入可以被聚合、然后在贮存库中存储的传感器值。

图3是根据本发明一个一般实施例的方法的流程图的一个示 例性实施例。图3图示了用于任何业务智能应用的典型流程,该业 务智能应用将使用由传感器产生的时间序列数据。在步骤310中, 首先初始化业务应用。在步骤320中,配置应用以对贮存库中可用 的时间序列数据迭代。在步骤330中,进行检查以确定在贮存库中 是否有任何附加时间序列数据。如果无附加数据,则向用户提供输 出360。如果在贮存库中存在可用的附加时间序列数据,则在步骤 340中从贮存库中的多个时间序列数据选择至少两个时间序列数据 并且计算在两个时间序列数据之间的距离。在步骤350中处理并且 聚合作为结果的计算距离,并且在步骤360中向用户提供输出。用 于时间序列数据的多数业务智能应用在时间序列数据库内迭代(步 骤320)并且计算在两个时间序列之间的距离(步骤340)。这样的 业务智能应用的示例包括分类、k最近邻居搜索和motif检测。

图4是根据本发明一般实施例的方法的流程图的一个示例性 实施例,该流程图图示了用于对时间序列数据的最近邻居搜索的示 例工作流程。在步骤410中,读取输入时间序列(TS),将针对该 TS发现最近邻居(也就是与TS具有最小距离的时间序列TS’)。在 步骤420中,将最小距离设置成最大值,并且将最终保持TS的最近 邻居的结果变量NN设置成空值。在步骤430中,对所有时间序列 (TS’)执行迭代,其中时间序列TS是将针对其发现最近邻居的时 间序列,并且TS’相继地取所有其它时间序列的值。在步骤440中, 进行检查以确定在贮存库中是否有任何附加时间序列。如果无任何 新时间序列,则在步骤470中输出最近邻居NN。如果在贮存库中有 附加新时间序列,则在步骤450中计算在时间序列TS与TS’之间的 距离,并且在步骤460中,如果距离小于最小距离,则将距离设置 为最小距离并且将最近邻居NN设置成TS’。

图5是根据本发明一个一般实施例的方法的流程图的一个示 例性实施例。所示图5基于欧几里得(Euclidean)距离的修改,但 是也可以与动态时间弯曲(DTW)距离结合使用。在步骤510中, 对时间序列T1和T2接收作为输入。在步骤520中,将距离d设置 成零,并且规范化时间序列T1和T2。在步骤530中,选择在时间 序列中的给定时刻的数据值。对于每对时间序列,将这一数据值表 示为T1.v和T2.v。在步骤540中,计算在两个数据值T1.v与T2.v 之间的距离d2。在550中,基于为当前数据值对而选择的误差函数, 选择适当的查找表。在步骤560中,对查找表执行二元搜索以在查 找表中对d1的正确段定位。一旦从查找表确定d1,在步骤570中基 于该段的起点和斜率计算距离值d2。在步骤580中,计算d2的平方 并且将计算的d2的平方与距离d相加。在步骤590中,向用户提供 d的平方根。

另外,虽然可以按照依次顺序描述过程步骤、方法步骤等,但 是这样的过程、方法和算法可以被配置成按照替代顺序工作。换而 言之,可以描述的任何步骤序列或者顺序未必指示要求按照该顺序 执行步骤。可以按照任何实际顺序执行这里描述的过程步骤。另外, 可以同时、并行或者并发执行一些步骤。另外,可以在运行时间模 式中执行一些或者所有步骤。

除非另有指明,则措词“某些实施例”、“一实施例”、“实施例 (单数)”、“实施例(复数)”、“该实施例(单数)”、“该实施例(复 数)”、“一个或者多个实施例”、“一些实施例”和“一个实施例”意味 着一个或者多个(但是并非所有)实施例。除非另有指明,则措词“包 括”、“具有”及其变化意味着“包括但不限于”。除非另有指明,上述 枚举的多项的列表并不意味着这些项中的任何或所有项都是互相排 斥的。除非另有指明,则措词“一(个/种)”和“该/所述”意味着“一个 或者多个”。

一个或者多个计算机程序在本文中意味着指令集的以任何语 言、代码或者符号表示的任何表达,该指令集旨在于使具有信息处 理能力的系统直接执行或者在以下操作中的任一操作或者两个操作 之后执行特定功能:a)向另一语言、代码或者符号表示转换;b) 以不同材料形式再现。

虽然已经具体描述本发明的示例性实施例,但是应当理解可以 对其进行各种改变、替换和变更而未脱离如所附权利要求限定的本 发明的精神实质和范围。可以在每个特定应用所希望的任何组合中 实现针对本发明的示例性实施例而描述的变化。因此,并非所有应 用需要使用可以对于特定应用具有特定优点的、这里描述的特定限 制和/或实施例增强。无需在包括关于本发明的示例性实施例描述的 一个或者多个概念的方法、系统和/或装置中实施所有限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号