首页> 中国专利> 基于K线图表示的金融时间序列相似性查询方法

基于K线图表示的金融时间序列相似性查询方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于K线图表示的金融时间序列相似性查询方法，包括特征提取、索引构建和查询处理步骤。首先，基于K线表示对金融时间序列提取基本模式与典型模式特征，将其分别转化为基本字符串与典型字符串；然后，分别对两者构建倒排索引。对于每条查询序列，经相同方式提取基本模式与典型模式特征后，分别查询所构建的两个倒排索引，获取两个候选集，然后求交集运算得到最终候选集；再经后续处理得到最终查询结果。本发明可有效实现k最近邻查询，具有较高的度量精度及查询效率，并对时间序列长度、k最近邻查询规模及数据集规模具有良好的扩展性。在规模日益扩大的电子化金融交易市场中可发挥重要作用。

著录项

公开/公告号CN104572886A

专利类型发明专利
公开/公告日2015-04-29

原文格式PDF
申请/专利权人浙江大学;
展开▼

申请/专利号CN201410812464.2
发明设计人蔡青林;陈岭;孙建伶;陈蕾英;
展开▼

申请日2014-12-23
分类号G06F17/30;
代理机构杭州求是专利事务所有限公司;
代理人邱启旺
地址 310058 浙江省杭州市西湖区余杭塘路866号
入库时间 2023-12-18 08:30:18

法律信息

法律状态公告日

法律状态信息

法律状态
2018-01-30

授权

授权
2015-05-27

实质审查的生效 IPC(主分类):G06F17/30 申请日:20141223

实质审查的生效
2015-04-29

公开

公开

说明书

技术领域

本发明涉及数据库、数据挖掘、信息检索等领域，尤其涉及金融时间序列数据分析和挖掘。

背景技术

时间序列广泛存在于人们的日常生活及工业生产中，如基金或股票的实时交易数据，零售市场的日销量数据，流程工业的传感器监测数据，天文观测数据，航空航天雷达、卫星监测数据，实时天气温度及空气质量指数等。

时间序列相似性查询，又称为时间序列的样例检索，在工业界和金融界有着广泛的应用需求。比如，在股票市场的实时交易中，交易员想要从海量的历史股票数据中，查询出与当前时刻股票走势的形态最相似的k条历史序列作为参考，来获取有价值的知识和启发，完成交易行为。很明显，解决该问题的最简单方法是对数据库的线性扫描，然而这种将查询序列与数据库每条序列一一对比的方法具有很高的时间开销。因此，工业界通常采用空间索引方法，如R树、R*树、网格文件等。但是，大多数空间索引方法的性能，会随着时间序列维度的升高而迅速降级，即出现“维度灾难”。所以，传统的查询方法在对时间序列构建空间索引之前，会首先采用特定的数据表示方法提取时间序列的特征，以实现降维。

目前工业界常用的数据表示方法可分为非数据适应性和数据适应性方法。对于前者，变换参数不受单独的时间序列影响，而始终保持不变；该类表示大多基于频谱分解实现，如离散傅里叶变换、离散小波变换、离散余弦变换，其主要通过对原始时间序列做相应的频域变换，提取主要的频谱系数作为特征；该类方法各有缺陷，如离散傅里叶变换只能提取总体形态特征而忽略了局部特征，离散小波变换只能处理长度为2的指数次的时间序列，离散余弦变换的信息丢失较多，对原始数据的重构误差较大。数据适应性表示是指对变换参数的确定需要依赖数据本身；通过增加数据敏感的选择处理过程，可以把大部分非数据适应性方法变为数据适应性方法。该类方法有分段聚集近似、分段线性近似、符号化聚集近似、奇异值分解、主成分分析等，前三种都需要先对原始时间序列进行分段，然后对每一子段单独处理(分段聚集近似是对各段求平均值，分段线性近似是对各段做线段拟合，符号化聚集近似是在分段聚集近似基础上将每段平均值离散化为符号)，由于其所提取的特征较为单一，使其对时间序列波动模式的表达能力较弱。奇异值分解和主成分分析通过对所有时间序列做统一的特征矩阵分解实现，这两类方法的典型缺陷是计算复杂度高，而且分解过程只能在内存完成，数据规模的可扩展性很低。

工业界迄今采用的索引方法大多是基于树的空间索引，B-树最先用于索引一维数据，是许多分层索引结构的基础；R-树系列，如R*-树、R⁺-树等，采用最小边界矩形组织数据，但是最小边界矩形会覆盖大量无数据的空间，导致查询结果存在大量的“误命中”，从而降低查询效率；A-树使用了向量近似文件来存储最小边界矩形和虚拟边界矩形的上下边界，从而保证较低的索引开销和较高的查询完备性。由于工业生产中的时间序列具有高维或超高维特性，即使在精度损失可接受的范围内做降维处理，仍然可能具有很高的维度，因此，基于树的索引方法很容易出现“维度灾难”问题。

发明内容

本发明要解决的问题是对用户任意指定的一条金融时间序列，如何快速地从大规模金融时间序列数据库中找出k条最相似的序列。为了解决该问题，本发明提出了基于K线图表示的金融时间序列相似性查询方法。

本发明的目的是通过以下技术方案实现的：一种基于K线图表示的金融时间序列相似性查询方法，包括以下步骤：

(1)特征提取，具体包括以下子步骤：

(1.1)依次读取金融时间序列数据库中的每条时间序列；

(1.2)对时间序列做z-规范化处理；

(1.3)设定K线表示粒度l，采用该粒度的窗口对步骤1.2处理得到的时间序列平均切分为w条子序列；依次提取每条子序列的初始值v_first，最大值v_max，最小值v_min，最终值v_last，构造K线图，并表示为特征向量K＝[v_first,v_max,v_min,v_last]，将金融时间序列转化为K线序列 К＝{K₁,K₂,...,K_i,…,K_w}；

(1.4)分别提取K线序列的基本模式P_basic与典型模式P_typical，将其转化为基本字符串 Str_basic与典型字符串Str_typical，具体为：

(1.4.1)将金融时间序列在金融交易市场中单位时间段的最大升降幅度范围平均划分为 n个区间，并从0开始依次递增编号；

(1.4.2)依次扫描每对相邻的K线组合<K_i,K_i+1>，计算K_i+1的四个特征相对于K_i的最终值K_i(v_last)的升降幅度，并分别映射到步骤1.4.1划分的相应区间，以区间编号表示各特征，得到离散化特征向量D_i+1；将<D_i,D_i+1>的各元素依次分配到连续存储单元，组合为基本模式 P_basic，由此将K线序列转化为基本字符串Str_basic；

(1.4.3)采用金融技术分析领域的Ω种多K线组合模式作为典型模式库P_typical_base，并将每个典型模式P_typical以离散化特征向量的形式存储；依次扫描K线序列，若以K_i起始的多 K线组合<K_i,K_i+1,...,K_i+η>与P_typical_base中的典型模式相匹配，则进行提取并根据1.4.2的方式编码存储，由此将K线序列转化为典型字符串Str_typical；

(2)索引构建，具体包括以下子步骤：

(2.1)基于Lucene全文检索开源框架，以P_basic作为索引项，对所有基本字符串Str_basic构建基本模式倒排索引P_basic_index；

(2.2)基于Lucene全文检索开源框架，以P_typical作为索引项，对所有典型字符串Str_typical构建典型模式倒排索引P_typical_index；

(3)查询处理，具体包括以下子步骤：

(3.1)将查询时间序列Q进行与步骤1相同的特征提取，得到基本字符串Str_basic(Q)与典型字符串Str_typical(Q)；

(3.2)对Str_basic(Q)查询步骤2.1得到的基本模式倒排索引P_basic_index，获取包含M个候选对象的候选集C₁；

(3.3)对Str_typical(Q)查询步骤2.2得到的典型模式倒排索引P_typical_index，获取包含N个候选对象的候选集C₂；

(3.4)对C₁与C₂求交集，得到包含Γ个候选对象的最终候选集C₃；

(3.5)对C₃中的每个候选对象，通过磁盘I/O读取原始序列，并与查询时间序列Q的原始值进行相似性度量，根据相似性度量值，对C₃的所有候选对象进行排序，保留k个最相似的候选序列作为最终的查询结果并返回。

本发明的有益效果是：

1、在特征提取阶段，采用了K线表示方法，适用于金融时间序列特有的波动特性和应用需求；对时间序列分别提取基本模式与典型模式特征，可分别捕捉金融时间序列的基本波动特性与具有重要参考价值的指示性信号特征，有利于对金融时间序列做精确地相似性匹配。

2、基于倒排索引的查询方式，可实现灵活高效地查询处理，并且可实现对任意长时间序列的索引和查询；基于Lucene全文检索开源框架，保证了索引规模具有较低的空间开销，以及查询过程的高效性。

3、本发明可有效实现k最近邻查询，具有较高的度量精度及查询效率，并对时间序列长度、k最近邻查询规模及数据集规模具有良好的扩展性。

附图说明

图1为基于K线图表示的金融时间序列相似性查询方法流程图；

图2为提取K线序列基本模式特征流程图；

图3为基本模式倒排索引结构。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1所示，本发明基于K线图表示的金融时间序列相似性查询方法，包括以下步骤：

(1)特征提取，具体包括以下子步骤：

(1.1)依次读取金融时间序列数据库中的每条时间序列T＝{t₁,t₂,…,t_i,…,t_n}；

(1.2)计算时间序列T所有采样点的平均值m和标准差σ，根据公式(1)对T做z-规范化处理，得到规范化的时间序列T'＝{t'₁,t'₂,…,t'_i,…,t'_n}；

${t^{'}}_{i} = \frac{t_{i} - m}{σ} - - - (1)$

(1.3)设定K线表示粒度l，采用该粒度的窗口W对步骤1.2处理得到的T'平均切分为 w条不重叠的子序列S_T'＝{S₁,S₂,...,S_w}；依次提取每条子序列的初始值v_first，最大值v_max，最小值v_min，最终值v_last，构造K线图，表示为特征向量K＝[v_first,v_max,v_min,v_last]，将T'转化为K 线序列，表示为К＝{K₁,K₂,...,K_w}；

(1.4)分别提取К的基本模式P_basic与典型模式P_typical，将其转化为基本字符串Str_basic与典型字符串Str_typical，具体为：

(1.4.1)将金融时间序列单位时间段的最大升降幅度范围[Θ_low,Θ_up]平均划分为n个区间，并从0开始依次递增编号α₀,α₁,α₂,....,α_n-1；

(1.4.2)依次扫描每对相邻的K线组合<K_i,K_i+1>，根据公式(2)计算K_i+1的四个特征 K_i+1(v_first)、K_i+1(v_max)、K_i+1(v_min)、K_i+1(v_last)相对于K_i的最终值特征K_i(v_last)的升降幅度θ_first、θ_max、 θ_min、θ_last，并根据公式(3)分别映射到步骤1.4.1划分的相应区间，以区间编号α_x表示各特征，得到离散化特征向量D_i+1＝[α_first,α_max,α_min,α_last]；将<D_i,D_i+1>的各元素依次分配到连续存储单元，组合为基本模式P_basic，由此将К转化为基本字符串Str_basic＝{P_{basic_1},P_{basic_2},…,P_{basic_w-1}}，该过程如图2所示；

$θ (\cdot) = \frac{K_{i + 1} (\cdot) - K_{i} (v_{last})}{K_{i} (v_{last})} - - - (2)$

(1.4.3)采用金融技术分析领域的Ω种多K线组合模式作为典型模式库P_typical_base，并将每个典型模式P_typical以离散化特征向量的形式存储；顺序扫描К，若以K_i起始的多K线组合<K_i,K_i+1,...,K_i+η>与P_typical_base中的典型模式P'_typical相匹配，则进行提取并根据1.4.2的方式编码存储，由此将К转化为典型字符串Str_typical＝{P_{typical_1},P_{typical_2},…,P_{typical_κ}}；

(2)索引构建，具体包括以下子步骤：

(2.1)基于Lucene全文检索开源框架，以所有类型的P_basic作为term构建词典；以<K_id, loc>作为posting构建索引文件，其中，K_id表示具有P_{basic_i}的K线序列K_j的ID，loc表示 P_{basic_i}在K_j中的位置；由此实现对所有Str_basic构建基本模式倒排索引P_basic_index，索引结构如图3所示；

(2.2)与步骤2.1类似，实现对所有Str_typical构建典型模式倒排索引P_typical_index；

(3)查询处理，具体包括以下子步骤：

(3.1)将查询时间序列Q进行与步骤1相同的特征提取，得到基本字符串Str_basic(Q)与典型字符串Str_typical(Q)；

(3.2)基于Lucene全文检索开源框架，对Str_basic(Q)查询P_basic_index，获取包含M个候选对象的候选集C₁＝{c₁,c₂,...,c_M}，其中所有候选对象按照与Str_basic(Q)的余弦距离值由小到大排序；

(3.3)同理，对Str_typical(Q)查询P_typical_index，获取包含N个候选对象的候选集C₂＝{c'₁, c'₂,...,c'_N}，其中所有候选对象按照与Str_typical(Q)的余弦距离值由小到大排序；

(3.4)对C₁与C₂求交集，得到包含Γ个候选对象的最终候选集C₃＝{c"₁,c"₂,...,c"_Γ}；若Γ<k，则从C₁中由前向后顺序读取不包含于C₃的H个候选对象加入C₃，其中Γ+H>k， k表示最近邻查询结果数目；

(3.5)对C₃中的每个候选对象c"_i，通过磁盘I/O读取其原始序列T_i，根据公式(1)做z- 规范化处理得到T_i'，与规范化的查询序列Q'进行相似性度量或距离度量，求得相似度sim_i或距离dist_i；根据相似性度量值，对C₃的所有候选对象进行降序排序，或根据距离度量值，对C₃的所有候选对象进行升序排序；保留前k个候选对象作为最终的查询结果并返回。

本发明针对金融领域规模日益膨胀的金融时序数据库，提出了基于K线图表示的金融时间序列相似性查询方法，可实现高效的k最近邻近似查询。基于本发明能够在规模庞大的金融时序数据库中，发掘投资者感兴趣的金融时序数据波动模式，不仅为投资者做技术分析和投资决策提供了有意义的指导，而且有利于提高自动化电子交易系统在量化交易和预测分析任务中的准确性，满足了金融领域迫切的应用需求。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于K线图表示的金融时间序列相似性查询方法 [P] . 中国专利： CN104572886B . 2018.01.30
2. 基于K线图表示的金融时间序列相似性查询方法 [P] . 中国专利： CN104572886A . 2015-04-29
3. Method for pattern-based prediction of time series of data points of e.g. financial market, involves determining similarity between current partial segments of time series and other partial segments [P] . 德国专利： DE102010034053A1 . 2012-02-16

机译：基于模式的数据点时间序列预测的方法金融市场，涉及确定时间序列的当前部分和其他部分之间的相似性
4. IDENTIFICATION OF SIMILAR QUERIES BASED ON OVERALL AND PARTIAL SIMILARITY OF TIME SERIES [P] . 美国专利： US2009006365A1 . 2009-01-01

机译：基于时间序列的整体和部分相似性的相似查询
5. FACTOR-BASED MEASURING OF SIMILARITY BETWEEN FINANCIAL INSTRUMENTS [P] . 美国专利： US2012310857A1 . 2012-12-06

机译：基于因子的金融工具之间相似性度量