首页> 中国专利> 基于K线形态聚类的相似K线序列搜索系统及方法

基于K线形态聚类的相似K线序列搜索系统及方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供一种基于K线形态聚类的相似K线序列搜索系统及方法，涉及数据评估技术领域。本发明通过对K线序列四个维度的完整数据进行定性和定量两个角度的研究，使得K线的形态特征与走势情况能被完整体现出来，用于后续步骤的相似度分析；提出相应的相似性度量与计算方法，提高搜索结果的正确性；通过聚类技术和优化搜索策略，提高搜索效率。

著录项

公开/公告号CN116541738A

专利类型发明专利
公开/公告日2023-08-04

原文格式PDF
申请/专利权人沈阳麟龙科技股份有限公司;
展开▼

申请/专利号CN202310509142.X
发明设计人张斌;王建翔;那俊;王广普;安萌;袁昊;
展开▼

申请日2023-05-08
分类号G06F18/23213(2023.01);G06F18/15(2023.01);G06F18/22(2023.01);
代理机构沈阳东大知识产权代理有限公司 21109;
代理人李运萍
地址 110169 辽宁省沈阳市浑南区白塔二南街18-2号
入库时间 2024-01-17 01:23:17

法律信息

法律状态公告日

法律状态信息

法律状态
2023-08-22

实质审查的生效 IPC(主分类):G06F18/23213 专利申请号:202310509142X 申请日:20230508

实质审查的生效

说明书

技术领域

本发明涉及数据评估技术领域，尤其涉及一种基于K线形态聚类的相似K线序列搜索系统及方法。

背景技术

当前社会已经步入高速发展时代，在金融股票投资方面，随着上市公司数量的增加，所产生的可用于分析的金融数据以及相关信息的总量在持续增加。一些研究显示，股票的K线序列具有较为明显的相似性，即在不同股票中会不断地重复出现相似的K线序列，而多项研究工作均发现，K线数据的波动在历史上能找到相似情况用于预测。因此若能查询到相似的股票K线序列，将对投资行为具有一定的指导作用。在这个大前提下，应用计算机科学技术，对股票市场中所有的股票K线数据进行深入研究，实现快速搜索相似K线序列，成为了当下一种迫切而具有经济潜力的需求。

K线数据的定性分析是解读K线图图案的重要技术手段。大多数对于K线图图案的研究都集中在单个K线图或日间价格变动上，与此同时，大多数研究中使用的K线图模式都是经验丰富的投资者的总结，这种人为衍生的“模式趋势”相关性在复杂的金融市场中通常无效。人工总结出的图案类型可以被认为是现成的专家知识，研究人员通过各种机器学习方法来验证这一专家知识的准确性。事实上，现有的“K线图模式”通常由自然语言或模糊规则描述，不适合使用计算机技术进行直接分析。因此许多研究人员在K线图数据的基础上加入了其他技术指标以提高模型准确性。

而K线数据的定量分析研究，主要聚焦于衡量数据相似性的方法。时间序列数据相似性的度量方法经常用于分析K线图这类数据的相似情况。相似性度量可分为四类：基于形状的距离比较序列的整体形状、基于编辑的距离根据将一个序列转换为另一个序列所需的最小操作数比较两个时间序列的差异、基于特征的距离提取描述序列的特征然后将其与任何类型的距离函数进行比较、基于结构的相似性旨在找到系列中更高层次的结构以便在更全面的范围内进行比较，以上四种方法分别关注数据的数值性质或关注形态性质。

现有技术使用的相似性度量方法往往没有结合定性分析与定量分析，导致只考虑数值性质或只考虑形态性质。只使用定性分析的方案，往往使用简单的数学方法，未能指示时间序列数据表现出的形态性质；只使用定量分析的方案，多使用基于距离的算法，并且为了方便计算，K线的四个维度往往只有一个被使用，对数值性质参考性较差。

发明内容

针对现有技术的不足，本发明提供一种基于K线形态聚类的相似K线序列搜索系统及方法。

一方面，一种基于K线形态聚类的相似K线序列搜索系统，包括离线定性聚类模块和在线定量搜索模块；

所述离线定性聚类模块包括数据获取模块、数据表示模块和聚类存储模块：所述数据获取模块用于从互联网上获取所需K线数据并进行整理与清洗；所述数据表示模块用于对数据进行定性分析完成重新表示的过程，将数据表示为同时具备形态特征和数据特征的形式；所述聚类存储模块用于将数据表示模块表示完成的K线数据，按K-中心点聚类法得出相应的聚类结果，将处理完毕的K线数据划分为多个聚类簇；

所述在线定量搜索模块包括K线分簇模块、相似计算模块和结果输出模块：所述K线分簇模块用于在用户输入待计算相似的K线数据后，对其进行聚类计算，以此得到输入K线数据的归属类簇；所述相似计算模块用于在得出的归属类簇中进行相应的相似度计算，并按设计好的优化搜索策略得出结果；所述结果输出模块用于输出最相似的K线片段或K线片段列表。

另一方面，一种基于K线形态聚类的相似K线序列搜索方法，基于前述的基于K线形态聚类的相似K线序列搜索系统及方法实现，包括以下步骤：

步骤1：从互联网获取所需要的K线数据，并将其进行清洗，剔除空白数据和残损数据后，存入数据库或者内存中；

步骤2：当完成K线数据的获取后，要对步骤1中获取的数据进行定性分析，从而完成重新表示的过程，以此将数据表示为同时具备形态特征和数据特征的形式；

步骤2.1：加载步骤1中清洗处理完毕的K线数据；

步骤2.2：根据步骤2.1中所获得的K线数据四个维度之间的大小关系，用不同的字符代表不同的大小关系，以字符串形式代表其具体的走势表示；

步骤2.3：当数据的重新表示处理完毕时，跳转至步骤3；

步骤3：基于步骤2得到的重新表示后的K线数据，按K-MEDOIDS聚类方法得出相应的聚类结果，将处理完毕的K线数据按照K-中心点聚类法进行聚类，得出多个聚类簇，并在此过程中，对生成的聚簇的不断进行检验，如果发现聚类不平衡或者聚簇中点的间距过大，则重新开始进行聚类，直到所有点都处于间距合理的平衡聚簇中；

所述聚类方法为K-MEDOIDS，即K-中心点聚类法，选取中心点medoids作为质心，选取簇中心点的准则是：当前簇中所有其他点到该中心点的距离之和最小，按照该准则进行迭代，直至全部点均被遍历完成；

步骤4：接收用户端输入的待搜索相似的K线数据，基于步骤3得到的聚簇进行K-MEMODIDS聚类计算，获取用户输入数据的所属类簇；

步骤5：根据步骤4得到的所属类簇，获取该类簇中的全部数据，一一与用户输出数据进行DTW相似度计算，按给定的优化搜索策略得出最相似的K线片段或K线片段列表，并将结果进行输出；

步骤5.1：加载步骤4中得到的用户输入数据所属类簇的全部数据；

步骤5.2：对用户输入数据，运用相似度计算算法DTW一一计算它与所属类簇其他数据的相似度，其中距离计算度量为欧式距离；

所述相似度计算算法DTW，即Dynamic Time Warping，动态时间归整算法，是一种动态规划算法；假设有两个时间序列C和Q，长度分别为m和n，其中，c

C＝c

Q＝q

为了对齐两个序列，相似度计算算法DTW中构造了一个m×n的矩阵，矩阵的位置(i,j)用于存储点c

所述优化策略选用下界函数方法LB，即lower bounding，建立边界来剪枝；对于时间序列C和Q，基于其中的一个建立一个上界upper bound，即U，和下界lower bound，即L来封装查询序列，计算过程中，对于对比序列Q和C，基于其中的一个建立一个上界U和下界L来封装查询序列，如下式所示；

其中q

步骤5.3：按照用户给定的要求，得出最相似的K线片段或K线片段列表，并将结果进行输出。

采用上述技术方案所产生的有益效果在于：

本发明提供一种基于K线形态聚类的相似K线序列搜索系统及方法。本发明可以基于K线数据的形态性质和数值性质，计算得出有实际意义的K线数据相似度；对K线数据进行重新表示、对聚簇进行动态更新以及对相似度计算策略的优化，可以保证搜索的高效性。

附图说明

图1为本发明实施例中系统模块图；

图2为本发明实施例中LB_Keogh函数示意图；

图3为本发明实施例中方法流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

一方面，一种基于K线形态聚类的相似K线序列搜索系统，如图1所示，包括离线定性聚类模块和在线定量搜索模块；

另一方面，一种基于K线形态聚类的相似K线序列搜索方法，基于前述的基于K线形态聚类的相似K线序列搜索系统及方法实现，如图3所示，包括以下步骤：

步骤1：从互联网获取所需要的K线数据，并将其进行清洗，剔除空白数据和残损数据后，存入数据库或者内存中；

步骤2.1：加载步骤1中清洗处理完毕的K线数据；

步骤2.2：根据步骤2.1中所获得的K线数据四个维度之间的大小关系，用不同的字符代表不同的大小关系，以字符串形式代表其具体的走势表示；

步骤2.3：当数据的重新表示处理完毕时，跳转至步骤3；

所述聚类方法为K-MEDOIDS，即K-中心点聚类法，该算法区别于传统聚类算法，不选用一个簇中所有点的平均值作为质心，而是采用簇中位置最中心的对象，选取中心点medoids作为质心，选取簇中心点的准则是：当前簇中所有其他点到该中心点的距离之和最小，按照该准则进行迭代，直至全部点均被遍历完成；

步骤4：接收用户端输入的待搜索相似的K线数据，基于步骤3得到的聚簇进行K-MEMODIDS聚类计算，获取用户输入数据的所属类簇；

步骤5.1：加载步骤4中得到的用户输入数据所属类簇的全部数据；

步骤5.2：对用户输入数据，运用相似度计算算法DTW一一计算它与所属类簇其他数据的相似度，其中距离计算度量为欧式距离；

所述相似度计算算法DTW，即Dynamic Time Warping，动态时间归整算法，是一种动态规划算法；假设有两个时间序列C和Q，长度分别为m和n，其中，c

C＝c

Q＝q

为了对齐两个序列，相似度计算算法DTW中构造了一个m×n的矩阵，矩阵的位置(i,j)用于存储点c

所述优化策略选用下界函数方法LB，即lower bounding，建立边界来剪枝；对于时间序列C和Q，基于其中的一个(此处为Q)建立一个上界upper bound，即U，和下界lowerbound，即L来封装查询序列，计算过程中，对于对比序列Q和C，基于其中的一个(此处为Q)建立一个上界U和下界L来封装查询序列，如图2所示；通过如下公式来计算图中阴影部分面积：

其中q

步骤5.3：按照用户给定的要求，得出最相似的K线片段或K线片段列表，并将结果进行输出。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种单K线形态或组合K线形态跟踪匹配金融产品的方法和系统 [P] . 中国专利： CN114266670A . 2022-04-01
2. 基于K线图表示的金融时间序列相似性查询方法 [P] . 中国专利： CN104572886B . 2018-01-30
3. METHOD FOR AUTOMATIC ITERATIVE CLUSTERISATION OF ELECTRONIC DOCUMENTS ACCORDING TO SEMANTIC SIMILARITY, METHOD FOR SEARCH IN PLURALITY OF DOCUMENTS CLUSTERED ACCORDING TO SEMANTIC SIMILARITY AND COMPUTER-READABLE MEDIA [P] . 俄罗斯专利： RU2556425C1 . 2015-07-10

机译：一种基于语义相似度的电子文档自动迭代聚类的方法，一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质
4. METHOD AND SYSTEM FOR OFFERING CLUSTERED SEARCH RESULT BASED ON RELATIONSHIP BETWEEN THE SEARCH RESULT AND METHOD AND SYSTEM FOR CLUSTERING SEARCH RESULT [P] . 韩国专利： KR20090083223A . 2009-08-03

机译：基于搜索结果之间的关系的聚类搜索结果的方法和系统以及聚类搜索结果的方法和系统
5. How to cluster the method for providing the search results clustered on the basis of the association degree between the search results and search results, and system and the system [P] . 韩国专利： KR100932843B1 . 2009-12-21

机译：如何聚类提供基于搜索结果与搜索结果之间的关联度而聚类的搜索结果的方法，系统和系统