首页> 中国专利> 基于贝叶斯分类器的股票中长期趋势预测方法及系统

基于贝叶斯分类器的股票中长期趋势预测方法及系统

摘要

本发明涉及一种基于贝叶斯分类器的股票中长期趋势预测方法,包括:股票数据的选取,确定各个起始点及区间长度dj;划分区间,计算出历史数据区间斜率;对历史数据区间斜率进行学习并对置信度判断区间进行预测,得到以置信度判断区间起始点为起点的多个交易日的股票均价;计算置信度,将置信度与预先设定好的阈值进行比较;预测未来区间斜率,将未来区间斜率转化得到以预测区间起始点为起点的多个交易日的股票均价;将以预测区间起始点为起点的多个交易日的股票均价的涨跌进行归一化,得到股票的涨跌值;构建股票池。本发明避免了产生累积误差,展现出了在预测区间内的股票趋势变化,更好地捕捉了股市波动变化趋势,更加有效地评估了交易风险。

著录项

  • 公开/公告号CN104751363A

    专利类型发明专利

  • 公开/公告日2015-07-01

    原文格式PDF

  • 申请/专利权人 北京工商大学;

    申请/专利号CN201510131326.2

  • 发明设计人 金学波;聂春雪;施彦;

    申请日2015-03-24

  • 分类号G06Q40/04(20120101);G06K9/62(20060101);

  • 代理机构11212 北京轻创知识产权代理有限公司;

  • 代理人杨立

  • 地址 100048 北京市海淀区阜成路33号

  • 入库时间 2023-12-18 09:38:21

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-01-19

    授权

    授权

  • 2015-07-29

    实质审查的生效 IPC(主分类):G06Q40/04 申请日:20150324

    实质审查的生效

  • 2015-07-01

    公开

    公开

说明书

技术领域

本发明涉及专门适用于行政、商业、金融、管理、监督或预测目 的的数据处理系统或方法,尤其是一种基于贝叶斯分类器的股票中长 期趋势预测方法及系统。

背景技术

股市是资本资源优化配置的一个重要场所,掌握其变化规律不仅 是投资者梦寐以求的事,也对宏观国民经济的研究和管理有着重要的 现实意义。由于影响股价的因素包括企业内部因素、经济因素、制度 因素、人们的心理因素等等,各种因素的影响程度和方式各不相同, 股价的准确预测难度很大。

时间序列分析在理论和经验上已成为股票市场研究的不可缺少 的部分。科学地预测股票市场的波动特征,掌握股票市场的波动规律 及其结构对风险的规避防范与管理监控有着重要意义。目前已有的方 法主要是对股票时间序列预测进行短期预测,利用短期预测的准确性 选择最优的策略。与之相比,中长期预测更着重于研究市场要素的 长期发展趋势,为企业、经济等的长期发展方向提供决策依据,使投 资者获得更高的投资收益,因此,中、长期预测也具有非常重要的意 义。

目前已有股票的中长期预测方法主要有:利用前一步的预测结果 向后迭代递推而获得后面的中长期预测(参考例文:杨一文,蔺玉佩. 模糊时间序列建模及股票市场多步预测[J].计算机工程与应用, 2014,(5):252-256.),但此方法存在累积误差,并且累积误差随着 预测步长的增长而增长;利用移动窗口算法在建模序列中删除一部分 旧数据、纳入一部分新数据的方式递推更新预测模型(参考例文:简 清明,曾黄麟,叶晓彤.基于移动窗口和动态优化的支持向量回归 在指数预测中的应用[J].计算机应用与软件,2011,(12):83-85.), 该方法中移动窗长度对建模精度有很大影响,而且只能展现预测区间 的股票均价,不能展现出在该预测区间的股票趋势的细节变化。另外, 目前的方法都是直接采用均值作为股票趋势预测的特征值,对于波动 变化大的时间序列,均值会弱化时间段的波动特征,降低中长期预测 的准确度。

发明内容

本发明所要解决的技术问题是提供一种基于贝叶斯分类器的股 票中长期趋势预测方法及系统,可以更为准确地描述区间内股票的走 势特征,使用该走势特征对未来走势进行分段预测,既不产生累积误 差,又可以展现出在预测区间内的股票变化趋势。

本发明解决上述技术问题的技术方案如下:一种基于贝叶斯分类 器的股票中长期趋势预测方法,包括以下步骤:

步骤1:选取一段时间内的股票数据,并确定学习区间起始点、 置信度判断区间起始点、预测区间起始点及区间长度dj

步骤2:对所述学习区间起始点到所述预测区间起始点之间的历 史数据以所述区间长度dj进行划分,得到多个区间,对每个所述区间 进行特征提取,计算出历史数据区间斜率。

步骤3:使用贝叶斯分类器对所述历史数据区间斜率进行学习和 预测,得到以所述置信度判断区间起始点为起点的多个交易日的股票 均价。

步骤4:通过所述以所述置信度判断区间起始点为起点的多个交 易日的股票均价来计算以所述置信度判断区间起始点为起点、所述预 测区间起始点为终点的置信度判断区间的置信度,将所述置信度与预 先设定好的阈值进行比较,若所述置信度大于所述阈值,则执行步骤 5;若所述置信度小于所述阈值,则进入等待环节,等待取得新数据 后再返回所述步骤1;

步骤5:利用当前交易日之前的相邻两个区间的前一区间与后一 区间的区间斜率概率统计关系来预测未来区间斜率,将所述未来区间 斜率进行转化得到以所述预测区间起始点为起点的多个交易日的股 票均价。

步骤6:将所述以所述预测区间起始点为起点的多个交易日的股 票均价的涨跌进行归一化,得到股票的涨跌值。

步骤7:更换不同的股票数据,重复所述步骤1至所述步骤6, 筛选出可进行预测的股票数据,并对所述可进行预测的股票数据进行 涨跌幅度标记,形成股票池。

在上述技术方案的基础上,本发明还可以做如下改进。

进一步,所述步骤2的具体实现为:

步骤A1:对所述历史数据以所述区间长度dj进行区间划分,得 到多个区间。

步骤A2:将一个所述区间中不同时刻的所有价格构成价格向量, 表示为:

e=(e1,e2,...,ed)T

其中,d=dj,表示所述区间中价格点的数量;ei(i=d)表示 所述价格向量中的每个值。

步骤A3:计算所述价格向量的平均值,表示为:

meanj=1djΣi=1djei---(1)

其中,meanj表示将所述历史数据按所述区间长度dj划分区间的 每个区间均值。

步骤A4:计算将所述历史数据按所述区间长度dj划分的每个所 述区间的历史数据区间斜率,具体为:使用y=kx+b对所述区间中的 样本进行拟合,表示为:

meanj=kjdj+lastpricej-1    (2)

其中,kj表示将所述历史数据中按所述区间长度dj划分区间的 每个区间的历史数据区间斜率;lastpricej-1表示将所述历史数据中按 所述区间长度dj划分的区间的前一个区间的最后一个值;

对公式(2)进行推导,得到:

kj=meanj-lastpricej-1dj---(3).

进一步,所述步骤3的具体实现为:

步骤B1:使用贝叶斯分类器对不同所述区间长度dj上的所述历 史数据区间斜率进行学习,得到所述历史数据中相邻两个区间的前一 区间与后一区间的区间斜率概率统计关系。

步骤B2:通过所述区间斜率概率统计关系计算得到以所述置信 度判断区间起始点为起点、按所述区间长度dj进行区间划分的置信度 判断区间斜率,将所述置信度判断区间斜率转化为所述区间长度dj的 股票均价。

步骤B3:所述区间长度dj分别取值为2、4、8、16、32,重复所 述步骤2至所述步骤B2,获得以所述置信度判断区间起始点为起点 的0-2、0-4、0-8、0-16、0-32个交易日的股票均价。

步骤B4:对所述步骤B3中得到的以所述置信度判断区间起始点 为起点的0-2、0-4、0-8、0-16、0-32个交易日的股票均价进行进一 步的划分,得到以置信度判断区间起始点为起点的0-2、2-4、4-8、 8-16、16-32个交易日的股票均价。

进一步,所述步骤B1的具体实现为:

步骤B11:确定目标状态向量w和特征向量x,其中,所述目标 状态向量w为所述历史数据中未来一个区间的所述历史数据区间斜 率,所述特征向量x为所述历史数据中当前区间的所述历史数据区间 斜率,在贝叶斯分类器中,将所述历史数据中第1个所述历史数据区 间斜率作为所述特征向量x的第1个值,第2个所述历史数据区间斜 率作为所述目标状态向量w的第1个值;将第2个所述历史数据区间 斜率作为所述特征向量x的第2个值,第3个所述历史数据区间斜率 作为所述目标状态向量w的第2个值,以此类推,将第i个所述历史 数据区间斜率作为所述特征向量x的第i个值,第i+1个所述历史数 据区间斜率作为所述目标状态向量的第i个值。

步骤B12:根据所述历史数据计算各个所述目标状态向量w的统 计分布,用高斯分布近似求出所述目标状态向量w的先验概率分布 P(w)。

步骤B13:根据所述历史数据计算在第i个所述目标状态向量w 条件下的所述特征向量x的统计分布,使用二维高斯核密度函数近似 求出条件概率分布P(x|wi),即求出所述历史数据中后一个区间的所述 历史数据区间斜率到前一个区间的所述历史数据区间斜率的区间斜 率概率统计关系。

步骤B14:利用所述先验概率分布P(w)和所述条件概率分布 P(x|wi)计算出后验概率密度P(wi|x),即求出所述历史数据中前一个区 间的所述历史数据区间斜率到后一个区间的所述历史数据区间斜率 的区间斜率概率统计关系为:

P(wi|xj)=P(xj|wi)P(wi)Σk=1mP(xj|wk)P(wk)---(4).

所述步骤B2的具体实现为:根据最小均方误差贝叶斯公式: 进行计算,得到所述置信度判断区 间斜率的预测值将所述预测值作为所述置信度判断区间斜率, 通过所述置信度判断区间斜率转化得到所述置信度判断区间的区间 均值,所述置信度判断区间的区间均值即为所述置信度判断区间的股 票均价。

进一步,所述步骤B4的具体实现为:分别设t0为当前时刻, [t0,tτ-1]、[t0,tτ]分别为对应所述以所述置信度判断区间起始点为起点 的0-2、0-4、0-8、0-16、0-32个交易日中前一个时间区间和后一个 时间区间,ητ-1、ητ分别为对应所述前一个时间区间的股价均值和 对应所述后一个时间区间的股价均值,根据下列公式(5)转化出以 所述置信度判断区间起始点为起点的0-2、2-4、4-8、8-16、16-32 个交易日的股票均价为:

lτ=ητ+tτ-1-t0tτ-tτ-1(ητ-ητ-1)---(5)

其中,lτ表示对应所述以所述置信度判断区间起始点为起点的 0-2、2-4、4-8、8-16、16-32个交易日中[tτ-1,tτ]时间区间内的股票 均价;[tτ-1,tτ]表示[t0,tτ]时间区间包含的时间段减去[t0,tτ-1]时间区 间包含的时间段后剩下的时间段对应的时间区间,即对应了所述以所 述置信度判断区间起始点为起点的0-2、2-4、4-8、8-16、16-32个 交易日的时间区间。

取tτ=2tτ-1、t0=0,则公式(5)简化为:

lτ=2ηττ-1    (6)

通过公式(6)将所述以所述置信度判断区间起始点为起点的0-2、 0-4、0-8、0-16、0-32个交易日的股票均价转化为了以置信度判断 区间起始点为起点的0-2、2-4、4-8、8-16、16-32个交易日的股票 均价。

进一步,所述步骤4的具体实现为:

步骤C1:计算所述置信度判断区间中各个数据段的相对误差为:

RADλ=|Lλ-lλ|Lλ---(7)

其中,λ为所述置信度判断区间中各个数据段的标号;lλ为获得 的第λ个数据段的平均值,即为以所述置信度判断区间起始点为起点 的多个交易日的股票均价;Lλ为第λ个数据段的真实平均值;RADλ为第λ个数据段的相对误差。

步骤C2:计算相对误差平均值为:

RAD=1nΣλ=1nRADλ---(8)

所述相对误差平均值的反比即为所述置信度判断区间的置信度。

步骤C3:将所述相对误差平均值与预先设定好的阈值进行比较, 若所述相对误差平均值小于所述阈值时,即所述置信度大于所述阈值 时,表示预测的股票价格走势接近真实的股票价格走势,则执行步骤 5;若所述相对误差平均值大于所述阈值时,即所述置信度小于所述 阈值时,表示此时的市场波动混乱,受偶然性因素影响的可预测程度 低,则系统进入等待环节,等待取得新数据后再返回所述步骤1。

进一步,所述步骤5的具体实现为:所述区间长度dj分别取值为 2、4、8、16、32,通过所述区间斜率概率统计关系计算得到以所述 预测区间起始点为起点、按所述区间长度dj进行区间划分的所述未来 区间斜率,将所述未来区间斜率转化为所述区间长度dj的股票均价, 获得以所述预测区间起始点为起点的0-2、0-4、0-8、0-16、0-32个 交易日的股票均价,对所述以所述预测区间起始点为起点的0-2、0-4、 0-8、0-16、0-32个交易日的股票均价进行进一步的划分,得到以所 述预测区间起始点为起点的0-2、2-4、4-8、8-16、16-32个交易日 的股票均价。

进一步,所述步骤6的具体实现为:将所述以所述预测区间起始 点为起点的多个交易日的股票均价的涨跌归一化为5个值,分别为 -2、-1、0、1、2,其中,-2代表大幅下跌,-1代表小幅下跌,0代 表震荡,1代表小幅上涨,2代表大幅上涨;将所述以所述预测区间 起始点为起点的多个交易日的股票均价的波动幅值位于5%以下视为 震荡,超过15%视为大幅上涨或下跌,进而将所述以所述预测区间起 始点为起点的多个交易日的股票均价转化为股票的涨跌值。

本发明还提供一种基于贝叶斯分类器的股票中长期趋势预测系 统,包括数据选取及确定模块、特征提取模块、预测模块、置信度判 断模块、股票均价转化模块、归一化模块和股票池形成模块。

所述数据选取及确定模块,用于选取一段时间内的股票数据,并 确定学习区间起始点、置信度判断区间起始点、预测区间起始点及区 间长度dj

所述特征提取模块,用于对所述学习区间起始点到所述预测区间 起始点之间的历史数据以所述区间长度dj进行划分,得到多个区间, 对每个所述区间进行特征提取,计算出历史数据区间斜率。

所述预测模块,用于使用贝叶斯分类器对所述历史数据区间斜率 进行学习和预测,得到以所述置信度判断区间起始点为起点的多个交 易日的股票均价。

所述置信度判断模块,用于通过所述以所述置信度判断区间起始 点为起点的多个交易日的股票均价来计算以所述置信度判断区间起 始点为起点、所述预测区间起始点为终点的置信度判断区间的置信 度,将所述置信度与预先设定好的阈值进行比较,若比较后预测得到 的所述置信度为高,则执行下一模块;若比较后预测所述置信度为低, 则等待取得新数据后再返回重新执行所述数据选取及确定模块。

所述股票均价转化模块,用于利用当前交易日之前的相邻两个区 间的前一区间与后一区间的区间斜率概率统计关系来预测未来区间 斜率,将所述未来区间斜率进行转化得到以所述预测区间起始点为起 点的多个交易日的股票均价。

所述归一化模块,用于将所述以所述预测区间起始点为起点的多 个交易日的股票均价的涨跌进行归一化,得到股票的涨跌值。

所述股票池形成模块,用于更换不同的股票数据,重复执行所述 数据选取及确定模块至所述归一化模块,筛选出可进行预测的股票数 据,并对所述可进行预测的股票数据进行涨跌幅度标记,形成股票池。

本发明的有益效果是:(1)利用分段进行股票的中长期预测, 既避免了产生累积误差,又可以展现出在预测区间内的股票趋势变 化;(2)提取的区间斜率特征能更好地捕捉股市波动变化趋势;(3) 经过置信度判断,置信度高则推荐用户进行股票趋势预测,置信度低 则系统进入等待,直到置信度较高时再进入预测阶段,可以更加有效 地评估交易风险。

附图说明

图1为本发明方法的方法流程图;

图2为本发明方法中步骤2的具体实现方法流程图;

图3为本发明方法中步骤3的具体实现方法流程图;

图4为本发明方法的步骤3中的步骤B1的具体实现方法流程图;

图5为本发明方法中步骤4的具体实现方法流程图;

图6为本发明系统的原理框图。

附图中,各标号所代表的部件列表如下:

1、数据选取及确定模块,2、特征提取模块,3、预测模块,4、 置信度判断模块,5、股票均价转化模块,6、归一化模块,7、和股 票池形成模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于 解释本发明,并非用于限定本发明的范围。

在一具体实施方式中,设定当前交易日为0时刻,下面以预测未 来32个交易日的股票走势为例,即预测未来0-2、2-4、4-8、8-16、 16-32交易日的股票均价。

如图1所示,一种基于贝叶斯分类器的股票中长期趋势预测方 法,包括以下步骤:

步骤1:选取一段时间内的股票数据,并确定学习区间起始点、 置信度判断区间起始点、预测区间起始点及区间长度dj

取某只股票当前交易日之前的1032个每日开盘价作为分析数 据,其中,当前交易日之前的第1032个交易日的数据作为学习区间 起始点,当前交易日之前的第32个交易日作为置信度判断区间起始 点,置信度判断区间长度32;若时间序列过短,该序列可能没有用 于预测的充分信息;时间序列过长,太多的旧信息对预测没有帮助, 因为随着时间的变化,时间序列所处的环境和背景会发生较大的变 化,考虑太多过去的数据有可能会导致预测精度变差。根据时间序列 的特点,用于历史学习的序列时间段可以做相应调整,再次选择1000 个交易日作为学习段,获得置信度判断区间32个交易日的股票走势。

步骤2:对所述学习区间起始点到所述预测区间起始点之间的历 史数据以所述区间长度dj进行划分,得到多个区间,对每个所述区间 进行特征提取,计算出历史数据区间斜率。

步骤3:使用贝叶斯分类器对所述历史数据区间斜率进行学习和 预测,得到以所述置信度判断区间起始点为起点的多个交易日的股票 均价。

步骤4:通过所述以所述置信度判断区间起始点为起点的多个交 易日的股票均价来计算以所述置信度判断区间起始点为起点、所述预 测区间起始点为终点的置信度判断区间的置信度,将所述置信度与预 先设定好的阈值进行比较,若所述置信度大于所述阈值,则预测所述 置信度为高,执行步骤5;若所述置信度小于所述阈值,则预测所述 置信度为低,进入等待环节,等待取得新数据后再返回所述步骤1。

步骤5:利用当前交易日之前的相邻两个区间的前一区间与后一 区间的区间斜率概率统计关系来预测未来区间斜率,将所述未来区间 斜率进行转化得到以所述预测区间起始点为起点的多个交易日的股 票均价。

步骤6:将所述以所述预测区间起始点为起点的多个交易日的股 票均价的涨跌进行归一化,得到股票的涨跌值。

步骤7:更换不同的股票数据,重复所述步骤1至所述步骤6, 筛选出可进行预测的股票数据,并对所述可进行预测的股票数据进行 涨跌幅度标记,形成股票池。按照事先制定好的资金分配模型及交易 策略进行股票交易。

资金分配模型可分为买空和卖空两部分独立的资金池部分,各占 总资金的50%,在这两个资金池内部以预测值的绝对值为权重进行分 配。单只股票预测值为1或-1的资金占用不能超过总之的16.7%,预 测值为2或-2的资金占用不能超过总值的25%。

根据用户的需求,资金分配模型及交易策略可做相应的调整。

如图2所示,所述步骤2的具体实现为:

步骤A1:对所述历史数据以所述区间长度dj进行区间划分,得 到多个区间。

以区间长度dj为32为例,1000个交易日以32个交易日为一个 区间,得到31个整数区间,将数据中的前1000-32×31=8个交易日的 数据舍弃,得到后面992个交易日数据,即31个整数区间。

其他区间长度dj的区间划分同理。

步骤A2:将一个所述区间中不同时刻的所有价格构成价格向量, 表示为:

e=(e1,e2,...,ed)T

其中,d=dj,表示所述区间中价格点的数量;ei(i=d)表示 所述价格向量中的每个值。

步骤A3:计算所述价格向量的平均值,表示为:

meanj=1djΣi=1djei---(1)

其中,meanj表示将所述历史数据按所述区间长度dj划分区间的 每个区间均值。

步骤A4:计算将所述历史数据按所述区间长度dj划分的每个所 述区间的历史数据区间斜率,具体为:使用y=kx+b对所述区间中的 样本进行拟合,表示为:

meanj=kjdj+lastpricej-1    (2)

其中,kj表示将所述历史数据中按所述区间长度dj划分区间的 每个区间的历史数据区间斜率;lastpricej-1表示将所述历史数据中按 所述区间长度dj划分的区间的前一个区间的最后一个值。

对公式(2)进行推导,得到:

kj=meanj-lastpricej-1dj---(3).

如图3所示,所述步骤3的具体实现为:

步骤B1:使用贝叶斯分类器对不同所述区间长度dj上的所述历 史数据区间斜率进行学习,得到所述历史数据中相邻两个区间的前一 区间与后一区间的区间斜率概率统计关系;

步骤B2:通过所述区间斜率概率统计关系计算得到以所述置信 度判断区间起始点为起点、按所述区间长度dj进行区间划分的置信度 判断区间斜率,将所述置信度判断区间斜率转化为所述区间长度dj的 股票均价。

步骤B3:所述区间长度dj分别取值为2、4、8、16、32,重复所 述步骤2至所述步骤B2,获得以所述置信度判断区间起始点为起点 的0-2、0-4、0-8、0-16、0-32个交易日的股票均价。

步骤B4:对所述步骤B3中得到的以所述置信度判断区间起始点 为起点的0-2、0-4、0-8、0-16、0-32个交易日的股票均价进行进一 步的划分,得到以置信度判断区间起始点为起点的0-2、2-4、4-8、 8-16、16-32个交易日的股票均价。

如图4所示,所述步骤B1的具体实现为:

步骤B11:确定目标状态向量w和特征向量x,其中,所述目标 状态向量w为所述历史数据中未来一个区间的所述历史数据区间斜 率,所述特征向量x为所述历史数据中当前区间的所述历史数据区间 斜率,在贝叶斯分类器中,将所述历史数据中第1个所述历史数据区 间斜率作为所述特征向量x的第1个值,第2个所述历史数据区间斜 率作为所述目标状态向量w的第1个值;将第2个所述历史数据区间 斜率作为所述特征向量x的第2个值,第3个所述历史数据区间斜率 作为所述目标状态向量w的第2个值,以此类推,将第i个所述历史 数据区间斜率作为所述特征向量x的第i个值,第i+1个所述历史数 据区间斜率作为所述目标状态向量的第i个值。

步骤B12:根据所述历史数据计算各个所述目标状态向量w的统 计分布,用高斯分布近似求出所述目标状态向量w的先验概率分布 P(w)。

步骤B13:根据所述历史数据计算在第i个所述目标状态向量w 条件下的所述特征向量x的统计分布,使用二维高斯核密度函数近似 求出条件概率分布P(x|wi),即求出所述历史数据中后一个区间的所述 历史数据区间斜率到前一个区间的所述历史数据区间斜率的区间斜 率概率统计关系。

步骤B14:利用所述先验概率分布P(w)和所述条件概率分布 P(x|wi)计算出后验概率密度P(wi|x),即求出所述历史数据中前一个区 间的所述历史数据区间斜率到后一个区间的所述历史数据区间斜率 的区间斜率概率统计关系为:

P(wi|xj)=P(xj|wi)P(wi)Σk=1mP(xj|wk)P(wk)---(4).

所述步骤B2的具体实现为:根据最小均方误差贝叶斯公式: 进行计算,得到所述置信度判断区 间斜率的预测值将所述预测值作为所述置信度判断区间斜率, 通过所述置信度判断区间斜率转化得到所述置信度判断区间的区间 均值,所述置信度判断区间的区间均值即为所述置信度判断区间的股 票均价。

所述步骤B4的具体实现为:分别设t0为当前时刻,[t0,tτ-1]、 [t0,tτ]分别为对应所述以所述置信度判断区间起始点为起点的0-2、 0-4、0-8、0-16、0-32个交易日中前一个时间区间和后一个时间区 间,ητ-1、ητ分别为对应所述前一个时间区间的股价均值和对应所 述后一个时间区间的股价均值,根据下列公式(5)转化出以所述置 信度判断区间起始点为起点的0-2、2-4、4-8、8-16、16-32个交易 日的股票均价为:

lτ=ητ+tτ-1-t0tτ-tτ-1(ητ-ητ-1)---(5)

其中,lτ表示对应所述以所述置信度判断区间起始点为起点的 0-2、2-4、4-8、8-16、16-32个交易日中[tτ-1,tτ]时间区间内的股票 均价;[tτ-1,tτ]表示[t0,tτ]时间区间包含的时间段减去[t0,tτ-1]时间区 间包含的时间段后剩下的时间段对应的时间区间,即对应了所述以所 述置信度判断区间起始点为起点的0-2、2-4、4-8、8-16、16-32个 交易日的时间区间。

取tτ=2tτ-1、t0=0,则公式(5)简化为:

lτ=2ηττ-1    (6)

通过公式(6)将所述以所述置信度判断区间起始点为起点的0-2、 0-4、0-8、0-16、0-32个交易日的股票均价转化为了以置信度判断 区间起始点为起点的0-2、2-4、4-8、8-16、16-32个交易日的股票 均价。

如图5所示,所述步骤4的具体实现为:

步骤C1:计算所述置信度判断区间中各个数据段的相对误差为:

RADλ=|Lλ-lλ|Lλ---(7)

其中,λ为所述置信度判断区间中各个数据段的标号;lλ为获得 的第λ个数据段的平均值,即为以所述置信度判断区间起始点为起点 的多个交易日的股票均价;Lλ为第λ个数据段的真实平均值;RADλ 为第λ个数据段的相对误差。

步骤C2:计算相对误差平均值为:

RAD=1nΣλ=1nRADλ---(8)

所述相对误差平均值的反比即为所述置信度判断区间的置信度。

步骤C3:将所述相对误差平均值与预先设定好的阈值进行比较, 阈值一般取为0.01,若所述相对误差平均值小于所述阈值时,即所 述置信度大于所述阈值,表示预测的股票价格走势接近真实的股票价 格走势,则使用此算法预测当前交易日之后的股票走势,则执行步骤 5;若所述相对误差平均值大于所述阈值时,即所述置信度小于所述 阈值,表示此时的市场波动混乱,受偶然性因素影响的可预测程度低, 则系统进入等待环节,等待取得新数据后再返回所述步骤1。根据用 户对预测精度的要求,可以修改预测相对标准偏差的阈值,调整预测 结果的置信度区间。

所述步骤5的具体实现为:所述区间长度dj分别取值为2、4、8、 16、32,通过所述区间斜率概率统计关系计算得到以所述预测区间起 始点为起点、按所述区间长度dj进行区间划分的所述未来区间斜率, 将所述未来区间斜率转化为所述区间长度dj的股票均价,获得以所述 预测区间起始点为起点的0-2、0-4、0-8、0-16、0-32个交易日的股 票均价,对所述以所述预测区间起始点为起点的0-2、0-4、0-8、0-16、 0-32个交易日的股票均价进行进一步的划分,得到以所述预测区间 起始点为起点的0-2、2-4、4-8、8-16、16-32个交易日的股票均价。

所述步骤6的具体实现为:将所述以所述预测区间起始点为起点 的多个交易日的股票均价的涨跌归一化为5个值,分别为-2、-1、0、 1、2,其中,-2代表大幅下跌,-1代表小幅下跌,0代表震荡,1代 表小幅上涨,2代表大幅上涨;将所述以所述预测区间起始点为起点 的多个交易日的股票均价的波动幅值位于5%以下视为震荡,超过15% 视为大幅上涨或下跌,进而将所述以所述预测区间起始点为起点的多 个交易日的股票均价转化为股票的涨跌值。

如图6所示,一种基于贝叶斯分类器的股票中长期趋势预测系 统,包括数据选取及确定模块1、特征提取模块2、预测模块3、置 信度判断模块4、股票均价转化模块5、归一化模块6和股票池形成 模块7。

所述数据选取及确定模块1,用于选取一段时间内的股票数据, 并确定学习区间起始点、置信度判断区间起始点、预测区间起始点及 区间长度dj

所述特征提取模块2,用于对所述学习区间起始点到所述预测区 间起始点之间的历史数据以所述区间长度dj进行划分,得到多个区 间,对每个所述区间进行特征提取,计算出历史数据区间斜率。

所述预测模块3,用于使用贝叶斯分类器对所述历史数据区间斜 率进行学习和预测,得到以所述置信度判断区间起始点为起点的多个 交易日的股票均价。

所述置信度判断模块4,用于通过所述以所述置信度判断区间起 始点为起点的多个交易日的股票均价来计算以所述置信度判断区间 起始点为起点、所述预测区间起始点为终点的置信度判断区间的置信 度,将所述置信度与预先设定好的阈值进行比较,若比较后预测得到 的所述置信度为高,则执行下一模块;若比较后预测所述置信度为低, 则等待取得新数据后再返回重新执行所述数据选取及确定模块1。

所述股票均价转化模块5,用于利用当前交易日之前的相邻两个 区间的前一区间与后一区间的区间斜率概率统计关系来预测未来区 间斜率,将所述未来区间斜率进行转化得到以所述预测区间起始点为 起点的多个交易日的股票均价。

所述归一化模块6,用于将所述以所述预测区间起始点为起点的 多个交易日的股票均价的涨跌进行归一化,得到股票的涨跌值。

所述股票池形成模块7,用于更换不同的股票数据,重复执行所 述数据选取及确定模块1至所述归一化模块6,筛选出可进行预测的 股票数据,并对所述可进行预测的股票数据进行涨跌幅度标记,形成 股票池。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在 本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均 应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号