首页> 中国专利> 一种融合新闻数据的股票收盘价预测方法

一种融合新闻数据的股票收盘价预测方法

摘要

本发明公开了一种融合新闻数据的股票收盘价预测方法,属于深度学习与大数据处理领域,包括如下步骤:获取股票历史交易日的数据信息,包括7个特征数据;爬取股票历史交易日各网站中与特定股票相关的文本信息;对文本进行情感分析,得到当天股民情绪与市场活跃状况的量化表达;将历史交易日的数据信息和文本信息的情感得分进行拼接组合,形成8维的特征数据;对特征数据进行归一化处理;构建CNN‑BiLSTM‑FCN深度神经网络模型,训练模型并保存;使用训练完成的模型对未来交易日的收盘价进行预测,为投资者提供参考意见。本发明能够有效的提高模型对未来收盘价的预测准确度和模型对股价走势发生转折的预测能力,预测结果也有更高的可信度。

著录项

  • 公开/公告号CN115660855A

    专利类型发明专利

  • 公开/公告日2023-01-31

    原文格式PDF

  • 申请/专利权人 山东大学;

    申请/专利号CN202211395427.7

  • 申请日2022-11-09

  • 分类号G06Q40/04;G06Q10/04;G06N3/0464;G06F18/214;

  • 代理机构青岛智地领创专利代理有限公司;

  • 代理人冯昌进

  • 地址 250061 山东省济南市经十路17923号

  • 入库时间 2023-06-19 18:25:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-01-31

    公开

    发明专利申请公布

说明书

技术领域

本发明属于深度学习与大数据处理领域,具体涉及一种融合新闻数据的股票收盘价预测方法。

背景技术

随着近些年来国民经济水平的提高,股票作为一种热门理财产品,受到越来越多的投资者的关注。如果能够建立模型充分提取股票数据中的特征,挖掘股价走势的规律,并且对收盘价进行准确的预测,则可以在投资者进行买卖股票的决策时提供参考意见。因此,股票预测问题也是目前金融领域的研究热点问题之一。

但是实现股票价格的准确预测有很大难度,一方面,由于股票数据具有噪声多、数据量大、非线性和波动性强的特点,传统的线性模型往往很难获得准确的预测效果。另一方面,一只特定的股票价格的走势不仅与股票历史数据中涨跌趋势以及成交量所包含的经济市场规律有关,更大程度上,还会受到该股票所属公司的经营状况、该股票所属板块的受追捧程度、国家对该股票公司所经营主体业务的政策方针的影响,并且这些因素往往便是股票价格走势出现转折的主要原因。因此,仅仅利用股票历史价格数据难以预测出这种股价的转折,而目前大多数模型只把股票历史价格作为输入数据,这也导致了目前大多数预测模型精度不高。

近年来,深度学习技术发展迅速,其在大规模数据中提取抽象信息,不依赖于经济假设来识别隐藏的变量之间非线性关系的能力,使其在股票价格预测问题中得到广泛的应用。在众多的深度神经网络模型中,CNN网络由于其局部连接、参数共享、池化操作的特点,能够精准识别出高维度数据中的重点信息。LSTM网络引进了门控制单元,通过遗忘门、输入门、输出门的控制,实现对时间序列信息中无用信息的过滤、有用信息的增强与保持,在时间序列问题中能够取得不错的效果。FCN神经网络通过不同层之间所有神经元的互连,能够综合利用所有已知信息,对数据的规律进行提取。

该领域目前已有技术大多是单纯的基于股票新闻文本做舆情分析,或者以各种股票数据指标作为输入,利用深度神经网络技术进行预测,预测性能较差。基于文本数据做舆情分析的方法对股价走势转折的情况有较好的预测能力,但是对股票精确价格的预测精度较低;而基于价格数据指标和交易数据指标的深度神经网络模型往往对于股价的转折无法进行很精确的预测,其原因便是预测模型并没有利用到股市中的政策新闻等极具价值的信息。由于高频交易要根据股票走势可能发生的转折进行及时的买卖,因此现有方法在高频交易中也难以达到满意的效果。

发明内容

为了解决上述问题,本发明提出了一种融合新闻数据的股票收盘价预测方法,构建了CNN-BiLSTM-FCN模型,并结合新闻数据对股票收盘价进行预测,有效提高预测的准确率,捕捉股价可能发生转折的时机,为投资者做出买卖决策时提供参考意见,有效填补目前该领域内能为高频交易提供数据支持的模型的空白。

本发明的技术方案如下:

一种融合新闻数据的股票收盘价预测方法,包括如下步骤:

S1、获取股票历史交易日的数据信息,包括历史交易日每天的开盘价、收盘价、最高价、最低价、上一交易日收盘价、成交量、复权后涨跌幅7个特征数据;

S2、通过爬虫算法爬取股票历史交易日各网站中与特定股票相关的文本信息;

S3、对文本信息进行情感分析,将每一个交易日中所有文本情感得分进行加和,得到当天股民情绪与市场活跃状况;

S4、将历史交易日的数据信息和文本信息的情感得分进行拼接组合,形成8维的特征数据;

S5、对特征数据进行归一化处理,并划分为训练集与测试集;

S6、构建CNN-BiLSTM-FCN深度神经网络模型,并把数据输入到CNN-BiLSTM-FCN模型进行训练,直到性能指标收敛,停止训练,保存模型;

S7、使用训练完成的模型对未来交易日的收盘价进行预测,为投资者提供参考意见。

进一步地,步骤S2中,网站包括新浪财经、同花顺、股票贴吧,与特定股票相关的文本信息包括新闻、股民讨论情况、公司运行状况公布、国家对股票所属板块的方针政策。

进一步地,步骤S3的具体过程如下:

S301、利用文本情感分析工具,对历史交易日中的文本信息进行情感分析;

S302、对情感分析输出结果进行处理,对于结果为“积极”的文本,采用其结果得分作为情感得分;对于结果为“消极”的文本,采用其结果得分的相反数作为情感得分;对于结果为“中性”的文本,将其情感得分赋值为0;

S303、将股票历史交易日当天所有的文本信息的情感得分进行加和,作为当天的股民情绪与市场活跃状况的衡量指标;若所有文本情感得分加和为正值,则说明该支股票在当天受到股民的追捧或者该股票板块处于活跃的状态,接下来有很大的概率股价出现上涨;若所有情感得分加和为负值,则说明该支股票并没有受到股民的认可或者该股票板块处于低迷的状态,股价很可能在未来交易日迎来一定程度的跌落。

进一步地,步骤S5的具体过程如下:

首先,对数据进行归一化处理,公式如下:

式中,

然后,把归一化处理后的历史交易日数据按照时间顺序以7:3的比例划分为训练集与测试集,训练集用于训练模型,测试集用于检验模型的性能。

进一步地,步骤S6的具体过程如下:

S601、构建CNN-BiLSTM-FCN深度神经网络模型,CNN-BiLSTM-FCN深度神经网络包含依次进行数据传递的四个部分;

S602、输入训练集进行网络模型训练,输入测试集检验模型的性能;衡量模型的预测性能的指标采用如下形式,当模型在测试集上的MAE指标值收敛时,停止模型的训练;

式中,

S603、除了MAE指标外,设置反映准确率的指标,将其命名为5%误差比例:

式中,I

进一步地,步骤S6中,构建的CNN-BiLSTM-FCN深度神经网络模型具体结构如下:

网络的第一部分是一维卷积网络CNN,设置64个卷积核,每个卷积核的长度为1,宽度为8,并把每个卷积操作设置为带有偏置,卷积操作后的激活函数为RELU函数,第一部分用于提取每一个历史交易日中的重点信息;

网络的第二部分为双向长短时记忆神经网络BiLSTM,共包含64组双向长短时记忆层,每组双向长短时记忆层中两个正向长短时记忆层和倒向长短时记忆层输出数据采用连接的方式,正倒向长短时记忆网络能够从经过卷积神经网络得到的抽象时间序列数据中按照两个相反的时间方向提取信息;

网络的第三部分是Flatten层,通过该层实现双向长短时记忆神经网络输出数据的维度变换,使其作为全连接层的输入数据;

网络的第四部分是全连接网络,全连接网络设置为三层,最后一层是输出层,第一、二、三层的神经元个数依次设置为128,32,1,前两层的激活函数为RELU函数,最后一层不设置激活函数。

本发明所带来的有益技术效果:

本发明充分利用股票历史交易日价格数据与新闻文本信息,不仅参考股价历史走势,还考虑当前一段时间内股民的追捧情况、市场热度以及国家方针政策的影响,因此能够有效的提高模型对未来收盘价的预测准确度和模型对股价走势发生转折的预测能力,预测结果也有更高的可信度,能够很好地为高频交易提供数据参考。另外,本发明提出的CNN-BiLSTM-FCN深度神经网络模型,具有参数量小、收敛速度快的特点,可以提取高维股票数据中的重点信息,因此在股价预测这种时间序列问题中取得较好的效果。

附图说明

图1为本发明融合新闻数据的股票收盘价预测方法的流程图;

图2为本发明提出的CNN-BiLSTM-FCN深度神经网络模型的结构图;

图3为本发明实验中采用CNN-BiLSTM-FCN模型在某一特定股票上对收盘价预测情况的效果对比图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明:

本发明提出了一种融合新闻数据的股票收盘价预测方法。该方法首先获取股票历史交易日价格和交易情况的数据信息,然后获得股票相关的新闻信息、股票公司经营状况信息、股票贴吧中股民讨论的文本信息,对文本信息进行情感分析,获取情感得分。把两种类型的信息进行合并,然后归一化,按一定比例划分训练集与测试集,搭建CNN-BiLSTM-FCN深度神经网络模型,输入训练集进行训练,模型在测试集上的指标收敛时停止训练,保存模型。本发明充分地利用股票新闻文本数据中的信息以及深度神经网络对时间序列数据的挖掘能力,能够更加精确地预测未来交易日的收盘价,对于股票价格出现转折也有很好的捕捉能力,因此可以为投资者做出买卖股票的决策时提供参考意见。考虑到突发事件对股票价格的影响,本发明在高频交易中往往能够发挥更好的作用。

如图1所示,一种融合新闻数据的股票收盘价预测方法,包括如下步骤:

S1、获取股票历史交易日的数据信息,主要包括价格与交易数据,具体包括历史交易日每天的开盘价、收盘价、最高价、最低价、上一交易日收盘价、成交量、复权后涨跌幅7个特征数据。

S2、通过爬虫算法爬取股票历史交易日中在新浪财经、同花顺、股票贴吧等网站中与特定股票相关的新闻、股民讨论情况、公司运行状况公布、国家对股票所属板块的方针政策等文本信息。

例如:“锂价行情火热,天齐锂业涨超8%!智能电动车ETF放量上涨1.16%!”、“进入年底,部分厂家进入停工检修阶段,锂资源产量有所缩减,市场供应紧张局面仍在继续;随着明年新能源产业需求持续向好,锂价中枢将在22年全年维持高景气。仍坚定看好明年锂板块配置价值。”

S3、对文本信息进行情感分析,将每一个交易日中所有文本情感得分进行加和,得到当天股民情绪与市场活跃状况。具体过程如下:

S301、利用文本情感分析工具,对历史交易日中的文本信息(包括新闻文本和股民讨论情况等)进行情感分析;

S302、对情感分析输出结果进行处理,对于结果为“积极”的文本,采用其结果得分作为情感得分(此时情感得分保留处理结果本身得到的正值);对于结果为“消极”的文本,采用其结果得分的相反数作为情感得分(此时情感得分被赋为负值);对于结果为“中性”的文本,将其情感得分赋值为0;

S303、将股票历史交易日当天所有的文本信息的情感得分进行加和,作为当天的股民情绪与市场活跃状况的衡量指标。若所有文本情感得分加和为正值,则说明该支股票在当天受到股民的追捧或者该股票板块处于一个活跃的状态,接下来有很大的概率股价出现上涨;若所有情感得分加和为负值,则说明该支股票并没有受到股民的认可或者该股票板块处于低迷的状态,股价很可能在未来交易日迎来一定程度的跌落。

S4、将历史交易日中的股价、交易数据信息和文本信息的情感得分进行拼接操作使其组合在一起,形成8维的特征数据,即将每只股票历史交易日特征信息扩充至8维,作为模型输入的特征数据。表1展示了一组融合后的8维特征数据的结构。

表1输入8维特征数据

S5、对历史交易日的特征数据进行归一化处理,并划分为训练集与测试集。

首先,为避免数据信息的量纲不同导致信息提取不充分和模型训练速度降低的情况发生,需要对数据进行归一化处理,公式如下:

式中,

然后,把归一化处理后的历史交易日数据按照时间顺序以7:3的比例划分为训练集与测试集,即前70%的数据作为训练集,后30%的数据作为测试集,训练集用于训练模型,测试集用于检验模型的性能。数据集中过去十个交易日的特征数据作为模型的输入数据,未来一个交易日的收盘价作为预测值。

S6、构建CNN-BiLSTM-FCN深度神经网络模型,并把数据输入到CNN-BiLSTM-FCN模型进行训练,直到性能指标收敛,停止训练,保存模型。具体过程如下:

S601、构建CNN-BiLSTM-FCN深度神经网络模型,CNN-BiLSTM-FCN深度神经网络包含四个部分,依次进行数据传递,如图2所示,具体结构如下:

网络的第一部分是一维卷积网络CNN,设置64个卷积核,每个卷积核的长度为1,宽度为8,并把每个卷积操作设置为带有偏置,卷积操作后的激活函数为RELU(线性整流函数)函数,这样设置能够很好地提取每一个历史交易日中的重点信息;

网络的第二部分为双向长短时记忆神经网络BiLSTM,共包含64组双向长短时记忆层,每组双向长短时记忆层中两个正向长短时记忆层和倒向长短时记忆层输出数据采用连接(concat)的方式,正倒向长短时记忆网络能够从经过卷积神经网络得到的抽象时间序列数据中按照两个相反的时间方向提取信息。其中,

t时刻长短时记忆神经网络的遗忘门f

f

式中,σ(·)表示sigmoid激活函数,W

t时刻长短时记忆神经网络的输入门i

i

式中,σ(·)表示sigmoid激活函数,W

t时刻长短时记忆神经网络的状态变量通过以下方式更新:

式中,

t时刻长短时记忆神经网络的输出门O

O

h

式中,σ(·)表示sigmoid激活函数,W

网络的第三部分是Flatten层,通过该层实现双向长短时记忆神经网络输出数据的维度变换,使其可以作为全连接层的输入数据。即双向长短时记忆神经网络通过Flatten层与全连接神经网络相连。

网络的第四部分是全连接网络,全连接网络设置为三层,最后一层是输出层,第一、二、三层的神经元个数依次设置为128,32,1,前两层的激活函数为RELU(线性整流函数),最后一层不设置激活函数。

S602、输入训练集进行网络模型训练,输入测试集检验模型的性能。衡量模型的预测性能的指标采用如下形式,当模型在测试集上的MAE指标值不再下降即收敛时,停止模型的训练。

式中,

S603、设置一个反映准确率的指标,将其命名为5%误差比例:

式中,I

该指标计算预测相对误差在5%以内的比例,相对于MAE,能够更直观的衡量股价数据预测准确率,反映模型的预测性能,并且符合现实交易中股票涨跌停限制的规则,与现实中股票交易规律是一致的。

S7、使用训练完成的模型对未来交易日的收盘价进行预测,为投资者提供参考意见。

为了证明本发明的可行性与优越性,进行了仿真对比实验。图3为本发明实验中采用CNN-BiLSTM-FCN模型在某一特定股票上对收盘价预测情况的效果对比图,从图中可以看出,本发明方法对未来交易日的收盘价预测结果与真实情况接近。

当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号