首页> 中国专利> 一种结合新闻大事件的多源信息股票价格预测方法及系统

一种结合新闻大事件的多源信息股票价格预测方法及系统

摘要

本发明一方面提供了一种结合新闻大事件的多源信息股票价格预测方法,包括S1,获取新闻大事件的情感特征表示;S2,获取股民的情感特征表示;S3,获取股票价格的历史数据特征表示;S4,基于新闻大事件的情感特征表示、股民的情感特征表示、股票价格的历史数据特征表示,训练深度神经网络模型,预测未来的股票价格波动。另一方面还提供了用于实现上述方法的系统。与只采用财经新闻和股票历史数据的方法相比,本发明可显著提高股票价格的预测精度,解决股票价格预测准确度低的技术问题。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-09

    实质审查的生效 IPC(主分类):G06Q40/04 专利申请号:2022103798446 申请日:20220412

    实质审查的生效

说明书

技术领域

本发明涉及股票价格预测领域,尤其涉及一种结合新闻大事件的多源信息股票价格预测 方法及系统。

背景技术

股票市场预测遵循有效市场假说(Efficient Markets Hypothesis,EMH),EMH认为股票 价格总是能够充分反映出所有可得到的信息,即使股票价格发生巨大振幅也是因为信息流通 的不完全和不及时。随着互联网时代的到来,越来越多的信息发布于网络中,根据行为金融 学,情绪对理性有强大的影响,财务决策很大程度上受情绪驱动,而大型公共事件的发生会 严重影响公众情绪,通过分析新闻大事件、股民情绪和股票历史价格,即可实现对股票价格 波动的准确预测。

目前已有一些预测股票价格波动的方法。专利“一种结合新闻文本的股票智能预测方法” (申请号:201810791693.9),其中对规定时间内的金融新闻进行分析,并将过滤选择后的 新闻文本进行特征表示,最后与股票历史数据进行融合,输入深度神经网络实现对股票价格 的预测。专利“一种基于技术指标和新闻情感的股票价格预测方法及系统”(申请号: 202010401017.3),其中将财经新闻单独进行情感分析,综合其他股市技术指标生成目标股 票的行情快照序列,之后利用深度神经网络预测股票的价格波动。以上方法中,仅利用了财 经金融类新闻进行情感分析,并没有考虑到突发的大型公共事件造成的股民情绪波动,故预 测方法存在一定缺陷,预测准确度低,目前迫切需要一种结合新闻大事件的多源信息股票价 格预测方法及系统,用于高效精准预测未来的股票价格波动。

发明内容

本发明的目的在于公开一种结合新闻大事件的多源信息股票价格预测方法及系统,解决 现有的股票价格波动预测方法中没有考虑到突发的大型公共事件造成的股民情绪波动,故预 测方法存在的预测准确度低的问题。

为了达到上述目的,本发明采用如下技术方案:

一方面,本发明公开了一种结合新闻大事件的多源信息股票价格预测方法,包括:

S1,基于新闻报道的突发大型公共事件的文本语料,分析突发事件对股票市场的影响倾 向,获取新闻大事件的情感特征表示;

S2,基于公共平台的推文文本和股民评论,分析市场环境中股民的情绪倾向,获取股民 的情感特征表示;

S3,基于股票市场的历史指标数据,获取股票价格的历史数据特征表示;

S4,基于新闻大事件的情感特征表示、股民的情感特征表示、股票价格的历史数据特征 表示,训练深度神经网络模型,预测未来的股票价格波动。

优选地,所述S1包括:

S11,对新闻权威网站的主页内容进行爬取,对获取的文本语料进行预处理,将预处理后 的文本语料转化为词向量表示;

S12,将词向量表示输入到朴素贝叶斯模型进行训练,对词向量空间进行微调,直到模型 准确率大于等于阈值ε,基于微调后的词向量空间更新每条文本语料对应的词向量表示;

S13,在给定的时间范围t内,利用算法平均法获取给定时间t内的情感向量,将其作为 新闻大事件的情感特征表示。

优选地,所述S2包括:

S21,对股市权威网站的推文文本和股民评论进行爬取,对获取的文本语料进行预处理, 将处理后的文本语料转化为词向量表示;

S22,将推文文本的词向量表示输入到支持向量机模型进行训练,对词向量空间进行微调, 直到模型准确率大于等于阈值ε,基于微调后的词向量空间更新每条推文文本对应的词向量 表示;

S23,将股民评论的词向量表示输入到支持向量机模型进行训练,对词向量空间进行微调, 直到模型准确率大于等于阈值ε,基于微调后的词向量空间更新每条股民评论对应的词向量 表示;

S24,在给定的时间范围t内,利用算法平均法分别获取给定时间t内的推文文本词向量 和股民评论词向量,将两者拼接,作为股民的情感特征表示。

优选地,所述S3包括:

S31,对预设的财经网站的股票历史数据进行爬取,获取每个股票每日的开盘价、收盘价、 当日最高价、当日最低价和交易量;

S32,对爬取的数据进行数据处理,获得处理后的数据,数据处理包括去量纲、时间标签 排序和缺失值处理;

S33,根据每个股票每日的处理后的数据,计算以下技术指标:

涨跌幅、简单移动平均线、指数移动平均线、平均真实范围、平均方向运动指数、商品 通道指数、价格变化率、相对强度指数、威廉震荡指标、随机指标%K、随机指标%D;

S34,在给定的时间范围t内,利用算法平均法分别获取给定时间t内的15个特征数值, 并进行标准化处理,将特征数值的取值范围控制在(0,1)之间,将标准化处理后获得的特征 数值作为股票价格的历史数据特征表示。

优选地,所述S4包括:

S41,对新闻大事件的情感特征表示、股民的情感特征表示、股票价格的历史数据特征表 示进行对齐、合并处理,获得处理数据;

S42,对处理数据进行标准化处理,生成融合多源信息的特征表示;

S43,将融合多源信息的特征表示输入到预设的深度神经网络模型中进行训练,根据训练 后的深度神经网络模型预测未来的股票价格波动。

优选地,所述预处理包括文本分词、过滤停用词、词性还原合并、文本长度截取和补足。

另一方面,本发明还提供了一种结合新闻大事件的多源信息股票价格预测系统,包括新 闻大事件的情感特征表示模块、股民的情感特征表示模块、股票价格的历史数据特征表示模 块和股票价格预测模块;

新闻大事件的情感特征表示模块用于基于新闻报道的突发大型公共事件的文本语料,分 析突发事件对股票市场的影响倾向,获取新闻大事件的情感特征表示;

股民的情感特征表示模块用于基于公共平台的推文文本和股民评论,分析市场环境中股 民的情绪倾向,获取股民的情感特征表示;

股票价格的历史数据特征表示模块用于基于股票市场的历史指标数据,获取股票价格的 历史数据特征表示;

股票价格预测模块用于基于新闻大事件的情感特征表示、股民的情感特征表示、股票价 格的历史数据特征表示,训练深度神经网络模型,预测未来的股票价格波动。

与现有技术相比,本发明所达到的有益效果:本发明是一种结合新闻大事件的多源信息 股票价格预测方法及系统,通过分析突发大型公共事件、股票推文热评和股票历史数据,并 将以上的多源信息进行对齐、合并成融合特征表示,以此建立一个深度学习模型用于预测未 来的股票价格波动。利用本发明提供的结合新闻大事件的多源信息股票价格预测方法及系统, 与只采用财经新闻和股票历史数据的方法相比,可显著提高股票价格的预测精度,解决股票 价格预测准确度低的技术问题。

附图说明

利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于 本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附 图。

图1,为本发明一种结合新闻大事件的多源信息股票价格预测方法的一种示例性实施例 图。

图2,为本发明的S3的一种示例性实施例图。

图3,为本发明的一种结合新闻大事件的多源信息股票价格预测系统的一种示例性实施 例图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或 类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的 实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。

一方面,如图1所示的一种实施例,本发明公开了一种结合新闻大事件的多源信息股票 价格预测方法,包括:

S1,基于新闻报道的突发大型公共事件的文本语料,分析突发事件对股票市场的影响倾 向,获取新闻大事件的情感特征表示;

S2,基于公共平台的推文文本和股民评论,分析市场环境中股民的情绪倾向,获取股民 的情感特征表示;

S3,基于股票市场的历史指标数据,获取股票价格的历史数据特征表示;

S4,基于新闻大事件的情感特征表示、股民的情感特征表示、股票价格的历史数据特征 表示,训练深度神经网络模型,预测未来的股票价格波动。

具体的,深度神经网络模型可以是多层LSTM等。

优选地,所述S1包括:

S11,对新闻权威网站的主页内容进行爬取,对获取的文本语料进行预处理,将预处理后 的文本语料转化为词向量表示;

S12,将词向量表示输入到朴素贝叶斯模型进行训练,对词向量空间进行微调,直到模型 准确率大于等于阈值ε,基于微调后的词向量空间更新每条文本语料对应的词向量表示;

S13,在给定的时间范围t内,利用算法平均法获取给定时间t内的情感向量,将其作为 新闻大事件的情感特征表示。

优选地,新闻权威网站包括新华社、人民日报、中国新闻网等。

优选地的,给定的时间范围t,例如,1-7天。

优选地,所述S2包括:

S21,对股市权威网站的推文文本和股民评论进行爬取,对获取的文本语料进行预处理, 将处理后的文本语料转化为词向量表示;

S22,将推文文本的词向量表示输入到支持向量机模型进行训练,对词向量空间进行微调, 直到模型准确率大于等于阈值ε,基于微调后的词向量空间更新每条推文文本对应的词向量 表示;

S23,将股民评论的词向量表示输入到支持向量机模型进行训练,对词向量空间进行微调, 直到模型准确率大于等于阈值ε,基于微调后的词向量空间更新每条股民评论对应的词向量 表示;

S24,在给定的时间范围t内,利用算法平均法分别获取给定时间t内的推文文本词向量 和股民评论词向量,将两者拼接,作为股民的情感特征表示。

具体的,使用多种机器学习模型,在保证准确率达到阈值ε的前提下,对词向量模型 word2vec的内部参数进行微调,为了避免随机训练的误差,使用5次10折交叉验证。最后基于微调后的词向量空间更新文本对应的词向量x。所以,新闻大事件的情感特征表示为news_x,股评的情感特征表示为views_x。

优选地,股市权威网站包括中国证券网、天天基金网、雪球网等。

优选地,所述S3包括:

S31,对预设的财经网站的股票历史数据进行爬取,获取每个股票每日的开盘价、收盘价、 当日最高价、当日最低价和交易量;

S32,对爬取的数据进行数据处理,获得处理后的数据,数据处理包括去量纲、时间标签 排序和缺失值处理;

S33,根据每个股票每日的处理后的数据,计算以下技术指标:

涨跌幅、简单移动平均线、指数移动平均线、平均真实范围、平均方向运动指数、商品 通道指数、价格变化率、相对强度指数、威廉震荡指标、随机指标%K、随机指标%D;

S34,在给定的时间范围t内,利用算法平均法分别获取给定时间t内的15个特征数值, 并进行标准化处理,将特征数值的取值范围控制在(0,1)之间,将标准化处理后获得的特征 数值作为股票价格的历史数据特征表示。

优选地,预设的财经网站包括英为财经网等。

具体的,如图2所示,在S3中,需要对股价数据进行一系列操作,首先对各个股票的每 日交易信息进行统计,其中包括开盘价(open),收盘价(close),当日最高价(high),当日 最低价(low)和交易量(volume)。

根据今日和昨日的收盘价计算今日的涨跌幅,计算公式为:

(C

由此获得全部股票的涨跌幅信息,之后对历史数据进行去量纲、时间标签排序、缺失值 处理,将原始5个特征扩展为15个特征,具体扩展步骤如下:

1.简单移动平均线(SMA)是一种趋势指标,计算特定时期内的平均价格:

2.指数移动平均(EMA)是一种类型的移动平均值的权重,说明过去指数下降情况:

3.平均真实范围(ATR)提供有关价格波动程度的信息:

ATRn=EMAn(max(Ht-Lt,|Ht-Ct-1|,|Lt-Ct-1|),Ht是最高收盘价,Lt是最低 收盘价。

4.平均方向运动指数(ADMI)指示价格时间序列趋势的强度。它是负向和正向运动指标 的组合,它是在过去n天内根据输入窗口长度计算的:

ADMIn=100*(DIn+-DIn-)/(DIn++DIn-),

DIn+=100*EMAn(DM+)/ATRn

DIn-=100*EMAn(DM-)/ATRn

DM+=Max(Ct-Ct-1,0)

DM-=Min(Ct-Ct-1,0)

5.商品通道指数(CCI)是用来确定库存超买还是超卖的指标。它评估资产价格,移动平 均线和与该平均线的偏差之间的关系:

Mt=Ht+Lt+Ct

且SMAn(Mt)是根据n天内的Mt计算出的SMA值。

6.价格变化率(ROC)显示了预测日的收盘价与前n天的收盘价之间的相对差,其中n等 于输入窗口长度:

ROCn=(Ct-Ct-n)/Ct-n

7.相对强度指数(RSI)比较近期收益与近期损失的大小,旨在揭示一段时间内一系列收 盘价中价格趋势的强弱:

RSIn=100-100/(1+EMAn(DM+)/EMAn(DM-))

EMAn(DM+),EMAn(DM-)在前n天等于输入窗口长度的时间段内以与ADMI指标相同的方式计算得出。

8.William的%R震荡指标显示当前收盘价与最近n天内等于输入窗口长度的最高价和最 低价之间的关系:

Williams_Rn=100*(Hn-Ct)/(Hn-Ln)

9.Stochastic%K是技术动能指标,用于比较过去n天的收盘价及其价格区间,并发出 信号表示股票超卖或超买:

%Kn=100*(Ct-LLn)/(HHn-LLn)

HHn,LLn分别是最近n天的平均最高价和最低价,n对应于选定的输入窗口长度。

10.Stochastic%D给出周转信号,表示股票超卖或超买。它是使用等式获得的Stochastic%K的3天EMA:

%Dn=EMA3(%Kn)

更具体地,将以上15个特征进行标准化,定义f

优选地,所述S4包括:

S41,对新闻大事件的情感特征表示、股民的情感特征表示、股票价格的历史数据特征表 示进行对齐、合并处理,获得处理数据;

S42,对处理数据进行标准化处理,生成融合多源信息的特征表示;

S43,将融合多源信息的特征表示输入到预设的深度神经网络模型中进行训练,根据训练 后的深度神经网络模型预测未来的股票价格波动。

优选地,所述预处理包括文本分词、过滤停用词、词性还原合并、文本长度截取和补足。

具体的,文本分词中使用python中的Jieba中文分词组件,并且去除少量意义不大的词, 例如“的”、“啊”等等,接着根据规定长度k=200对文本进行截取或补足,最后使用词嵌 入空间word2vec将文本映射为初始词向量。

例如,某段文本x经过处理到可映射为x=[x1,x2,x3,……,x200],其中xi代表每一个 中文词语对应的词向量表示,例如xi=[xi1,xi2,xi3,……,xi300](词嵌入空间word2vec一 般选取维度m=300)。所以文本x的初始特征表示为一个200*300的二维矩阵。

具体的,在步骤S1-S3中,需要统计规定时间t内的数据,故使用算术平均值对数据进 行处理,具体处理如下:

将规定时间内的数据做等比例分割为T份,第i份的数据特征经处理后表示为xi。

另一方面,如图3所示,本发明还提供了一种结合新闻大事件的多源信息股票价格预测 系统,包括新闻大事件的情感特征表示模块、股民的情感特征表示模块、股票价格的历史数 据特征表示模块和股票价格预测模块;

新闻大事件的情感特征表示模块用于基于新闻报道的突发大型公共事件的文本语料,分 析突发事件对股票市场的影响倾向,获取新闻大事件的情感特征表示;

股民的情感特征表示模块用于基于公共平台的推文文本和股民评论,分析市场环境中股 民的情绪倾向,获取股民的情感特征表示;

股票价格的历史数据特征表示模块用于基于股票市场的历史指标数据,获取股票价格的 历史数据特征表示;

股票价格预测模块用于基于新闻大事件的情感特征表示、股民的情感特征表示、股票价 格的历史数据特征表示,训练深度神经网络模型,预测未来的股票价格波动。

与现有技术相比,本发明所达到的有益效果:本发明是一种结合新闻大事件的多源信息 股票价格预测方法及系统,通过分析突发大型公共事件、股票推文热评和股票历史数据,并 将以上的多源信息进行对齐、合并成融合特征表示,以此建立一个深度学习模型用于预测未 来的股票价格波动。利用本发明提供的结合新闻大事件的多源信息股票价格预测方法及系统, 与只采用财经新闻和股票历史数据的方法相比,可显著提高股票价格的预测精度,解决股票 价格预测准确度低的技术问题。

尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的 原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由 权利要求及其等同物限定。

需要说明的是,在本发明各个实施例中的各功能单元/模块可以集成在一个处理单元/模

块中,也可以是各个单元/模块单独物理存在,也可以是两个或两个以上单元/模块集成 在一个单元/模块中。上述集成的单元/模块既可以采用硬件的形式实现,也可以采用软件功 能单元/模块的形式实现。

通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解应当理解,可以以硬 件、软件、固件、中间件、代码或其任何恰当组合来实现这里描述的实施例。对于硬件实现, 处理器可以在一个或多个下列单元中实现:专用集成电路(ASIC)、数字信号处理器(DSP)、 数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、 控制器、微控制器、微处理器、设计用于实现这里所描述功能的其他电子单元或其组合。对 于软件实现,实施例的部分或全部流程可以通过计算机程序来指令相关的硬件来完成。

实现时,可以将上述程序存储在计算机可读介质中或作为计算机可读介质上的一个或多 个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包 括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存 取的任何可用介质。计算机可读介质可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其他 光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结 构形式的期望的程序代码并能够由计算机存取的任何其他介质。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号