首页> 中国专利> 基于文本摘要情感挖掘的股票趋势预测方法和系统

基于文本摘要情感挖掘的股票趋势预测方法和系统

摘要

本发明涉及基于文本摘要情感挖掘的股票趋势预测方法和系统,包括以下步骤:S1获取股票相关的若干新闻数据;S2通过新闻数据,获得各新闻的文本摘要;S3根据预建立的情感词库,提取各文本摘要中的情感词,并根据情感词表达情感的强弱,对各文本摘要的情感进行打分;S4将各文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入预建立的股票预测模型中进行计算,若计算结果大于等于零,则股票呈上涨趋势;若计算结果小于零,则股票呈下跌趋势。其通过提取新闻文本摘要,并对文本摘要进行情感挖掘,有效获得对股市波动趋势造成影响的信息,使股票波动预测不仅只局限于往期股票信息,可以从更多方面,更准确的对股票趋势进行预测。

著录项

  • 公开/公告号CN112527866A

    专利类型发明专利

  • 公开/公告日2021-03-19

    原文格式PDF

  • 申请/专利权人 中国人民大学;

    申请/专利号CN202011497913.0

  • 发明设计人 齐甜方;蒋洪迅;

    申请日2020-12-17

  • 分类号G06F16/2458(20190101);G06F16/33(20190101);G06F16/35(20190101);G06F40/242(20200101);G06F40/289(20200101);G06N3/04(20060101);G06N3/08(20060101);G06Q40/04(20120101);

  • 代理机构11245 北京纪凯知识产权代理有限公司;

  • 代理人孙楠

  • 地址 100872 北京市海淀区中关村大街59号

  • 入库时间 2023-06-19 10:19:37

说明书

技术领域

本发明是关于一种基于文本摘要情感挖掘的股票趋势预测方法和系统,属于人工智能技术领域。

背景技术

中国股市是一个新兴的证券市场,市场结构和机制尚不成熟,处于不断摸索和完善 的过程。相比西方成熟市场,我国股票市场的投资以中小型投资者为主,其信息获取 与分析能力和认知能力分布不均匀,投资者之间的信息不对称程度也高于西方成熟资 本市场。对于中国这样新生市场,投资者经验相对缺乏、非理性行为较多,主流媒体 的过多参与会扩大投资者情绪,加剧股市的波动。已有研究表明,互联网财经新闻的 情感倾向会影响投资者的决策和行为,进而引起市场波动。

近年来,已有许多研究者将新闻情感作为输入特征参与股票预测。股票投资者阅读 新闻资讯时,能人为抽取主要信息、避免无关信息的干扰。然而,当使用文本情感分 析技术自动提取新闻情感倾向时,通常会存在偏差。尤其是新闻文本中出现情感极性 的变化时,模型无法分辨主次关系,将所有情感一并计算并输出。目前已有不少国内 外学者提出了自动文本摘要的解决方案。通过对新闻进行摘要提取,取出新闻中蕴含 的有效信息,可以有效解决信息过载和新闻情感极性变化问题,从而能更准确地提取 资讯的情感倾向。因此,应用现有的自然语言处理技术和股票预测技术,深入研究新 闻资讯摘要对股票波动的影响,对股票波动趋势进行预测,将会对投资者的投资决策 和完善市场建设等方面具有理论和现实意义。

发明内容

针对上述现有技术的不足,本发明的目的是提供了一种基于文本摘要情感挖掘的股票趋势预测方法和系统,其通过提取新闻文本摘要,并对文本摘要进行情感挖掘, 有效获得可能对股市波动趋势造成影响的信息,使股票波动预测不仅仅只局限于往期 股票信息,可以从更多方面,更准确的对股票趋势进行预测。

为实现上述目的,本发明提供了一种基于文本摘要情感挖掘的股票趋势预测方法, 包括以下步骤:S1获取股票相关的若干新闻数据;S2通过新闻数据,获得各新闻的文本摘要;S3根据预建立的情感词库,提取各文本摘要中的情感词,并根据情感词表达 情感的强弱,对各文本摘要的情感进行打分;S4将各文本摘要的情感分值作为特征向 量与股票历史变化趋势数据输入预建立的股票预测模型中进行计算,若计算结果大于 等于零,则股票呈上涨趋势;若计算结果小于零,则股票呈下跌趋势。

进一步,步骤S1中获取股票相关的若干新闻数据包括:选定待研究的股票,获取股票一定时间内的股票代码简称、日期、开盘价、最高价、最低价、收盘价、涨跌幅、 成交量、成交金额、换手率、A股流通市值、总市值、市盈率和市销率中至少一种,生 成检索关键词,选定可靠的新闻来源,并在新闻来源中检索与股票相关的新闻数据。

进一步,步骤S2的具体操作过程为:S2.1对提取的新闻数据做分词处理并去除 标点符号,将无关的实体替换成标签,并将新闻数据中的词转换为词典索引;S2.2采 用提取的新闻数据训练新闻来源选择模型,得到可靠的新闻来源;S2.3从可靠的新闻 来源再次提取新闻数据,并通过Attention机制的Seq2Seq模型获取各新闻的文本摘 要。

进一步,新闻来源选择模型的训练过程如下:从某一新闻来源处,检索某一历史时间中与待预测股票相关的新闻数据,并获取历史时间内待预测股票的实际变化趋势, 用新闻数据预测待预测股票的变化趋势,将预测的变化趋势和实际的变化趋势进行比 较,并根据比较结果进行打分;对所有待选的新闻来源进行上面的操作,得到所有待 选的新闻来源的分值,将分值超过阈值的新闻来源选定为可靠的新闻来源。

进一步,通过Attention机制的Seq2Seq模型获取各新闻的文本摘要的过程为: 将新闻数据作为输入向量序列输入Attention机制的Seq2Seq模型获得各个词的生成 概率,从而得到所有新闻数据的词的生成概率,选择生成概率高的词,从而生成新闻 的文本摘要。

进一步,步骤S3中的情感词库包括:情感词,财经新闻中具有趋向性的专业术语,表示否定的词以及程度副词。

进一步,步骤S3的具体操作过程为:将情感词库中的情感词和财经新闻中具有趋向性的专业术语分为表达积极情感、表达消极情感两类,设定各情感词库中的情感词 和财经新闻中具有趋向性的专业术语的分值,若表达积极情感则加相应分值,若表达 消极情感则减去相应分值,将各新闻数据的文本摘要分成若干句簇,结合否定词和程 度副词获得各句簇的得分。

进一步,结合否定词和程度副词获得各句簇的得分规则为:只出现否定词的得分为Un=(0.1×Cn-1)

进一步,步骤S4的具体操作步骤为:4.1选择时间窗口,并采集时间窗口内的股 票历史变化趋势数据;4.2各文本摘要的情感分值作为特征向量与股票历史变化趋势 数据输入LSTM模型,对LSTM模型进行训练,获得包含情感特征的股票训练模型;4.3 在包含情感特征的股票训练模型中输入用于判断股票趋势的文本摘要的情感分值作为 特征向量与股票历史变化趋势数据,并计算出股票带预测时间段内的变化量;4.4判 断变化量是否大于零,若变化量大于等于零,则股票呈上涨趋势;若变化量小于零, 则股票呈下跌趋势。

本发明还公开了一种基于文本摘要情感挖掘的股票趋势预测系统,包括:获取模块,用于获取股票相关的若干新闻数据;摘要生成模块,用于通过新闻数据,获得各 新闻的文本摘要;情感打分模块,用于根据预建立的情感词库,提取各文本摘要中的 情感词,并根据情感词表达情感的强弱,对各文本摘要的情感进行打分;趋势判断模 块,用于将各文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入预建立 的股票预测模型中进行计算,若计算结果大于等于零,则股票呈上涨趋势;若计算结 果小于零,则股票呈下跌趋势。

本发明由于采取以上技术方案,其具有以下优点:

1、本发明通过对基于股票的新闻文本进行收集和整理,构建了大型文本摘要数据库,并计算该摘要的情感值;将自动文本摘要和情感值计算应用于深度学习预测模型 中,完善了模型多种输入信息,提升了模型的表征能力。

2、本发明结合文本摘要情感值,通过LSTM网络进行股票波动预测,提升了预测 效果的准确性。因此,本发明可以广泛应用于股票预测应用领域。

附图说明

图1是本发明一实施例中基于自动文本摘要和情感挖掘进行股票波动趋势预测方法流程图;

图2是本发明一实施例中基于attention机制的Seq2Seq模型的结构示意图;

图3是本发明一实施例中LSTM预测模型的结构示意图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方向,通过具体实施例对本发明进行详细的描绘。然而应当理解,具体实施方式的提供仅为了更好地理解本发明,它 们不应该理解成对本发明的限制。在本发明的描述中,需要理解的是,所用到的术语 仅仅是用于描述的目的,而不能理解为指示或暗示相对重要性。

实施例一

本实施例公开了一种基于文本摘要情感挖掘的股票趋势预测方法,包括以下步骤:

S1获取股票相关的若干新闻数据。

获取股票相关的若干新闻数据包括:根据股票的成交量、股票上市的时间区间以及受关注程度来确定股票对象,并且获取所选股票的行情数据;选取研究对象。首先 需要考虑到股票在研究时间范围内是否有有效数据、相关新闻数量、股票成交量排名 以及股票收益情况排名,以保证研究的股票存在较高关注度,因而当新闻情感值有所 变化时,能够对投资者的投资心理和投资决策产生影响。在确定所选择的股票后通过 数据库导出已选定的股票信息,选定待研究的股票,获取股票一定时间内的股票代码 简称、日期、开盘价、最高价、最低价、收盘价、涨跌幅、成交量、成交金额、换手 率、A股流通市值、总市值、市盈率和市销率中至少一种,生成检索关键词,选定可靠 的新闻来源,并在新闻来源中检索与股票相关的新闻数据。确定可靠新闻来源可以根 据影响力、重要性以及可获取性来对各大金融网站进行比较,确定抓取新闻的信息来 源。主要根据影响力、重要性以及可获取性对各大金融门户网站的内容进行分析比较, 划定新闻采集范围,选取具有代表性的股票新闻门户网站进行数据抓取。本实施例中 从备选的较为常用、权威的新闻来源选取一定量的新闻信息进行训练,从而建立新闻 来源选择模型,以便提取更加具有代表性的,真实性更强的新闻信息。新闻来源可以 随时预测准确度进行更新,也可以选择定期更新。选定新闻来源后,采用字符串匹配 方式,根据待研究的股票对象来编写爬虫脚本,通过股票的代码、名称和简称作为关 键字,使用scrapy爬虫框架抓取一段时间内的新闻资讯。抓取内容包括新闻的标题、 发布时间、发布内容和网址等,从而组成新闻数据。

S2通过新闻数据,获得各新闻的文本摘要。

其具体操作过程为:

S2.1对提取的新闻数据做分词处理并去除标点符号,将无关的实体比如日期,时间,人名,数字等统一替换成标签如Date,Time,Name,Number等。基于新闻数据构 建长度为60000的词典,将新闻数据中的词转换为词典索引;

S2.2采用提取的新闻数据训练新闻来源选择模型,得到可靠的新闻来源;新闻来源选择模型的训练过程如下:从某一新闻来源处,检索某一历史时间中与待预测股票 相关的新闻数据,并获取历史时间内待预测股票的实际变化趋势,用新闻数据预测待 预测股票的变化趋势,将预测的变化趋势和实际的变化趋势进行比较,并根据比较结 果进行打分;对所有待选的新闻来源进行上面的操作,得到所有待选的新闻来源的分 值,将分值超过阈值的新闻来源选定为可靠的新闻来源。

S2.3从可靠的新闻来源再次提取新闻数据,并通过Attention机制的Seq2Seq模型获取各新闻的文本摘要。

通过Attention机制的Seq2Seq模型获取各新闻的文本摘要的过程为:将新闻数据作为输入向量序列输入Attention机制的Seq2Seq模型获得各个词的生成概率,从 而得到所有新闻数据的词的生成概率,选择生成概率高的词,从而生成新闻的文本摘 要。

其中,如图2所示,Attention机制是连接编码层(Encoder)和解码层(Decoder)的一 个通道。由于在Encoder中保留每个循环神经网络RNN单元的隐藏层,假设Encoder 第t时间步的隐藏层h

S3根据预建立的情感词库,提取各文本摘要中的情感词,并根据情感词表达情感的强弱,对各文本摘要的情感进行打分。

情感词库包括:情感词,财经新闻中具有趋向性的专业术语,表示否定的词以及程度副词。构建情感词典、财经新闻中具有趋向性的专业术语,表示否定的词以及程 度副词包括:

组建以HowNet情感词和评价词作为基础情感词库,在此基础上融合去除中性词的大连理工中文情感词汇库、删除部分不适合直接用于情感分析词汇的台湾大学中文情 感词典以及部分新闻情感词汇,构建了较为完整的情感词库。其次,通过从各大论坛 提取评论信息、通过对新闻文本的排序抽取情感词,搜集了一份具有代表性的专业词 库,并邀请了3位该领域的专家(证券从业人员、股民)分别进行打分。

接着,给出否定词范畴,并对否定词的分类,,结合新闻词频统计情况和日常使用情况,选取得到否定词词典。

最后,对程度副词进行分类,结合HowNet中程度级别词语和新闻词频统计情况,构建程度词典,并给不同的程度词赋予不同得分,用于情感计算。

步骤S3的具体操作过程为:将情感词库中的情感词和财经新闻中具有趋向性的专业术语分为表达积极情感、表达消极情感两类,设定各情感词库中的情感词和财经 新闻中具有趋向性的专业术语的分值,若表达积极情感则加相应分值,若表达消极情 感则减去相应分值,将各新闻数据的文本摘要分成若干句簇,结合否定词和程度副词 获得各句簇的得分。考虑到新闻一般使用较为规范的书面语,而口语化的倒装句比较 少见,本文使用简单的逻辑处理多义词。情感词之前的多义词视为程度词;一句话中 连续的多义词且没有情感词结尾,将最后一个多义词视为情感词,其他多义词视为程 度词。

结合否定词和程度副词获得各句簇的得分规则为:只出现否定词的得分为 Un=(0.1×Cn-1)

表1情感值的得分计算标准

根据当天所有的新闻情感值来求平均,即得到该天的新闻情感值。也可以将所有的新闻情感值均输入下一步的股票预测模型中进行训练。

S4将各文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入预建立的股票预测模型中进行计算,若计算结果大于等于零,则股票呈上涨趋势;若计算结 果小于零,则股票呈下跌趋势。

步骤S4的具体操作步骤为:

4.1选择时间窗口,并采集时间窗口内的股票历史变化趋势数据。

4.2各文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入长短期记忆网络模型即LSTM模型,对LSTM模型进行训练,获得包含情感特征的股票训练模型。

LSTM模型区别于循环神经网络模型RNN的地方,主要就在于其在算法中加入 了一个判断信息有用与否“处理器”,这个处理器作用的结构被称为cell。一个cell当 中被放置了三扇门,分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络 当中,可以根据规则来判断是否有用。只有符合算法认证的信息才会留下,不符的信 息则通过遗忘门被遗忘。

其中,遗忘门的模型为:f

输出记忆信息

输出门o

4.3在包含情感特征的股票训练模型中输入用于判断股票趋势的文本摘要的情感分值作为特征向量与股票历史变化趋势数据,并计算出股票带预测时间段内的变化量。

4.4判断变化量是否大于零,若变化量大于等于零,则股票呈上涨趋势;若变化 量小于零,则股票呈下跌趋势。在进行股票波动趋势预测过程中,下一天的预测值往 往基于其股票历史数据,而LSTM可以直接对任意长度的序列进行处理,能够满足股票 预测需求。LSTM通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状 态的能力。

实施例二

基于相同的发明构思,本实施例公开了一种基于文本摘要情感挖掘的股票趋势预测系统,包括:

获取模块,用于获取股票相关的若干新闻数据;

摘要生成模块,用于通过新闻数据,获得各新闻的文本摘要;情感打分模块,用 于根据预建立的情感词库,提取各文本摘要中的情感词,并根据情感词表达情感的强 弱,对各文本摘要的情感进行打分;

趋势判断模块,用于将各文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入预建立的股票预测模型中进行计算,若计算结果大于等于零,则股票呈上涨 趋势;若计算结果小于零,则股票呈下跌趋势。

上述内容仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都 应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围 为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号