首页> 中国专利> 基于公司衍生关系的知识感知和时间敏感的金融新闻推荐系统及方法

基于公司衍生关系的知识感知和时间敏感的金融新闻推荐系统及方法

摘要

本发明提供一种基于公司衍生关系的知识感知和时间敏感的金融新闻推荐系统及方法,自动处理大量媒体信息,为投资者推荐有价值的新闻信息来追踪股票走势。本发明的金融新闻推荐系统,包括知识感知的新闻表示层构建模块,基于相关公司的用户嵌入生成模块,新闻推荐模块;知识感知的新闻表示层构建模块通过三元组提取实体以及识别实体之间的关系,通过句子分析提取实体,根据上下文在现有的金融知识图谱中匹配实体,融合内部与外部知识;基于相关公司的用户嵌入生成模块基于用户的阅读历史与公司关系生成基于相关公司的用户嵌入;新闻推荐模块定义时间敏感衰减机制,根据新闻发布时间的距离,加入时间惩罚项,以推荐同时具有重大影响和及时性的新闻。

著录项

  • 公开/公告号CN115238082A

    专利类型发明专利

  • 公开/公告日2022-10-25

    原文格式PDF

  • 申请/专利权人 西南财经大学;

    申请/专利号CN202210695640.3

  • 发明设计人 王俊;谭晶桦;陈俊霄;金汉磊;

    申请日2022-06-20

  • 分类号G06F16/36(2019.01);G06F16/9535(2019.01);G06F16/9538(2019.01);G06F40/109(2020.01);G06F40/295(2020.01);G06Q40/04(2012.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构泰和泰律师事务所 51219;

  • 代理人曾祥坤

  • 地址 611130 四川省成都市温江区柳台大道555号

  • 入库时间 2023-06-19 17:25:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-11-11

    实质审查的生效 IPC(主分类):G06F16/36 专利申请号:2022106956403 申请日:20220620

    实质审查的生效

说明书

技术领域

本发明涉及针对用户个性化推荐技术领域,具体涉及一种基于公司衍生关系的知识感知和时间敏感的金融新闻推荐系统及方法。

背景技术

证券市场波动的研究是金融风险、资产定价和投资组合领域的一个长期课题。最近,行为金融家们将股票波动归结为归因于媒体上的事件或专家意见,这些事件或意见影响了投资者的情绪,并导致市场波动。随着互联网的快速发展,投资者对媒体新闻的获取变得更加方便,媒体的影响也越来越突出。因此,有效利用媒体信息和捕捉媒体意识的波动对投资决策非常重要。

事实上,在面对大量媒体信息时,投资者很难专注于有价值的新闻信息来追踪股票走势。也就是说,投资者很难将影响股票走势的高概率新闻与无价值或重复性的信息区分开来。

这种面向金融的新闻推荐系统面临的第一个挑战在于识别有影响力的新闻。传统的策略是根据外部因素,包括投资者的兴趣和新闻来源来生成金融新闻的推荐列表。例如,R.Ren等人根据用户点击内容的历史构建了用户的阅读兴趣,并通过"喜欢"和"不喜欢"的反馈加权进行推荐。这种基于外部的方法忽略了新闻本身对市场的影响,因此不能从内容的质量和全面性上识别有价值的新闻。一些研究者更进一步,探索新闻内容中的金融关键词来生成推荐列表。然而,只使用关键词很难捕捉到对市场波动的真正影响。因此,强调实体和它们之间的关系来区分新闻对于跟踪媒体意识的股票走势至关重要。

面向金融的新闻推荐系统面临的另一个重要问题是股票市场的时间敏感性和与公司有关的特点。具体来说,一个公司会受到自己的新闻以及相关公司的新闻的影响。例如,在附图二中,一则关于计划在2020年12月22日推出商用电动汽车的新闻报道给苹果公司(AAPL)的股票带来了上升的压力,导致了1.24%的增长。同时,由于供应链中对其生产的需求上升,卢米纳(LAZR)的股票增加了27%。结合这种公司关系,生成一份可能引起股票变动的推荐金融新闻清单是有意义的。

此外,金融领域的专家已经证明,市场吸收新闻影响的时间是不确定的,从几小时到几天不等。例如,在11月下旬,一篇关于COVID-19疫苗的新闻对辉瑞公司(PFE)股票造成的向上影响持续了几天,而T.Tao等人证明一般新闻对股票市场的效力存在于2天之内。因此,金融新闻推荐系统应该考虑其影响时间来识别有影响力的新闻。

发明内容

本发明提供一种基于公司衍生关系的知识感知和时间敏感的金融新闻推荐系统及方法,自动处理大量媒体信息,将影响股票走势的高概率新闻与无价值或重复性的信息区分开来,为投资者推荐有价值的新闻信息来追踪股票走势。

本发明所要解决的技术问题是通过如下技术方案实现的:

本发明提供一种基于公司衍生关系的知识感知和时间敏感的金融新闻推荐系统,包括知识感知的新闻表示层构建模块,基于相关公司的用户嵌入生成模块,新闻推荐模块;其中,知识感知的新闻表示层构建模块通过三元组提取实体以及识别实体之间的关系,简单地表示新闻,采用(h,r,t)的形式表示三联体,其中h,t∈E是实体,r∈R是两者之间的关系,并对于每一条新闻通过句子分析提取实体以及相应的关系集合,根据上下文在现有的金融知识图谱中匹配实体,融合内部与外部知识;基于相关公司的用户嵌入生成模块基于用户的阅读历史与公司关系生成基于相关公司的用户嵌入;新闻推荐模块定义时间敏感衰减机制,根据新闻发布时间的距离,加入时间惩罚项,以推荐同时具有重大影响和及时性的新闻。

优选的,所述知识感知的新闻表示层构建模块包括三元表示组构建子模块,字面到矢量的转化子模块,破碎的三联体子模块,知识学习融合子模块,内部和外部知识结合子模块,softmax函数归一化子模块,上下文分析子模块;三元表示组构建子模块构建的三元表示组包含两个实体及二者之间的联系,以(h,rt)的形式表示为三联体;字面到矢量的转化子模块完成从字面到矢量的转化过程,将三联体用矢量关系式v

优选的,所述字面到矢量的转化子模块实施嵌入矢量转换过程中的损失函数L计算公式是L-∑

优选的,所述破碎的三联体子模块定义了破碎的三联体S′

优选的,所述内部和外部知识结合子模块结合h和t之间的内部和外部知识过程中,使用线性整流函数(Rectified Linear Unit,ReLU)。线性整流函数(Rectified LinearUnit,ReLU),又称修正线性单元,是一种人工神经网络中常用的激活函数(activationfunction),通常指代以斜坡函数及其变种为代表的非线性函数。比较常用的线性整流函数有斜坡函数,以及带泄露整流函数(Leaky ReLU),其中x为神经元(Neuron)的输入。线性整流被认为有一定的生物学原理,并且由于在实践中通常有着比其他常用激活函数(譬如逻辑函数)更好的效果,而被如今的深度神经网络广泛使用于诸如图像识别等计算机视觉人工智能领域。h的知识融合公式是

优选的,所述softmax函数归一化子模块用softmax函数实施归一化,δ0()函数即归一化指数函数,或称Softmax函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。该函数多于多分类问题中。因此,Softmax函数在包括多项逻辑回归,多项线性判别分析,朴素贝叶斯分类器和人工神经网络等的多种基于概率的多分类问题方法中都有着广泛应用。其计算公式是

优选的,所述上下文分析子模块,以如下公式计算得到具有知识感知的新闻表示

优选的,所述基于相关公司的用户嵌入生成模块包括新闻区分子模块和用户嵌入子模块;新闻区分子模块将公司关系作为加权值来区分不同新闻的功能,首先假设用户会接受所有推荐的新闻,将其视为阅读历史,给定一个首选股票s,用户的嵌入将由该股票及其几个相关股票的首推新闻来计算;用户嵌入子模块将历史周期设定为2周,使用

优选的,所述推荐新闻集

优选的,所述新闻推荐模块根据新闻发布时间的距离,加入时间惩罚项Δ(T

优选的,所述基于公司衍生关系的知识感知和时间敏感的金融新闻推荐系统还包括显示模块;显示模块展示推荐系统向用户推荐的金融新闻,页面背景以黑色为主,字体颜色为蓝色;黑色背景对眼睛的刺激较小,在进行大量的阅读工作时更有利于防止近视;而蓝色则给人冷静、智慧、深远的感觉。

一种基于公司衍生关系的知识感知和时间敏感的金融新闻推荐方法,包括以下步骤:

Step1、构建知识感知的新闻表示层,通过三元组提取实体以及识别实体之间的关系,简单地表示新闻;采用(h,r,t)的形式表示三联体,其中h,t∈E是实体,r∈R是两者之间的关系;并对于每一条新闻通过句子分析提取实体以及相应的关系集合,根据上下文在现有的金融知识图谱中匹配实体,融合的内部与外部知识;

Step2、基于用户的阅读历史与公司关系生成基于相关公司的用户嵌入;

Step3、定义时间敏感衰减机制,根据新闻发布时间的距离,加入时间惩罚项,以推荐同时具有重大影响和及时性的新闻。

优选的,所述步骤Step1,构建知识感知的新闻表示层进一步细化为步骤:

SN1、构建三元表示组,以(h,r,t)的形式表示为三联体,它包含两个实体之间的联系,其中h,t∈E是实体,r∈R是两者之间的关系;

SN2、完成从字面到矢量的转化过程,将三联体用矢量关系式v

SN3、为了学习尽可能多的关系,定义了破碎的三联体S′

SN4、知识学习融合,对于一条新闻N,通过句子分析提取实体h,以及句子中与之相关的实体集合E

SN5、通过平移法得到实体(v

SN6、用softmax函数归一化;

SN7、考虑到实体的上下文信息,通过上下文分析来增加实体位置-频率权重w

优选的,所述步骤Step2,生成基于相关公司的用户嵌入进一步细化为步骤:

SU1、将公司关系作为加权值来区分不同新闻的功能;首先假设用户会接受所有推荐的新闻,将其视为阅读历史;给定一个首选股票s,用户的嵌入将由该股票及其几个相关股票的首推新闻来计算;

SU2、将历史周期设定为2周,使用

优选的,所述步骤Step3进一步细化为步骤:根据新闻发布时间的距离,加入时间惩罚项Δ(T

优选的,所述基于公司衍生关系的知识感知和时间敏感的金融新闻推荐方法还包括步骤Step4:通过显示模块展示推荐系统向用户推荐的金融新闻,页面背景以黑色为主,字体颜色为蓝色。

本发明的有益效果在于,基于公司衍生关系的知识感知和时间敏感的金融新闻推荐系统及方法在知识感知的新闻嵌入和时间敏感的推荐方面是非常有效的,并且能够捕捉到用户最近的偏好。

附图说明

图1是本发明的基于公司衍生关系的知识感知和时间敏感的金融新闻推荐系统及方法的研究框架;

图2是苹果、Velodyne和Luminar的股票围绕苹果电动车的宣布的变动图;

图3是贵州茅台酒波动的时间敏感影响图;

图4是四种类型的参数实验结果;

图5是有关平安银行、贵州茅台和爱飞客的推荐新闻。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

图1是本实施例的基于公司衍生关系的知识感知和时间敏感的金融新闻推荐系统及方法的研究框架,本方法包括以下步骤:

Step1:构建知识感知的新闻表示层:通过三元组提取实体以及识别实体之间的关系,简单地表示新闻;采用(h,r,t)的形式表示三联体,其中h,t∈E是实体,r∈R是两者之间的关系。并对于每一条新闻通过句子分析提取实体以及相应的关系集合,并根据上下文在现有的金融知识图谱中匹配实体,融合的内部与外部知识。

Step2:基于用户的阅读历史与公司关系生成基于相关公司的用户嵌入;

Step3:定义时间敏感衰减机制,根据新闻发布时间的距离,加入时间惩罚项,以推荐同时具有重大影响和及时性的新闻。

进一步地,上述定义的知识感知的新闻表示层主要包括一下步骤:

SN1:构建三元表示组。以(h,r,t)的形式表示为三联体,它包含两个实体之间的联系,其中h,t∈E是实体,r∈R是两者之间的关系。

SN2:完成从字面到矢量的转化过程,将三联体用矢量关系式v

L=∑

其中,[x]+代表x的正部分,γ>0是边际超参数。如果一个实体在同一新闻中有两个代表向量h和t,那么h=t。

SN3:为了学习尽可能多的关系,定义了破碎的三联体S′

S′

SN4:知识学习融合。对于一条新闻N,通过句子分析提取实体h,以及句子中与之相关的实体集合E

SN5:通过平移法得到实体(v

w=w

其中,

SN6:最后用softmax函数归一化。计算方式为:

SN7:考虑到实体的上下文信息,通过上下文分析来增加实体位置-频率权重w

进一步地,上述基于公司关系的用户嵌入层主要包括以下步骤:

本发明从两个部分生成用户的嵌入:一个是与用户的阅读历史相关的,对以前的记录进行编码,另一个是用于编码内在偏好的公司关系。一股来说,在现实情况下,由于信息源的各种影响,用户的偏好通常是动态的,它通常反映在最近的浏览记录上,所以本发明用最近的历史记录来代表用户的兴趣。

SUl:由于关于相关公司的新闻对股票的波动很重要,因此,本发明将公司关系作为加权值来区分不同新闻的功能。首先假设用户会接受所有推荐的新闻,将其视为阅读历史。给定一个首选股票s,用户的嵌入将由该股票及其几个相关股票的首推新闻来计算。

SU2:将历史周期设定为2周。使用

其中,r

进一步地,上述时间敏感效应层实现如下:

根据新闻发布时间的距离,加入时间惩罚项Δ(T

为进一步验证本系统的优越性,本发明还进行了如下实验:

实验数据

·CSMAR News的中国市场数据集,包含新闻ID、发布时间、标题、内容和来源等。由于大公司或行业领先者会吸引更多的媒体关注,重点关注那些在沪深300指数中上市的公司,并从上海和深圳证券交易所的网站上收集全部信息。CSMAR News数据集描述如下:

表一

·公共数据集MIND(Microsoft News Dataset),它是从微软新闻的用户行为日志中收集的,在2019年10月12日至11月22日的6周内,对100万名有至少5次新闻点击记录的用户进行抽样调查。数据集中的每篇新闻都包含一个新闻ID,一个标题,一个摘要,一个正文,一个类别标签等。更多细节在表五中展示。

评价指标

在CSMAR News的中国市场数据集上,为了根据推荐的新闻来预测股市的波动,我们选择了ACC和Return作为评价指标。

通过分析每个交易日的Top K推荐新闻的情绪来预测媒体和市场的情绪极性。具体方法是,将TOP5新闻情绪的权重从0.5到0.3赋值,差距为0.05。如果K≥5,剩下的K-5项每项加权0.05。这种方法可能会导致情绪值大于1,所以应该应用归一化,使每个值都在0到1之间。当归一化后的情绪值大于0.5时,我们认为下一个交易日是积极的。并将该值转化为1,反之亦然。需要注意的是,我们使用预先训练好的模型PaddlePaddle11来分析中文文本情感。

对于英语数据集MIND,使用AUC、MRR和NDCG@K{K=5,10}三个指标来评估。AUC计算出所有推荐项目N上正确的n

MRR其计算公式如下:

NDCG(Normalized Discounted Cumulative Gain)使用分级相关性,从排名的顶部开始累积,K是推荐项目的数量。计算方法为:

其中,r(i)是第i个项目在Top K中与目标任务的相关性,DCG

参数设置

该模型涉及多个参数,我们主要选择以下参数进行深入探讨,(1)e

参数(1)来自知识感知的新嵌入层,它影响着知识学习和内容强调的程度。参数(2)和(3)分别来自公司相关层和时间敏感层。参数(2)主要影响推荐者列表中关于股票本身和相关公司的新闻数量,而参数(3)则可能扩大推荐新闻的时间范围,参数(4)站在用户的角度,可以根据阅读需求进行修改。这些参数的初始化情况如表二所示:

表二

根据数据量的大小,对CSMAR新闻进行参数实验。我们使用ACC和Return来评估不同参数的性能。从2018年到2020年,构成CSI-300指数的股票已经更新了几次。为了平等地评估参数,我们重点关注3年内构成CSI-300的股票。最终,本次实验中共选取了201只股票,详细代码可以在中证网找到。此外,由于中国的贸易规则,我们不能进行"卖空"操作,我们遵守"T+1"交易机制。我们假设有20万人民币的初始资金,并根据上涨或下跌的预测进行交易。如果预测显示上涨,并且资金充足,我们会尽可能多地买入。结果见图4和表三:

表三

在图4的每个子图中,左Y轴为ACC,右Y轴为Return。从参数实验的结果中,我们可以得到每个参数的最佳值。

在图(a)中,我们可以看到,当e

表三展示了每个参数的最大、最小和平均回报。我们可以看到,参数rc实现了最高的回报率,而K得到了最低的回报率。因此,我们有信心,相关公司在模型中发挥了重要作用。

消融研究

本框架由三个主要的部分组成,即知识意识表示、公司相关机制和时间敏感部分。在这里,我们通过对我们框架的每个部分进行不同的设置来测试所提出的系统的有效性。具体来说,(1)

表四列出了消融结果的细节。它显示,

表四

建议细节

在这一部分,我们选择了三只在CSI-300指数中上市的不同行业的股票来展示推荐消息。这些股票是平安银行、贵州茅台和iFlytek。在图5中,当机制给一个公司(股票)提供一篇新闻时,与该公司(股票)相关的其他重点新闻也会被推荐。因此,第三列给出了根据第二列的公司关系图中的权重排序的相关新闻。

公共数据集实验

在这里,我们准备了公共数据集MIND(Microsoft News Dataset),它是从微软新闻的用户行为日志中收集的,在2019年10月12日至11月22日的6周内,对100万名有至少5次新闻点击记录的用户进行抽样调查。数据集中的每篇新闻都包含一个新闻ID,一个标题,一个摘要,一个正文,一个类别标签等。更多细节在表五中展示:

表五

MIND中并非所有的新闻都是公司的具体新闻。在这项研究中,我们使用了

表六

从结果表来看,我们的模型在所有指标上都优于其他进行比较的模型,这证明了所提出的系统比最先进的算法的优越性。这一发现表明,我们的模型在知识感知的新闻嵌入和时间敏感的推荐方面是非常有效的,并且能够捕捉到用户最近的偏好。

页面设计

大量人体工程学研究证明深色文字在白色背景更易于辨识。白光对于人眼的三种颜色视觉感受器产生相同大小的刺激,导致眼球通过拉紧虹膜实现聚焦。在此种眼球聚焦的状态下,白色背景中的深色文字易于辨识。黑色背景则会导致虹膜张开以收集更多的光线,造成浅色文字变得模糊。超过一半成年人的视力都受到散光的影响。散光人群阅读黑色背景中浅色文字的难度明显高于阅读白色背景中的深色文字。原因在于,白色背景使得虹膜部分关闭,降低眼球晶状体的形变;黑色背景导致虹膜张开,晶状体的形变造成模糊的眼球聚焦。黑色背景对眼睛的刺激较小,有利于防止近视。对于需要长时间在电脑、手机屏幕前查阅信息的使用者,从健康角度看深色背景更好一点。

因此,基于公司衍生关系的知识感知和时间敏感的金融新闻推荐系统还包括显示模块;显示模块展示推荐系统向用户推荐的金融新闻,页面背景以黑色为主,字体颜色为蓝色;黑色背景对眼睛的刺激较小,在进行大量的阅读工作时更有利于防止近视;而蓝色则给人冷静、智慧、深远的感觉。本系统的潜在用户包括大量的股票交易从业者和普通股民,此类人群长期在电脑或手机上查看金融新闻和股市信息,容易用眼疲劳出现视力减退。而且,股市行情瞬息万变,交易从业者必须时刻保持冷静的头脑,才能够理智地分析并作出正确的选择与决定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号