首页> 中国专利> 一种社交媒体危机事件预测方法及系统

一种社交媒体危机事件预测方法及系统

摘要

本发明涉及一种社交媒体危机事件预测方法及系统。所述方法包括:使用预训练词向量GloVe将原始事件表示成事件向量;根据原始事件的事件向量,使用卷积神经网络和注意力机制获取原始事件的特征向量,包括已知事件的特征向量和候选事件的特征向量;使用点乘相似度计算指标来计算已知事件的特征向量和候选事件的特征向量之间的相似度;根据已知事件的特征向量和候选事件的特征向量之间的相似度,从多个候选事件中选择出危机事件的预测事件。本发明方法利用卷积神经网络和注意力机制来对事件提取特征,并根据事件间的特征相似度进行预测,能够提高事件预测的鲁棒性和准确性;并且本发明方法不依赖外部知识库,具有很强的通用性。

著录项

  • 公开/公告号CN114580738A

    专利类型发明专利

  • 公开/公告日2022-06-03

    原文格式PDF

  • 申请/专利权人 厦门大学;

    申请/专利号CN202210201984.4

  • 发明设计人 周绮凤;江信禧;

    申请日2022-03-03

  • 分类号G06Q10/04;G06Q50/00;G06Q50/26;G06F16/33;G06N3/04;G06N3/08;

  • 代理机构北京高沃律师事务所;

  • 代理人刘芳

  • 地址 361005 福建省厦门市思明区思明南路422号

  • 入库时间 2023-06-19 15:32:14

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-03

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及人工智能和自然语言处理应用技术领域,特别是涉及一种社交媒体危机事件预测方法及系统。

背景技术

在互联网时代的今天,社交媒体平台拥有世界各地大量的用户。当危机事件(如地震、台风、恐怖袭击等)发生时,相关个人或组织机构会在社交媒体平台上发布关键信息(主要指文本信息),这些信息会迅速传播,进而会吸引更多的人进行讨论和交流,形成一个热门话题。因此,社交媒体已成为危机事件发生期间应急管理的重要信息来源。在对危机事件的应急响应中一项十分有意义的工作是危机事件预警,即根据当前危机事件的发展形势,预测未来可能会发生的事件。

为了利用社交媒体中的有效信息,将文本中相关的危机事件进行结构化描述。一个完整的事件由主语(s)、谓语(v)、宾语(o)和介词宾语/状语(p)4个论元构成,对于缺少4个论元的事件,将对应论元设置为“-”。例如,可以将原始的社交媒体文本“someone hasjust attacked the embassy!”和“someone threw a bomb.”分别描述为(someone,attacked,embassy,-)和(someone,threw,bomb,-)。这样的事件描述中包含大量有价值的信息。给定对事件的描述,人们可以根据常识推断未来会发生什么。例如,给定事件(someone,attacked,embassy,-),可以推断下一个事件(someone,threw,bomb,-)比(someone,threw,basketball,-)更有可能发生,这种关于事件的推断被称为事件预测,在这个例子中将(someone,attacked,embassy,-)这种给定的事件称为已知事件,将(someone,threw,bomb,-)和(someone,threw,basketball,-)这类事件称为候选事件。此外,真实的未来事件被称为后续事件,通过预测得到的事件被称为预测事件。

目前关于社交媒体事件预测的研究的思路主要是利用事件特征来预测事件。事件特征是一种常识性知识,如事件的场景特征和生命力特征等。如图1所示,给定1个已知事件和2个候选事件,事件(someone,attacked,embassy,-)传达出的是一种危险的场景特征,因此可以很容易地选择具有相同场景特征的后续的事件(someone,threw,bomb,-),而排除(someone,threw,basketball,-)。同样的,认为具有紧密联系的事件应该具有相同生命力特征,面对相似的事件描述(we,need,water,-)和(tree,need,water,-),选择(we,need,water,-)作为(we,eat,nothing,day)的后续事件是一种更合理的选择。人类可以很容易理解这种常识性知识,但对于机器来说十分困难。因此,以往的方法主要是引入外部知识库中标注好的事件特征来帮助预测未来事件。但是这类方法过于依赖于外部知识库的质量。如果外部知识中存在错误的标签信息,则会带来噪声或错误的知识。此外,在实际应用中,由于外部知识的用途和领域的不同,并不是所有的事件都有标签信息。例如,有一个与金融事件相关的外部知识库,但现在需要处理关于危机事件的预测。在这种情况下,引入外部知识库对提高模型的预测性能毫无帮助。

因此,如何在不依赖外部知识库的前提下更准确地提取事件特征来帮助预测未来事件,是本领域亟需解决的技术问题。

发明内容

本发明的目的是提供一种社交媒体危机事件预测方法及系统,以在不依赖外部知识库的情况下提高社交媒体危机事件预测的鲁棒性和准确性。

为实现上述目的,本发明提供了如下方案:

一种社交媒体危机事件预测方法,包括:

使用预训练词向量GloVe将原始事件表示成事件向量,生成所述原始事件的事件向量;所述原始事件为关于社交媒体中危机事件的已知事件或候选事件;

根据所述原始事件的事件向量,使用卷积神经网络和注意力机制获取所述原始事件的特征向量;所述原始事件的特征向量包括已知事件的特征向量和候选事件的特征向量;

使用点乘相似度计算指标来计算所述已知事件的特征向量和所述候选事件的特征向量之间的相似度;

根据所述已知事件的特征向量和所述候选事件的特征向量之间的相似度,从多个候选事件中选择出危机事件的预测事件。

可选地,所述使用预训练词向量GloVe将原始事件表示成事件向量,生成所述原始事件的事件向量,具体包括:

使用预训练词向量GloVe将原始事件的每个论元表示成论元向量;

将所有论元向量并联拼接起来构成所述原始事件的事件向量。

可选地,所述根据所述原始事件的事件向量,使用卷积神经网络和注意力机制获取所述原始事件的特征向量,具体包括:

采用不同卷积核窗口大小的卷积神经网络对所述原始事件的事件向量提取特征映射;

采用注意力机制计算所述特征映射的自注意力矩阵;

根据所述自注意力矩阵计算所述原始事件的全部特征;

将所述原始事件的全部特征中的元素展平,作为所述原始事件的特征向量。

可选地,所述使用点乘相似度计算指标来计算所述已知事件的特征向量和所述候选事件的特征向量之间的相似度,具体包括:

计算所述已知事件的特征向量与所述候选事件的特征向量的内积作为所述已知事件的特征向量和所述候选事件的特征向量之间的相似度。

可选地,所述根据所述已知事件的特征向量和所述候选事件的特征向量之间的相似度,从多个候选事件中选择出危机事件的预测事件,具体包括:

根据单个已知事件的特征向量和所有候选事件的特征向量之间的相似度生成单个已知事件对所有候选事件的预测概率;

根据所述单个已知事件对所有候选事件的预测概率生成所有已知事件对所有候选事件的预测概率;

将所述所有已知事件对所有候选事件的预测概率送入全连接网络进行学习,得到每个候选事件的概率;

选择最大概率对应的候选事件作为所述危机事件的预测事件。

一种社交媒体危机事件预测系统,包括:

事件向量生成模块,用于使用预训练词向量GloVe将原始事件表示成事件向量,生成所述原始事件的事件向量;所述原始事件为关于社交媒体中危机事件的已知事件或候选事件;

特征向量获取模块,用于根据所述原始事件的事件向量,使用卷积神经网络和注意力机制获取所述原始事件的特征向量;所述原始事件的特征向量包括已知事件的特征向量和候选事件的特征向量;

相似度计算模块,用于使用点乘相似度计算指标来计算所述已知事件的特征向量和所述候选事件的特征向量之间的相似度;

危机事件预测模块,用于根据所述已知事件的特征向量和所述候选事件的特征向量之间的相似度,从多个候选事件中选择出危机事件的预测事件。

可选地,所述事件向量生成模块具体包括:

论元向量表示单元,用于使用预训练词向量GloVe将原始事件的每个论元表示成论元向量;

事件向量生成单元,用于将所有论元向量并联拼接起来构成所述原始事件的事件向量。

可选地,所述特征向量获取模块具体包括:

特征映射提取单元,用于采用不同卷积核窗口大小的卷积神经网络对所述原始事件的事件向量提取特征映射;

自注意力计算单元,用于采用注意力机制计算所述特征映射的自注意力矩阵;

全部特征计算单元,用于根据所述自注意力矩阵计算所述原始事件的全部特征;

特征向量获取单元,用于将所述原始事件的全部特征中的元素展平,作为所述原始事件的特征向量。

可选地,所述相似度计算模块具体包括:

相似度计算单元,用于计算所述已知事件的特征向量与所述候选事件的特征向量的内积作为所述已知事件的特征向量和所述候选事件的特征向量之间的相似度。

可选地,所述危机事件预测模块具体包括:

第一预测概率生成单元,用于根据单个已知事件的特征向量和所有候选事件的特征向量之间的相似度生成单个已知事件对所有候选事件的预测概率;

第二预测概率生成单元,用于根据所述单个已知事件对所有候选事件的预测概率生成所有已知事件对所有候选事件的预测概率;

候选事件概率学习单元,用于将所述所有已知事件对所有候选事件的预测概率送入全连接网络进行学习,得到每个候选事件的概率;

危机事件预测单元,用于选择最大概率对应的候选事件作为所述危机事件的预测事件。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

本发明提供了一种社交媒体危机事件预测方法及系统,所述方法包括:使用预训练词向量GloVe将原始事件表示成事件向量,生成所述原始事件的事件向量;所述原始事件为关于社交媒体中危机事件的已知事件或候选事件;根据所述原始事件的事件向量,使用卷积神经网络和注意力机制获取所述原始事件的特征向量;所述原始事件的特征向量包括已知事件的特征向量和候选事件的特征向量;使用点乘相似度计算指标来计算所述已知事件的特征向量和所述候选事件的特征向量之间的相似度;根据所述已知事件的特征向量和所述候选事件的特征向量之间的相似度,从多个候选事件中选择出危机事件的预测事件。本发明方法利用卷积神经网络和注意力机制来对事件提取特征,并根据事件间的特征相似度进行预测,能够提高事件预测的鲁棒性和准确性;并且本发明方法不依赖外部知识库,具有很强的通用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的利用事件特征来进行事件预测的示意图;图1中正确的后续事件用实心箭头连接;

图2为本发明提供的一种社交媒体危机事件预测方法的流程图;

图3为本发明提供的一种社交媒体危机事件预测方法的原理示意图;

图4为本发明实施例提供的事件预测任务示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的是提供一种社交媒体危机事件预测方法及系统,以在不依赖外部知识库的情况下提高社交媒体危机事件预测的鲁棒性和准确性。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

图2为本发明一种社交媒体危机事件预测方法的流程图,图3为本发明一种社交媒体危机事件预测方法的原理示意图。参见图2和图3,本发明一种社交媒体危机事件预测方法包括:

步骤101:使用预训练词向量GloVe将原始事件表示成事件向量,生成所述原始事件的事件向量。

图4为本发明实施例提供的事件预测任务示意图,正确的后续事件在图4中用粗体标出。为了评估方法的有效性,本发明将事件预测任务定义为:用符号e来表示从社交媒体中提取出的危机事件,如图4所示,给定关于台风登陆的一组已知事件

因此,所述步骤101中的原始事件为关于社交媒体中危机事件的已知事件e

所述步骤101具体包括:

步骤1.1:使用预训练词向量GloVe将原始事件的每个论元表示成论元向量。

一个完整的事件由主语(s)、谓语(v)、宾语(o)和介词宾语/状语(p)4个论元构成,对于缺少4个论元的事件,将对应论元设置为“-”。本发明使用预训练词向量GloVe将原始事件(包括已知事件e

步骤1.2:将所有论元向量并联拼接起来构成所述原始事件的事件向量。

将所有论元向量V

V

其中,V

步骤102:根据所述原始事件的事件向量,使用卷积神经网络和注意力机制获取所述原始事件的特征向量。

与现有危机事件预测方法依赖外部知识库相比,更一般的方法是从事件描述文本中提取事件特征,并利用提取到的事件特征来帮助进行事件预测。随着深度学习的发展,研究者尝试使用卷积神经网络(Convolutional Neural Network,CNN)来提取文本的特征,这种模型在情感分析和问题分类等句子级分类任务中表现出了良好的性能。因此,本发明提出一种新型的社交媒体事件预测框架,其关键在于利用卷积神经网络和注意力机制来对事件提取特征,并根据事件间的特征相似度进行预测,以提高事件预测的鲁棒性和准确性。

本发明步骤102使用不同卷积核大小的卷积神经网络对事件向量提取特征映射(feature map),再对得到的所有特征映射计算自注意力,获取其中重要的信息和它们之间交互信息,由此得到事件的特征向量。

所述步骤102具体包括:

步骤2.1:采用不同卷积核窗口大小的卷积神经网络对所述原始事件的事件向量提取特征映射。

得到事件向量V

C

C

其中,W

以上描述了使用一个卷积核对事件提取特征映射的过程。一个事件往往具有多种特征,如语义、情感、生命力和情态等。因此模型使用k个卷积核来获得多种类型的特征。此时,一个事件V

步骤2.2:采用注意力机制计算所述特征映射的自注意力矩阵。

采用如下公式对上一步得到的h=1和h=2这两种窗口大小的卷积核生成的特征映射C

C

其中,C

步骤2.3:根据所述自注意力矩阵计算所述原始事件的全部特征。

采用下式计算得到事件的全部特征C

C

步骤2.4:将所述原始事件的全部特征中的元素展平,作为所述原始事件的特征向量。

采用下式将事件的全部特征C

F=Flatten(C

其中,Flatten(·)是展平操作,C

按照上述步骤2.1~2.4,分别使用卷积神经网络和注意力机制获取已知事件e

步骤103:使用点乘相似度计算指标来计算所述已知事件的特征向量和所述候选事件的特征向量之间的相似度。

使用点乘相似度计算指标来计算已知事件和候选事件特征向量之间的相似度。具体地,计算所述已知事件的特征向量与所述候选事件的特征向量的内积作为所述已知事件的特征向量和所述候选事件的特征向量之间的相似度。

将每个已知事件的特征向量表示为

其中

步骤104:根据所述已知事件的特征向量和所述候选事件的特征向量之间的相似度,从多个候选事件中选择出危机事件的预测事件。

将已知事件和候选事件特征向量之间的相似度送入一个全连接网络进行决策,从候选事件中选出最可能发生的下一个事件作为预测事件。

所述步骤104具体包括:

步骤4.1:根据单个已知事件的特征向量和所有候选事件的特征向量之间的相似度生成单个已知事件对所有候选事件的预测概率。

采用下式将单个已知事件的特征向量

S

其中,S

步骤4.2:根据所述单个已知事件对所有候选事件的预测概率生成所有已知事件对所有候选事件的预测概率。

采用下式将所有单个已知事件的预测概率s

s=[S

S∈R

步骤4.3:将所有已知事件对所有候选事件的预测概率送入全连接网络进行学习,得到每个候选事件的概率。

给定每个已知事件特征向量

p

其中,W

步骤4.4:选择最大概率对应的候选事件作为所述危机事件的预测事件。

最后通过选择概率最大的候选事件作为危机事件的预测事件:

e

arg maxp

在图4所示的实施例中,采用本发明方法预测出的预测事件为e

本发明社交媒体危机事件预测方法利用卷积神经网络来提取事件特征,利用注意力机制来捕捉事件中重要信息及他们之间的交互信息,使用点乘相似度作为事件特征向量的相似度计算指标,使用全连接网络作为决策方法,能够有效地对事件提取特征,并利用提取到的事件特征来预测下一个可能发生的事件,极大提高了事件预测的鲁棒性和准确性。并且本发明方法不依赖外部知识库,具有很强的通用性,可用于在社交媒体危机事件发生期间预测可能出现的事件,而无需提前建立与危机事件相关的外部知识库。

基于本发明提供的一种社交媒体危机事件预测方法,本发明还提供一种社交媒体危机事件预测系统,所述系统包括:

事件向量生成模块,用于使用预训练词向量GloVe将原始事件表示成事件向量,生成所述原始事件的事件向量;所述原始事件为关于社交媒体中危机事件的已知事件或候选事件;

特征向量获取模块,用于根据所述原始事件的事件向量,使用卷积神经网络和注意力机制获取所述原始事件的特征向量;所述原始事件的特征向量包括已知事件的特征向量和候选事件的特征向量;

相似度计算模块,用于使用点乘相似度计算指标来计算所述已知事件的特征向量和所述候选事件的特征向量之间的相似度;

危机事件预测模块,用于根据所述已知事件的特征向量和所述候选事件的特征向量之间的相似度,从多个候选事件中选择出危机事件的预测事件。

其中,所述事件向量生成模块具体包括:

论元向量表示单元,用于使用预训练词向量GloVe将原始事件的每个论元表示成论元向量;

事件向量生成单元,用于将所有论元向量并联拼接起来构成所述原始事件的事件向量。

所述特征向量获取模块具体包括:

特征映射提取单元,用于采用不同卷积核窗口大小的卷积神经网络对所述原始事件的事件向量提取特征映射;

自注意力计算单元,用于采用注意力机制计算所述特征映射的自注意力矩阵;

全部特征计算单元,用于根据所述自注意力矩阵计算所述原始事件的全部特征;

特征向量获取单元,用于将所述原始事件的全部特征中的元素展平,作为所述原始事件的特征向量。

所述相似度计算模块具体包括:

相似度计算单元,用于计算所述已知事件的特征向量与所述候选事件的特征向量的内积作为所述已知事件的特征向量和所述候选事件的特征向量之间的相似度。

所述危机事件预测模块具体包括:

第一预测概率生成单元,用于将单个已知事件的特征向量和所有候选事件的特征向量之间的相似度进行串联拼接,生成单个已知事件对所有候选事件的预测概率;

第二预测概率生成单元,用于将所有单个已知事件对所有候选事件的预测概率进行串联拼接,生成所述所有已知事件对所有候选事件的预测概率;

候选事件概率学习单元,用于将所述所有已知事件对所有候选事件的预测概率送入全连接网络进行学习,得到每个候选事件的概率;

危机事件预测单元,用于选择最大概率对应的候选事件作为所述危机事件的预测事件。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号