首页> 中国专利> 基于BERT-BTM网络的微博突发事件检测方法

基于BERT-BTM网络的微博突发事件检测方法

摘要

本发明公开了基于BERT‑BTM网络的微博突发事件检测方法,读取微博数据集,对所述微博数据集进行处理,获得原始数据集;将所述原始数据集进行向量化处理,得到向量化处理后的词向量集,然后通过调用预训练BERT模型对所述基础BERT词向量集处理,得到BERT词向量集;构建BERT‑BTM模型,通过所述BERT‑BTM模型对所述原始数据集进行处理;构建BERT‑BTM网络,然后对所述BERT‑BTM网络进行划分,完成突发事件检测。本发明解决了现有微博突发事件检测方法中短文本数据稀疏、无法解决一词多义的问题,并提高了突发事件检测效率。

著录项

  • 公开/公告号CN112257429A

    专利类型发明专利

  • 公开/公告日2021-01-22

    原文格式PDF

  • 申请/专利权人 北京工商大学;

    申请/专利号CN202011109749.1

  • 申请日2020-10-16

  • 分类号G06F40/284(20200101);G06F40/216(20200101);G06F40/242(20200101);G06F16/33(20190101);G06F16/35(20190101);G06F16/36(20190101);

  • 代理机构11562 北京东方盛凡知识产权代理事务所(普通合伙);

  • 代理人张换君

  • 地址 100037 北京市海淀区阜成路33号

  • 入库时间 2023-06-19 09:38:30

说明书

技术领域

本发明涉及文本检测领域,尤其涉及一种面向微博的突发事件识别方法。

背景技术

随着我国信息技术的迅猛发展,微博、Twitter、Facebook等随之产生的社交网络平台已经成为产生大数据和突发事件的主要来源和重要媒介,这些平台多次成为自然灾害和暴力恐怖事件等重大突发事件的第一发布者。突发公共事件涉及现代生活的社会、政治、经济及文化等众多领域,涵盖医疗、教育、法律、娱乐等诸多议题。对突发事件进行检测不仅能提高公众的关注,同时也有利于舆论挖掘、新兴话题检测和话题线索跟踪等相关应用。基于以上描述,设计一种更准确有效的方法来对微博等社交网络平台进行突发事件检测是有重要意义的。

当前的微博突发事件检测任务有几个亟待解决的问题:一方面,传统方法存在着短文本特征稀疏、无法解决一词多义的问题。另一方面,在使用主题模型获得文档的事件主题后,研究者们通常使用 K-means等聚类算法,这种方法存在着需要多次迭代,需要指定聚类簇数,效率低,无法快速完成突发事件检测的问题。

发明内容

本发明的目的是提供基于BERT-BTM网络的微博突发事件检测方法,以解决现有微博突发事件检测方法中短文本数据稀疏、无法解决一词多义的问题。本发明公开了基于BERT-BTM网络的微博突发事件检测方法,包括以下步骤:

S1、读取微博数据集,对所述微博数据集进行分词处理,然后去除停用词,获得原始数据集;

S2、将所述原始数据集进行向量化处理,得到向量化处理后的词向量集,然后通过调用预训练BERT模型对所述向量化处理后的词向量集处理,得到BERT词向量集;

所述BERT词向量集为各条微博中的词所对应的词向量组成的词向量集;

S3、根据狄利克雷先验参数α和融合了所述BERT词向量集的先验参数β

S4、根据所述突发事件词集和所述突发事件词集中的词与词之间的共现关系,构建BERT-BTM网络,然后对所述BERT-BTM网络进行划分,完成突发事件检测。

优选的,所述步骤S3包括:

S3.1、构建BERT-BTM模型:根据狄利克雷先验参数α计算所述微博数据集中的事件分布θ,根据所述事件分布θ计算所述事件分布θ所对应事件z;

根据融合了所述BERT词向量集的先验参数β

根据所述事件z和事件词分布φ计算一个词对的2个不同的词w

S3.2、利用BERT-BTM模型对所述原始数据集进行处理,形成词对;

S3.3、将输入数据输入到BERT-BTM模型得到输出数据;

所述输入数据包括事件数目、迭代次数、所述α、所述β

所述输出数据包括突发事件分布;

所述输入事件数目为所述微博数据集中事件z的个数;

所述词对集为所述原始数据集中词对的集合;

所述词典大小为所述原始数据集不重复的词的数目。

优选的,所述步骤S3.2,具体包括:

S3.2.1、获得所述微博数据集的事件分布θ:θ~Dir(α);

S3.2.2、获得事件z的词分布φ

S3.2.3、获得词对、词对集的概率分布。

优选的,所述S3.2.3获得词对、词对集的概率分布的方法为:

(a)获得事件z:z~Multi(θ);

(b)获得词w

(c)根据词w

优选的,所述步骤S3.3,具体包括:

S3.3.1、为所述词对b随机分配主题;

S3.3.2、进行N次迭代,对词对集B的每个词对b进行处理;

S3.3.3、计算所述原始数据集的事件分布p(z)和事件-词分布p(w

上述两式中,

其中,p(w

S3.3.5、计算得到所述原始数据集中的文档-词对分布p(b|d):

其中,n

所述文档d和所述原始数据集为同一数据集;

S3.3.6、根据所述词对-事件分布p(z|b)和文档-词对分布p(b|d),计算得到文档-事件分布P(z|d):

其中,p(z|b)是词对-事件分布,p(b|d)是文档-词对分布,P(z|d)是文档-事件分布。

优选的,所述突发事件分布包括:所述文档-事件分布、事件分布、事件-词分布;

根据突发事件分布,通过文档-事件分布得到当前文档的对应的突发事件词集中的词;通过事件-词分布得到对应的突发事件词集。

优选的,构建所述BERT-BTM网络的方法为:

所述BERT-BTM网络使用数据格式NET文件表示;

所述突发事件词集中的词作为网络中的节点;

所述突发事件词集中的词与词之间的共现关系作为网络节点之间的边。

优选的,对所述BERT-BTM网络进行划分方法为:使用GN算法不断移除边介数最高的边对所述BERT-BTM网络进行划分;

所述GN算法流程如下:

依次地算出待挖掘的所述BERT-BTM网络中每一条边的边介数;找到所述BERT-BTM网络中边介数最大的一条边然后将它删除;重新计算剩下的所有边的边介数;重复上述步骤,直至所有的边都删除为止;

所述突发事件词社区以突发事件词集作为聚类中心点,对突发事件词集中的对应的n个微博事件进行聚类,得到最终的突发事件簇。

优选的,所述聚类方法为单边聚类:计算所述微博事件与突发事件词集之间的相似度S,当所述微博事件与突发事件词集的相似度S 大于阈值时,所述微博事件为所述突发事件簇对应的突发事件。

优选的,计算所述相似度S的步骤如下:

设定两个词集用C、H表示,词集C相对于H的相似度引入函数为R

词集H相对于C的相似度引入函数为R

C与H相似度S

当H与C相似度S

本发明有益效果如下:本发明解决了现有微博突发事件检测方法中短文本数据稀疏、无法解决一词多义的问题,并极大的提高了突发事件检测效率。本发明所述技术方案能够获取更准确的微博突发事件,获得了更准确的微博突发事件的同时,有利于相关部门及时的对后续的事件线索进行跟踪,控制事件的发酵。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为基于BERT-BTM网络的微博突发事件检测方法流程图;

图2为BERT-BTM模型结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供基于Bert和BTM网络的微博突发事件检测的方法,具体包括如下步骤:

步骤1:读取微博数据集,采集的数据集如下:

【华为芯片断供首日,中国芯片3000亿美元的未来】9月15日起,包括台积电、高通、三星及SK海力士、美光等将不再供应芯片给华为。

【惊险!醉酒男天桥坠落被司机用车顶接住】9月13日,武汉一醉酒男子爬到天桥外,情况十分危急。一厢式货车司机发觉异常,将车开到男子下方,在男子坠落瞬间将其接住。

【华为芯片断供首日】9月15日美国禁令生效,倪光南称华为不会无芯可用。

【醉酒男子天桥坠落被司机用车顶接住】武汉一男子悬挂五米高天桥外,关键时刻,热心市民拦停面包车接住坠桥男子。

【北京出现金粉色晚霞】15日傍晚,北京天空在夕阳照射下,呈现金粉颜色!这样的天空真的爱了!这差不多也是夏天在收尾啦!

通过正则匹配过滤掉文本数据集中包含html标签特殊字符等噪声数据,得到清洗过后的文本序列,再使用分词工具对清洗过后的文本序列进行分词,分词器选择开源工具ICTCLAS分词系统,得到分词后的序列;然后按照停用词表去除微博数据集中停用词,再将处理后的数据集保存,即获得原始数据集。

原始数据集:

华为/芯片/断供/首日/中国/芯片/亿美元/未来/电/高通/三星/ 海/力士/美光/不再/供应/芯片/给/华为

惊险/醉酒/男/天桥/坠落/司机/车顶/接住/武汉/醉酒/男子/爬到/天桥/外/情况/十分/危急/厢式/货车/司机/发觉/异常/车/开到/ 男子/下方/男子/坠落/瞬间/将其/接住

华为/芯片/断供/首日/美国/禁令/生效/倪光南/称/华为/不会/无芯/可用

醉酒/男子/天桥/坠落/司机/车顶/接住/武汉/男子/悬挂/五米/ 高天桥/关键/时刻/热心/市民/拦停/面包车/接住/坠桥/男子

北京/出现/金/粉色/晚霞/傍晚/北京/天空/夕阳/照射/呈现/金粉/颜色/天空/差不多/夏天/收尾

步骤2:将所述原始数据集进行向量化处理,得到向量化处理后的词向量集,然后通过调用预训练BERT模型对所述向量化处理后的词向量集处理,得到BERT词向量集。在客户端通过API接口调用预训练BERT模型来获取BERT词向量集。

所述BERT词向量集为各个微博事件中的词所对应的词向量组成的词向量集。

步骤3构建BERT-BTM模型,通过所述BERT-BTM模型对所述原始数据集进行处理,获得突发事件词集:

S3.1、提出如图2的BERT-BTM主题模型。根据狄利克雷先验参数α,得到所述微博数据集中的事件分布θ,根据所述事件分布θ,得到所述事件分布θ所对应事件z;根据融合所述BERT词向量集的先验参数β

S3.2、利用BERT-BTM模型对所述原始数据集进行处理,具体包括:

S3.2.1、获得所述微博数据集的事件分布θ:θ~Dir(α);

S3.2.2、获得事件z的词分布φ

S3.2.3、获得词对:

(a)获得事件z:z~Multi(θ);

(b)获得词w

根据词w

计算词对b的条件概率:

其中,P(b)是词对b的条件概率,P(z)=θ

计算所述词对集B的概率:

其中,P是词对集B的概率分布,θ

步骤S3.3BERT-BTM模型的θ和φ采用Gibbs抽样方法推断而得。 Gibbs抽样方法是一种高效的马尔科夫链-蒙特卡洛MCMC抽样方法,其利用每一变量的条件分布实现在联合分布中的抽样。BERT-BTM模型推断文档-事件分布步骤如下:

输入数据:事件数目,迭代次数,所述α和β

所述输入事件数目为所述微博数据集中事件z的个数;

所述词对集为所述原始数据集中词对的集合;

输出数据:文档-事件分布。具体包括:

S3.3.1、为所述词对b随机分配主题;

S3.3.2、进行N次迭代,对词对集B的每个词对b进行处理;

计算该词对b=(w

其中:z表示该词对b的事件分配,z-b表示词对集B除去该词对 b外的事件分配;

更新

S3.3.3、计算获得所述原始数据集的事件分布p(z)和事件-词分布p(w

上述两式中,

S3.3.4、根据所述p(z)、p(w

其中,p(w

S3.3.5、计算得到所述原始数据集中的文档-词对分布p(b|d):

其中,n

所述文档d和所述原始数据集为同一数据集;

S3.3.6、根据所述词对-事件分布p(z|b)和文档-词对分布p(b|d)计算得到文档-事件分布P(z|d):

其中,p(z|b)是词对-事件分布,p(b|d)是文档-词对分布,P(z|d)是文档-事件分布。

所述突发事件分布包括:所述文档-事件分布、事件分布、事件- 词分布。

经过上述步骤,将所述词向量集映射为事件向量集,得到突发事件分布,根据突发事件分布,通过文档-事件分布得到当前文档的对应的突发事件词集中的词;通过事件-词分布得到对应的突发事件词集,例子如下,如表1,2:

表1

表2

由困惑度得到最佳主题数K=3,分别得到文档-事件分布,事件分布、事件-词分布(只保留了占比最大的前3个词)。

步骤4根据所述突发事件词集和所述突发事件词集中的词与词之间的共现关系,构建BERT-BTM网络,然后对所述BERT-BTM网络进行划分,完成突发事件检测。

BERT-BTM网络构建方法具体如下。

使用从BERT-BTM模型得到的突发事件集中的词作为网络中的点,将突发事件集中的词和词之间的共现关系作为边,构建BERT-BTM 网络。使用复杂网络中常用的数据格式NET文件来表示该BERT-BTM 网络,NET文件定义网络中所有的点和边。NET文件中包含Vertices 和Edges两部分内容,Vertices描述了BERT-BTM网络中的节点,Edges 描述了BERT-BTM网络中节点之间的边。假设{A,B,C}是从微博数据集中得到的突发事件词集,将集合以NET格式来表示,结构如表3、 4所示。

表3

Vertices

表4

Edges

将从微博数据集中得到的突发事件词集整合成节点的集合 VerticesSet和边的集合EdgesSet,两个集合依次输出到NET文件中,得到BERT-BTM网络,如表5、6所示。

表5

Vertices

表6

Edges

采用GN算法对网络进行划分,从而发现突发事件。具体方法如下:

GN算法在执行事件检测任务时通过不断地移除边介数最高的边来对网络进行分类,所述GN算法流程如下:

依次地算出待挖掘的所述BERT-BTM网络中每一条边的边介数;找到所述BERT-BTM网络中边介数最大的一条边然后将它删除;重新计算剩下的所有边的边介数;重复上述步骤,直至所有的边都删除为止;在经过GN算法得到所述突发事件社区后,以同一社区内的词(突发事件词集)作为聚类中心点,对所述突发事件词集中的对应的n条微博事件进行聚类,以找到同一微博突发事件下的微博突发事件簇。在进行聚类时使用单遍聚类方法,利用计算微博事件与微博突发事件词集之间的相似度S,当微博事件与微博突发事件词集的相似度S大于阈值时,认为该微博是描述了该突发事件的微博。

设C,H为两个词集C={c1,c2,c3,…,ct},H={h1,h2,h3,…, hm}。计算两个词集相似度的时候,引入函数R

进而,定义C与H相似度S

H与C相似度S

每一篇微博对应的簇(簇用标号1~3来表示,标号1对应第一个簇,以此类推):

得到第1、3条微博描述的是1号事件;第2、4条微博描述的是 2号事件;第5条微博描述的是3号事件,如表7所示。

表7

每个簇所描述的突发事件用若干特征词来表示,如表8,示例如下:

表8

本发明有益效果如下:本发明解决了现有微博突发事件检测方法中短文本数据稀疏、无法解决一词多义的问题,并极大的提高了突发事件检测效率。本发明所述技术方案能够获取更准确的微博突发事件,获得了更准确的微博突发事件的同时,有利于相关部门及时的对后续的事件线索进行跟踪,控制事件的发酵。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号