技术领域
本发明涉及到混合媒体环境下社会热点事件的发现方法,属于互联网监控技术领域。
背景技术
当前,社交网络(如微博、微信等)是用户最活跃、内容最丰富、影响最广泛的社会新媒体,与各种在线新闻门户网络一起,形成了混合在线新媒体环境。一些社会事件通过新闻门户网站报道而被人们所知,经由各类社交媒体转载、发酵,引起网民激烈讨论,导致网络舆论博弈发展,最终形成互联网社会热点事件。
本发明将综合考虑社交新媒体与新闻门户网站在互联网中的功能作用和互动关系,构建混合新媒体环境。在此基础上,通过挖掘新闻门户网站发现事件的话题,面向事件获取新闻语料数据和社交媒体数据,判定社会热点事件,从而帮助人们对社会热点事件在网络环境中的现状和未来发展趋势进行深刻的理解和把握。本发明的研究成果对网络事件检索、在线舆情监控、突发事件检测以及相关安全决策等方面的实际应用具有重要的支撑作用。
发明内容
本发明所要解决的技术问题是:提供一种可以有效的提取文档中潜在的话题信息,并判断其是否为热点事件的模型。
为解决上述技术问题,本发明采用的技术方案为将数据进行预处理后,对文档进行向量化表示并交由神经话题模型建模,之后对建模得到的话题进行合并工作。
为了实现上述目的,本发明的技术方案如下:一种混合新媒体下的热点事件发现方法,综合考虑社交新媒体与新闻门户网站在互联网中的功能和关系,构建混合新媒体环境,面向社会热点事件获取新闻语料数据和社交媒体数据,通过混合媒体的数据发现话题,从而帮助人们对社会热点事件在网络环境中的现状和未来发展趋势进行深刻的理解和把握,包括如下步骤:
步骤1)对采集的数据进行新闻数据预处理,包括去除超文本链接,停用词,标点符号以及数字无用信息,并利用HanLP自然语言处理工具进行分词处理;
步骤2)将文档按时序离散到各个时间片,时间间隔为1天,以便于后续的演化分析处理,所有事件均考察事件发生30天内的文档,即30段时间切片;
步骤3)文本向量化,使用经过BERT预训练的文档表示,以提高话题的连贯性;
步骤4)话题建模,使用神经话题模型来进行话题建模,其中我们将输入的词袋表示替换为上下文嵌入;
步骤5)将步骤4)得到的话题建模后需要对话题进行合并工作,
步骤6)完成了新闻门户网站的事件检测后,需要关联每个事件在社交网络中的微博内容及其用户社交关系;
步骤7)根据一定的判定标准,当超过一定的阈值时则判定其为热点事件。
其中,所述步骤2)中时间片的划分,对于处理时间在一段时间的演化及其热度变化规律有重要的影响,在发明中将其固定在30天,也可以根据爬取新闻内容时间长度来自适应设置。
所述步骤3)中文本向量化将输入话题模型的词袋表示替换为上下文嵌入,即在话题建模过程之前,引入了从BERT语言模型进行预训练的文档表示的神经编码层。首先,通过调用bert_serving包自建话题语料库的词典并训练BERT词向量模型。每篇文档得到由词向量构成的矩阵,将匹配好的数据保存,以便后续话题建模的任务处理。
所述步骤4)中在话题建模时,将步骤3)中向量化的文本数据作为上下文嵌入模型,发明中用到的神经话题模型是基于神经变分推理框架的生成模型,受到了变分自动编码器的启发,选用Gaussian分布生成参数,其中Gaussian参数可由线性计算获得。
所述步骤5)对话题建模后需要对话题进行合并工作,设定阈值ζ来衡量两个话题间的距离,若两个话题间的距离大于该阈值,则将两话题判定为相同话题,需要对话题进行合并;否则两者为不同话题,对两者不需要进行合并操作。
所述步骤6)和7)中,微博平台提供了丰富的话题分类和内容标签信息,综合事件检测过程中获取的时间、命名实体和关键词信息,从微博中搜索与事件关键信息相关的微博内容,然后计算事件关键信息与搜索结果的内容、分类和标签之间的余弦距离检测事件与微博的相似关系,建立事件-新闻-微博的关联关系。对于热点事件的判别,发明结合了事件的社交网络属性,利用公式(1)计算步骤5)得到话题的热度值:
其中,N
相对于现有技术,本发明优点如下:
1、本发明改进了混合媒体下话题的建模方法,综合考虑社交新媒体与新闻门户网站在互联网中的功能和关系,面向社会热点事件获取新闻语料数据和社交媒体数据,通过混合媒体的数据发现当下的热点话题。
2、本发明基于变分自动编码器框架提出了NTM神经话题模型,由于变分自动编码器中的编码器和解码器可以通过反向传播进行联合训练,因此相较于传统的概率模型,NTM模型训练时的数学推导过程的复杂度较低,且易于扩展。
3、本发明使用的NTM模型接收经过BERT训练后的文档表示作为输入,话题建模部分由一个编码器和一个解码器组成,NTM生成话题的过程类似于数据重构过程,并且将输入话题模型的词袋表示替换为上下文嵌入,即在话题建模过程之前,引入BERT语言模型进行预训练的文档表示的神经编码层,提高了话题的可解释性和一致性。
4、本发明通过以某个关键词爬取一段时间内的主流新闻媒体的新闻报道数据,可以追踪新闻在一段时间内的演化情况,自适应地划分新闻演化的时间片,通过合并与否判断热点事件的阶段性变化。
附图说明
图1为本发明的热点事件判断流程图。
图2为本发明的话题模型图。
具体实施方式
下面结合具体实施步骤,进一步阐明本发明,应理解这些实施步骤仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等同变换均落于本申请所附权利要求所限定的范围。
实施例1:参见图1、图2,一种混合新媒体下的热点事件发现方法,包括如下步骤:
步骤1)对采集的数据进行新闻数据预处理,包括去除超文本链接,停用词,标点符号以及数字无用信息,并利用HanLP自然语言处理工具进行分词处理;
步骤2)将文档按时序离散到各个时间片,时间间隔为1天,以便于后续的演化分析处理,所有事件均考察事件发生30天内的文档,即30段时间切片;
步骤3)文本向量化,使用经过BERT预训练的文档表示,以提高话题的连贯性;
步骤4)话题建模,使用神经话题模型来进行话题建模,其中我们将输入的词袋表示替换为上下文嵌入;
步骤5)将步骤4)得到的话题建模后需要对话题进行合并工作,
步骤6)完成了新闻门户网站的事件检测后,需要关联每个事件在社交网络中的微博内容及其用户社交关系;
步骤7)根据一定的判定标准,当超过一定的阈值时则判定其为热点事件。
所述步骤2)中时间片的划分,对于处理时间在一段时间的演化及其热度变化规律有重要的影响,在发明中将其固定在30天,也可以根据爬取新闻内容时间长度来自适应设置。
所述步骤3)中文本向量化将输入话题模型的词袋表示替换为上下文嵌入,即在话题建模过程之前,引入了从BERT语言模型进行预训练的文档表示的神经编码层。首先,通过调用bert_serving包自建话题语料库的词典并训练BERT词向量模型。每篇文档得到由词向量构成的矩阵,将匹配好的数据保存,以便后续话题建模的任务处理。
所述步骤4)中在话题建模时,将步骤3)中向量化的文本数据作为上下文嵌入模型,发明中用到的神经话题模型是基于神经变分推理框架的生成模型,受到了变分自动编码器的启发,选用Gaussian分布生成参数,其中Gaussian参数可由线性计算获得。
所述步骤5)对话题建模后需要对话题进行合并工作,设定阈值ζ来衡量两个话题间的距离,若两个话题间的距离大于该阈值,则将两话题判定为相同话题,需要对话题进行合并;否则两者为不同话题,对两者不需要进行合并操作。
所述步骤6)和7)中,微博平台提供了丰富的话题分类和内容标签信息,综合事件检测过程中获取的时间、命名实体和关键词信息,从微博中搜索与事件关键信息相关的微博内容,然后计算事件关键信息与搜索结果的内容、分类和标签之间的余弦距离检测事件与微博的相似关系,建立事件-新闻-微博的关联关系。对于热点事件的判别,发明结合了事件的社交网络属性,利用公式(1)计算步骤5)得到话题的热度值:
其中,N
应用实施例1:参见图2所示,本发明所述的基于神经话题模型对文档进行话题建模的方法,包括如下步骤:
步骤1.编码过程
利用编码器为文档d生成Gaussian先验分布θ:
1)获得经过BERT处理后的文档表示s。
s=BERT(d) (1)
2)文档表示s向隐藏层投影,该隐藏层投影与文档d的词袋表示BoW级联在一起。
h=[s,BoW] (2)
3)通过两个独立的多层前馈神经网络来获得μ和logσ,μ和logσ是本发明为计算高斯单位方差设置的超参数。其中,f(·)表示一个具有ReLU激活函数的神经感知器,权重W
μ=W
logσ=W
4)选择隐变量z~N(μ,σ
其中,ε可被视作一个辅助的噪声变量。ε可从正态分布N(0,I)采样得到。
步骤2.解码过程
假定在给定语料库C中有K个话题,每个话题k都由话题词汇分布
1)由隐变量z得到Gaussian先验分布θ,其中w
θ=softmax(w
2)由变量θ推断出文档d中的每个词汇w,其中f
综上,基于变分下界,本发明定义NTM模型的目标函数为:
L
公式(8)中第一项是重构损失,第二项是Kullback-Leibler散度损失,p(z|μ,σ)表示标准正常先验。q(z|d)和p(z|μ,σ)分别表示编码过程和解码过程。
为了实现模型训练过程中的反向传播,采用了重新参数化技巧,如公式(5)中所示,通过从正态分布N(0,I)采样噪声ε,得到θ。为了计算L
步骤3.相同话题的合并
对于相同话题的识别通常采用计算分布距离的方法,因为建模后得到的话题是同样维度上的分布,又因为不同话题间分布的距离是确定的,与话题的顺序无关,所以可以通过对称的Kullback-Leibler距离来衡量话题之间的相似度。
设w
而对称的KL距离可使用KL距离进一步计算得到:
由公式(9)和(10)可知,若两个话题之间的KL距离越小越接近于0,则说明这两个概率分布越靠近,表示这两个话题的相似程度越高。若两个话题之间的KL距离越大,则这两个话题的概率分布差值就越大。设定阈值ζ,若两个话题间的KL距离大于该阈值,则将两话题判定为相同话题,需要对话题进行合并。否则两者为不同话题,对两者不需要进行合并操作。
需要说明的是上述实施例仅仅是本发明的较佳实施例,并没有用来限定本发明的保护范围,在上述技术方案的基础上做出的等同替换或者替代,均属于本发明的保护范围。
机译: 在母线型电导体的端部之间发出热点信号的方法混合动力汽车,涉及在检测到电阻变化情况下的测试曲线时,发出信号指示导体两端之间存在热点
机译: 对象例如敌方车辆或事件火灾事故的定位和感知方法涉及确定传感器发现并发现事件或物体的区域,并由摄像机通过记录单元在该区域中记录图像
机译: 更新媒体内容事件列表的方法和系统