首页> 中国专利> 基于新闻环境信息建模的虚假新闻检测方法

基于新闻环境信息建模的虚假新闻检测方法

摘要

本发明涉及一种基于新闻环境信息建模的虚假新闻检测方法,其特征在于:基于待检测新闻获取其发布前若干天内的新闻消息集合,将其作为宏观新闻环境;从新闻消息集合中提取与待检测新闻相似度最高的若干条新闻,将其作为微观新闻环境;基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算宏观环境感知向量;基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元素向量的相似度计算微观环境感知向量,其中微观环境中心向量为微观新闻环境所有新闻元素向量的均值;获取虚假新闻检测器的对待检测新闻的新闻表示向量,将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融合,并基于融合结合判断该待检测新闻的真假。

著录项

  • 公开/公告号CN114840771A

    专利类型发明专利

  • 公开/公告日2022-08-02

    原文格式PDF

  • 申请/专利权人 北京中科睿鉴科技有限公司;

    申请/专利号CN202210214207.3

  • 申请日2022-03-04

  • 分类号G06F16/9536(2019.01);G06K9/62(2022.01);G06F16/33(2019.01);G06F40/30(2020.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构杭州九洲专利事务所有限公司 33101;

  • 代理人沈敏强

  • 地址 100084 北京市海淀区中关村东路1号院8号楼三层B201C-2

  • 入库时间 2023-06-19 16:12:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-04-28

    授权

    发明专利权授予

  • 2022-08-19

    实质审查的生效 IPC(主分类):G06F16/9536 专利申请号:2022102142073 申请日:20220304

    实质审查的生效

  • 2022-08-02

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及一种基于新闻环境信息建模的虚假新闻检测方法。适用于社交 媒体数据挖掘和互联网内容安全领域。

背景技术

社交媒体上的虚假新闻问题已经在政治、经济、民生等方面对现实世界构 成了威胁。为了实现对虚假新闻的高效检测,已有许多研究着眼于开发自动虚 假新闻检测系统。按照关注点不同,国内外自动检测虚假新闻内容的方法大致 可分为两种:

第一类是仅仅基于消息内容的检测方法,这类方法关注于虚假新闻本身是 “如何写”的,即不同虚假新闻之间共享的模式信息(如风格、情感、语言运 用偏好等)。例如利用了虚假新闻中的情感、态度、情绪等信息。

第二类是基于事实证据的方法,这类方法主要通过检索外部证据库以判断 给定新闻中描述的事件是否为真,并根据这些证据本身的可信度和其对给定新 闻的支持、反对或中立立场,判断给定新闻所描述事件的真实性。例如引入了 维基百科作为外部证据库,直接使用搜索引擎得到相关证据,针对“旧谣新传” 现象,以辟谣文章库中的辟谣文作为证据。

发明内容

本发明要解决的技术问题是:提供一种基于新闻环境信息建模的虚假新闻 检测方法。

本发明所采用的技术方案是:一种基于新闻环境信息建模的虚假新闻检测 方法,其特征在于:

基于待检测新闻获取其发布前若干天内的新闻消息集合,将该新闻消息集 合作为宏观新闻环境;

从新闻消息集合中提取与待检测新闻相似度最高的若干条新闻,将该若干 条新闻作为微观新闻环境;

基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算宏观 环境感知向量;

基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元素向 量的相似度计算微观环境感知向量,其中微观环境中心向量为微观新闻环境所 有新闻元素向量的均值;

获取虚假新闻检测器的对待检测新闻的新闻表示向量,将新闻表示向量与 所述宏观环境感知向量和所述微观环境感知向量融合,并基于融合结合判断该 待检测新闻的真假。

所述基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算 宏观环境感知向量,包括:

使用C个高斯核对各个相似度数值按不同区间进行池化;

将所有C个高斯核的输出拼接,得到宏观环境核池化向量;

将宏观环境核池化向量、待检测新闻向量及宏观环境中心向量拼接后送入 多层感知机网络,得到宏观环境感知向量;

所述宏观环境中心向量为宏观新闻环境所有新闻元素向量的均值。

所述使用C个高斯核对各个相似度数值按不同区间进行池化,包括:

第j个高斯核的输出为

其中,μ

所述基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元 素向量的相似度计算微观环境感知向量,包括:

使用C个高斯核对各个相似度数值按不同区间进行池化;

将所有C个高斯核的输出拼接,分别得到新闻-微观环境核池化向量和中心 -微观环境核池化向量;

使用多层感知机网络计算待检测新闻向量和微观环境中心向量的语义交互 向量;

使用多层感知机网络计算新闻-微观环境核池化向量和中心-微观环境核池 化向量的相似度交互向量;

将语义交互向量和相似度交互向量拼接后送入多层感知机网络,得到微观 环境感知向量。

所述使用多层感知机网络计算新闻-微观环境核池化向量和中心-微观环境 核池化向量的相似度交互向量,包括:

u

其中,u

所述将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融 合,并基于融合结合判断该待检测新闻的真假,包括:

将新闻表示向量与宏观环境感知向量拼接融合得到融合门向量;

使用融合门向量作为权重融合宏观环境感知向量和微观环境感知向量,得 到环境感知向量;

将新闻表示向量和环境感知向量拼接,经过多层感知机网络和sigmoid函数 得到预测概率值;

将预测概率值与预先设定的阈值进行比对,得到新闻真假的预测结果。

所述将新闻表示向量与宏观环境感知向量拼接融合得到融合门向量,包括:

将新闻表示向量与宏观环境感知向量拼接,并通过线性层和sigmoid函数得 到融合门向量。

一种基于新闻环境信息建模的虚假新闻检测装置,其特征在于:

新闻获取模块,用于基于待检测新闻获取其发布前若干天内的新闻消息集 合,将该新闻消息集合作为宏观新闻环境;

新闻提取模块,用于从新闻消息集合中提取与待检测新闻相似度最高的若 干条新闻,将该若干条新闻作为微观新闻环境;

宏观感知计算模块,用于基于待检测新闻向量与宏观新闻环境所有新闻元 素向量的相似度计算宏观环境感知向量;

微观感知计算模块,基于待检测新闻向量和微观环境中心向量与微观新闻 环境所有新闻元素向量的相似度计算微观环境感知向量,其中微观环境中心向 量为微观新闻环境所有新闻元素向量的均值;

融合判断模块,用于获取虚假新闻检测器的对待检测新闻的新闻表示向量, 将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融合,并基 于融合结合判断该待检测新闻的真假。

一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于: 所述计算机程序被执行时实现所述基于新闻环境信息建模的虚假新闻检测方法 的步骤。

一种虚假新闻检测电子设备,具有存储器和处理器,存储器上存储有能被 处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述基 于新闻环境信息建模的虚假新闻检测方法的步骤。

本发明的有益效果是:本发明根据待检测新闻调取其发布前若干天的主流 新闻集合,构成宏观新闻环境,之后检索主题相关消息构建微观新闻环境,在 宏观新闻环境和微观新闻环境中,分别计算待检测新闻与环境新闻之间的语义 相似度,并使用高斯核池化技术实现“软计数”,聚合得到宏观/微观环境感知向 量。

本发明使用融合门机制实现新闻环境引导的虚假新闻检测,即将已有虚假 新闻检测器的新闻表示向量与环境感知向量拼接融合得到融合门向量,再使用 融合门向量作为权重融合宏观/微观环境感知向量,用于最终预测待检测新闻是 真或假。

本发明通过对新闻环境的“宏观-微观”两层建模,有效捕捉了给定消息的 流行度和新颖度,实现了对已有虚假新闻检测方法的有效信息补充,提高了虚 假新闻检测的性能。

本发明主要依赖已经成熟固定的相似度计算模块和无参的高斯核池化技术, 在已有的虚假新闻检测器基础上,引入参数量较少,即便面对大量的新闻环境 数据,也可以实现快速计算,拥有良好的运算效率。

已有方案均试图学习并记忆静态、恒定的知识用于虚假新闻检测,而本发 明引入了消息发布当时的新闻环境,可以实现对外部信息变化的快速适应,实 现动态决策,从而拥有更强的泛化能力。

附图说明

图1为实施例的流程图。

图2为实施例中的新闻采集流程图。

具体实施方式

为了达到在互联网上(尤其是社交媒体上)广泛传播的目的,一条假新闻 必须要在大量主流新闻声音中吸引到足够多的注意力,从而引发病毒式传播。 这意味着,炮制假新闻的造谣者在创作过程中,会仔细考虑该假新闻面对的新 闻环境因素,并据此挑选自己的造谣重点。

数据分析显示,一条“优秀的”假新闻应当具有两方面优势:(1)流行度 高,即假新闻相关话题最好已经有一定热度。(2)新颖度高,假新闻需要在热 点新闻的众多已知信息之外,找到新颖点,从而迅速抓住读者眼球,引发关注。

承接上例,大部分相关新闻都关注赛程、赛果,而假消息为了吸引眼球, 可能造谣。而上述的流行度和新颖度,是消息本身和事实证据库难以提供的, 需要利用新闻发布之时的新闻环境信息。

如图1所示,本实施例提供一种基于新闻环境信息建模的虚假新闻检测方 法,具体包括以下步骤:

S1、基于待检测新闻P获取其发布前若干天内的新闻消息集合,将该新闻 消息集合作为宏观新闻环境。

本实施例维护了一个主流新闻消息库,其通过数据采集器针对性获取给定 主流媒体列表中的媒体发布的所有新闻消息ε,作为新闻环境构建的基本元素, 如图2所示。为了使构建的宏观新闻环境(ε

ε

其中,t

S2、从新闻消息集合中提取与待检测新闻相似度最高的若干条新闻,将该 若干条新闻作为微观新闻环境。

为了使构建的微观新闻环境(ε

ε

其中,

本实施例使用预训练语言模型

S3、基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算 宏观环境感知向量。

S30、首先基于待检测新闻P和宏观新闻环境新闻元素的语义向量计算待检 测新闻P与所有宏观新闻环境元素e

S31、由于相似度列表

其中,μ

S32、将所有C个高斯核输出拼接(⊕),即得到新闻-宏观环境核池化向量:

S33、将新闻-宏观环境核池化向量、待检测新闻向量以及宏观环境中心向量 m(ε

v

S4、基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元 素向量的相似度计算微观环境感知向量,其中微观环境中心向量为微观新闻环 境所有新闻元素向量的均值。

S40、由于新颖度的体现不仅需要对待检测新闻与微观新闻环境关系的刻画, 还需要对微观新闻环境本身的分布进行表示,本实施例利用步骤S3中核池化向 量中的计算公式,分别对待检测新闻向量和微观环境中心向量m(ε

S41、使用多层感知机网络(MLP2)计算待检测新闻向量和微观环境中心 向量的语义交互向量。

u

S42、使用多层感知机网络(MLP3)计算新闻-微观环境核池化向量K(p,ε

u

其中,g(x,y)=(x⊙y)⊕(x-y),⊙表示哈达玛积。

S43、最后将语义交互向量和相似度交互向量拼接送入多层感知机网络 (MLP4),得到微观环境感知向量:

v

S5、获取虚假新闻检测器的对待检测新闻的新闻表示向量,将新闻表示向 量与所述宏观环境感知向量和所述微观环境感知向量融合,并基于融合结合判 断该待检测新闻的真假。

本实施例旨在利用新闻环境信息提高虚假新闻的检测性能,而不是单独利 用新闻环境信息进行判别,因此需要给出与已有虚假新闻检测器的整合方案。

S50、给定虚假新闻检测器,假设o是其对待检测新闻的新闻表示向量,本 实施例基于融合门机制实现新闻环境感知信息和新闻语义表示信息的融合。具 体地,将o和宏观环境感知向量v

g=sigmoid(Linear(o⊕v

S51、使用融合门向量作为重要性指标,加权融合宏观和微观环境感知向量, 得到环境感知向量:

v

S52、将新闻表示向量o和融合后的环境感知向量v

S53、根据预先设定的阈值thr(一般设为0.5),可以得到最终的预测结果:

本实施例还提供一种基于新闻环境信息建模的虚假新闻检测装置,包括新 闻获取模块、新闻提取模块、宏观感知计算模块、微观感知计算模块和融合判 断模块。

本例中新闻获取模块用于基于待检测新闻获取其发布前若干天内的新闻消 息集合,将该新闻消息集合作为宏观新闻环境;新闻提取模块用于从新闻消息 集合中提取与待检测新闻相似度最高的若干条新闻,将该若干条新闻作为微观 新闻环境;宏观感知计算模块用于基于待检测新闻向量与宏观新闻环境所有新 闻元素向量的相似度计算宏观环境感知向量;微观感知计算模块基于待检测新 闻向量和微观环境中心向量与微观新闻环境所有新闻元素向量的相似度计算微 观环境感知向量,其中微观环境中心向量为微观新闻环境所有新闻元素向量的 均值;融合判断模块用于获取虚假新闻检测器的对待检测新闻的新闻表示向量, 将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融合,并基 于融合结合判断该待检测新闻的真假。

本实施例还提供一种存储介质,其上存储有能被处理器执行的计算机程序, 该计算机程序被执行时实现本例中基于新闻环境信息建模的虚假新闻检测方法 的步骤。

本实施例还提供一种虚假新闻检测电子设备,具有存储器和处理器,存储 器上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本例中 基于新闻环境信息建模的虚假新闻检测方法的步骤。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号