首页> 中国专利> 一种基于双向传播图的多任务谣言检测方法

一种基于双向传播图的多任务谣言检测方法

摘要

本发明公开了一种基于双向传播图的多任务谣言检测方法,该方法可用于社交网络帖子的谣言检测以及评论信息的立场检测。本发明首先根据谣言帖子的内容生成文本特征矩阵、用户特征矩阵和文本统计特征矩阵,之后构建谣言的双向传播图,通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征,最后对传播特征进行平均池化和特征整合后,训练softmax分类器,获取谣言检测和立场检测结果。本发明能够有效地获取谣言的顺序传播特征和广度散布特征,并且引入用户评论的立场检测作为辅助任务,从而提高模型的泛化性,进一步提高谣言检测任务的准确率。

著录项

  • 公开/公告号CN113094596A

    专利类型发明专利

  • 公开/公告日2021-07-09

    原文格式PDF

  • 申请/专利权人 东南大学;

    申请/专利号CN202110454550.0

  • 发明设计人 杨鹏;匡晨;田杨静;于晓潭;

    申请日2021-04-26

  • 分类号G06F16/9536(20190101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构32206 南京众联专利代理有限公司;

  • 代理人杜静静

  • 地址 210096 江苏省南京市玄武区四牌楼2号

  • 入库时间 2023-06-19 11:45:49

说明书

技术领域

本发明涉及一种基于双向传播图的多任务谣言检测方法,该方法可用于社交网络帖子的谣言检测以及评论信息的立场检测,属于互联网与自然语言处理技术领域。

背景技术

近年来,社交网络取得了快速发展,并迅速成为人们获取新闻资讯的重要途径之一。由于社交网络的信息量庞大且传播速度远超于传统媒介,大量未经证实的谣言得以在网络空间内肆意传播,并成为了一种日益严重的问题。互联网已经成为了继陆地、海洋、天空、太空后的“第五空间”,而利用社交网络平台散布谣言,借机实施网络犯罪、散布暴恐信息、煽动颜色革命等违法犯罪行为已对网络空间安全构成了严峻的威胁。

现有社交网络谣言检测方法主要包括人工谣言检测方法、基于机器学习的谣言检测方法和基于深度学习的谣言检测方法。大多数主流社交网络平台仍将人工谣言检测方法作为甄别疑似谣言信息的主流机制,虽然有着较高的判别准确性,但存在滞后性,且受人为因素的影响较大,因而无法满足社交网络谣言检测的需求。基于机器学习的方法将谣言检测工作归结为二分类问题,使用监督学习方法自动检测谣言信息,对特征工程有着较高的要求,且无法获取谣言在传播和散布过程中的深层特征,故无法获得较高的识别率。而许多基于深度学习的谣言检测方法从谣言的时序传播结构入手,通过抽取谣言在传播过程中深层特征检测疑似谣言信息,往往仅注重谣言的顺序传播特征而忽视了广度散布特征,因此在谣言检测任务中仍存在一定的精度损失。

针对目前社交网络谣言对网络空间安全所构成的严峻威胁和现有谣言检测方法无法有效抽取谣言传播特征的问题,本发明提出一种基于双向传播图的多任务谣言检测方法,使用一种改进的双向图卷积神经网络(Bi-GCN)抽取谣言的顺序传播特征和广度散布特征,并引入对评论文本的立场检测作为辅助任务,提升谣言检测任务的表现与泛化性,从而提高谣言检测的准确率。

发明内容

针对现有技术存在的问题与不足,本发明提供一种基于双向传播图的多任务谣言检测方法,该方法能够实时检测疑似谣言信息以及评论文本的立场,相比现有方法,能够更有效地获取谣言的顺序传播特征和广度散布特征,从而改善现有谣言检测方法准确率不足的问题。

为了实现上述目的,本发明的技术方案如下:一种基于双向传播图的多任务谣言检测方法,该方法涵盖社交网络谣言检测的全过程,主要包括特征提取、特征融合、评论立场类型分类和谣言类型分类等过程,能够有效地抽取谣言的传播特征,从而提高谣言检测任务的准确率。该方法主要包括三个步骤,具体如下:

步骤1,构筑谣言和立场样本数据集。首先使用Twitter15和Twitter16数据集中的用户uid,通过推特开放API获取用户信息,用于谣言检测的任务训练,同时,将PHEME数据集用于用户评论立场检测任务的训练,二者共同构成多任务模型的训练数据集。

步骤2,多任务分类模型训练。对于数据集中的每一个谣言帖子,首先使用TF-IDF算法抽取其文本特征,并生成用户特征和文本统计特征,之后构建谣言的双向传播图,接着将文本特征、用户特征和文本统计特征作为输入,通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征,最后对传播特征进行平均池化和特征整合后,训练softmax分类器。

步骤3,对待检测帖子进行分类预测。对于待检测帖子,首先提取其文本特征、用户特征和文本统计特征,接着构建该帖子的双向传播图,通过计算双向图卷积并进行根节点特征增强抽取传播特征,利用训练好的softmax分类器获得谣言检测和立场检测的结果。

相对于现有技术,本发明的有益效果如下:

1.该方法采用改进的Bi-GCN网络获取谣言的传播特征,能够有效地获取谣言的顺序传播特征和广度散布特征,从而提高谣言检测任务的准确率,相比改进前的Bi-GCN模型84%-86%的检测准确率,该改进模型在其基础上提升了1-1.5个百分点。

2.该方法引入用户评论的立场检测作为辅助任务,能够有效提模型的泛化性,同时进一步提高谣言检测任务的准确率,达到了86%-88.5%的水平。

附图说明

图1为本发明实施例的方法流程图;

图2为本发明实施例的方法总体框架图;

图3为本发明实施例涉及的双向图卷积计算流程图;

图4为本发明实施例涉及的改进双向图卷积网络框架图;

图5为本发明实施例涉及的TD-GCN中的注意力机制示意图;

图6为本发明实施例涉及的BU-GCN中的注意力机制示意图。

具体实施方式

为了加深对本发明的认识和理解,下面结合具体实施例进一步阐明本发明。

实施例:本发明的具体流程和整体框架分别如图1和图2所示,一种基于双向传播图的多任务谣言检测方法,本发明的具体实施步骤如下:

步骤1,构筑谣言和立场样本数据集。本发明首先从Twitter15和Twitter16数据集中获取用户uid,并通过推特开放API获取430000位用户的特征信息用于谣言检测任务的训练,同时,将PHEME数据集用于用户评论立场检测任务的训练,二者共同构成多任务模型的训练数据集。

步骤2,多任务分类模型训练。对于数据集中的每一个谣言帖子,首先使用TF-IDF算法抽取其文本特征X

子步骤2-1,使用TF-IDF算法生成文本特征矩阵X

TF-IDF(i,w

其中,TF(i,w

子步骤2-2,生成用户特征矩阵X

表1用户特征

子步骤2-3,生成文本统计特征矩阵X

表2文本统计特征

子步骤2-4,构建双向传播图。对于谣言帖子,根据其包含的所有推文间的转发/回复关系,构建邻接矩阵A。若A

A′=A-A

其中A

子步骤2-5,抽取谣言传播特征。如图3所示,将子步骤2-1、2-2和2-3生成的文本特征矩阵X

其中

而特定任务层的第一层TD-GCN对应的隐藏特征矩阵

其中,

σ(·)为非线性的ReLU激活函数。

之后再用同样的方法计算特定任务层的第二层TD-GCN的隐藏特征矩阵

类似地,可以使用相同的方法计算出自底向上图卷积神经网络(BU-GCN)的隐藏特征矩阵

子步骤2-6,根节点特征增强。对于TD-GCN,计算隐藏特征矩阵

接着,使用如图5所示的注意力机制计算根节点root对于节点i的AttentionScore:

其中,

之后计算节点i对应的根节点特征增强向量,定义为:

其中σ(·)为非线性的sigmoid激活函数。

因此,TD-GCN在根节点增强后生成的特征矩阵为:

结合公式(5)和公式(6)后得到隐藏矩阵

通过将公式(10)中的特征矩阵

结合公式(13)后得到隐藏矩阵

对于自底向上的图卷积网络BU-GCN,计算隐藏特征矩阵

根节点root的特征增强向量

于是,BU-GCN在根节点增强后生成的特征矩阵为:

其中,

子步骤2-7,特征融合及分类结果输出。对于谣言检测任务,用平均池化操作整合TD-GCN的顺序传播特征S

使用拼接操作后获得整合特征S,定义为:

S=concat(S

将整合特征S依次经过一个全连接层和一个softmax分类器后,获得谣言检测结果

其中,

对于立场检测任务,将TD-GCN和BU-GCN提取出的隐藏层特征进行拼接,获得一个整合特征矩阵Z:

定义向量

其中,

步骤3,对待检测帖子进行分类预测。对于待检测帖子,首先使用TF-IDF算法抽取其文本特征X

综上,本发明首先根据谣言帖子的内容生成文本特征矩阵、用户特征矩阵和文本统计特征矩阵,之后构建谣言的双向传播图,通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征,最后对传播特征进行平均池化和特征整合后,训练softmax分类器,获取谣言检测和立场检测结果。本发明能够有效地获取谣言的顺序传播和广度散布特征,并且引入用户评论的立场检测作为辅助任务,从而提高模型的泛化性,进一步提高谣言检测任务的准确率。

基于相同的发明构思,本发明实施例公开的一种基于双向传播图的多任务谣言检测方法与装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述基于双向传播图的多任务谣言检测方法与装置。

需要说明的是,上述实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号