首页> 中国专利> 基于举报信息和传播异构图的谣言检测方法和系统

基于举报信息和传播异构图的谣言检测方法和系统

摘要

本发明提供了一种基于举报信息和传播异构图的谣言检测方法和系统,包括:获取存在谣言传播的主题关键词;根据主题关键词爬取与主题相关的数据,包括信息、信息发布者数据以及信息转发、点赞用户数据;利用获取的信息、信息发布者数据以及信息转发、点赞用户数据,确定节点种类、节点标签和边关系矩阵,并生成信息异构传播图,根据标注的信息节点标签,通过降低训练集的损失之和,完成图注意力神经网络的训练;基于信息异构传播图,利用转发及发布信息的所有用户真实性概率结果均值计算该条信息的真实性。本发明的高预测准确率减少了人工判断虚假新闻的成本;使用图注意力网络训练时,仅采用少量样本训练,符合真实社交网络环境。

著录项

  • 公开/公告号CN115114500A

    专利类型发明专利

  • 公开/公告日2022-09-27

    原文格式PDF

  • 申请/专利权人 上海交通大学;

    申请/专利号CN202210788962.2

  • 发明设计人 余昊晴;马颖华;陈秀真;刘淑婷;

    申请日2022-07-06

  • 分类号G06F16/951(2019.01);G06F16/9536(2019.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构上海汉声知识产权代理有限公司 31236;

  • 代理人胡晶

  • 地址 200240 上海市闵行区东川路800号

  • 入库时间 2023-06-19 17:09:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-10-18

    实质审查的生效 IPC(主分类):G06F16/951 专利申请号:2022107889622 申请日:20220706

    实质审查的生效

  • 2022-09-27

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及谣言检测技术领域,具体地,涉及一种基于举报信息和传播异构图的谣 言检测方法和系统。

背景技术

社交网络平台用户与日俱增。与用户扩增趋势同步的是,有目的性制造引导性信息 的用户增多,人们出于自身的商业或者其他利益发表各类竞争性言论及虚假信息。谣言检测能维护社交网络安全及稳定性,避免对社会产生不良影响,避免对经济造成损失。

专利文献CN112270174A(申请号:CN202011245739.0)公开了一种谣言检测方法及计算机可读存储介质,方法包括:对于社交平台上的每一条动态,收集动态所有的回 复和/或转发,将动态视作一个节点,则动态回复和/或转发为所述动态的子节点,节点 和所述子节点构成一颗传播树;确定传播树中各个节点包含的子节点的数目并从多到少 排序,依序选取至少一个节点与其所包含的子节点构成传播树的关键子树;关键子树中 的根节点为源节点;基于每个关键子树中每个节点和每个子节点的原始数据计算所述传 播树特征,特征包括文本内容相关特征、用户相关特征、传播结构相关特征;构建SLS 神经网络模型用于学习特征;训练SLS神经网络模型并对社交平台上的动态进行谣言检 测。

专利文献CN113934882A(申请号:CN202111152971.4)公开了一种细粒度的多模态虚假新闻检测方法,为:获取待检测多模态新闻的新闻文本和新闻图片;从新闻文本 中提取人物类型、地点类型和事件类型的文本实体;从新闻图片中提取图片文本,人物 类型、地点类型和事件类型的视觉实体,以及新闻图片的视觉CNN特征;将新闻文本 与图片文本拼接后输入BERT模型,获得文本特征;使用BERT模型获取人物类型、地 点类型和事件类型视觉实体的视觉实体特征;融合上述特征,获得文本表示、视觉CNN 表示和视觉实体表示;基于特征向量计算跨模态的人物相似度、地点相似度和事件相似 度;基于上述信息计算所述多模态新闻的多模态表示;基于多模态新闻的多模态表示判 断该多模态新闻的真实性。

过去的研究以挖掘文本内容特征为主,然而,学者未能考虑到谣言在格式、用词上对真实新闻的模仿层出不穷,让人难以辨别。此外,外部知识库不能覆盖所有信息,情 感分析算法难以挖掘文本内容中反讽、反问、诱导的真正意图。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种基于举报信息和传播异构图的谣 言检测方法和系统。

根据本发明提供的基于举报信息和传播异构图的谣言检测方法,包括:

步骤1:获取存在谣言传播的主题关键词;

步骤2:根据主题关键词爬取与主题相关的数据,包括信息、信息发布者数据以及信息转发、点赞用户数据;

步骤3:利用获取的信息、信息发布者数据以及信息转发、点赞用户数据,确定节点种类、节点标签和边关系矩阵,并生成信息异构传播图,根据标注的信息节点标签, 通过降低训练集的损失之和,完成图注意力神经网络的训练;

步骤4:基于信息异构传播图,利用转发及发布信息的所有用户真实性概率结果均值计算该条信息的真实性。

优选的,节点种类包括用户节点和信息节点,节点之间的边关系包括转发关系和发 布关系,发布关系和转发关系均使用边关系矩阵进行表示;

描述用户发布信息的关系矩阵A1

描述用户转发信息的关系矩阵A2

优选的,为异构图中的每个节点随机生成初始化向量表示;

标注信息的节点标签,信息的节点标签tl∈{0,1},信息为真时,tl=1,信息为假时, tl=0;用户的节点标签ul∈{0,1},由用户的行为以及所转发或发布的信息节点标签所决 定,计算为所有参与转发、发布信息的节点标签平均值;

用户对当前新闻主题持赞同观点时,ul=1,用户对当前新闻主题持反对观点,ul=0; 用户节点标签值通过下式计算:

其中,retweet

优选的,根据标注的信息节点标签,通过降低训练集的损失之和,完成图注意力神经网络的训练,该图注意力神经网络依赖于局部相邻节点,利用注意力机制为节点分配 不同的权重;聚合异构图中不同的关系,利用关系型图卷积神经网络聚合每个用户节点 相邻节点的向量表达,最终计算得到用户节点的向量表达;

基于图算法模型得出的用户节点向量表达计算该用户节点的真实性概率h

优选的,利用转发及发布信息的所有用户真实性概率结果均值计算该条信息的真实 性,表达式为:

其中,

根据本发明提供的基于举报信息和传播异构图的谣言检测系统,包括:

信息收集模块:获取存在谣言传播的主题关键词;

信息爬取模块:根据主题关键词爬取与主题相关的数据,包括信息、信息发布者数据以及信息转发、点赞用户数据;

信息异构传播图生成模块:利用获取的信息、信息发布者数据以及信息转发、点赞用户数据,确定节点种类、节点标签、边关系矩阵,并生成信息异构传播图;

节点初始化向量生成模块:生成随机节点初始化向量;

标注信息节点标签模块:标注已获取的信息的真实性,并计算用户节点标签;

图注意力模型训练模块:以标注的信息节点标签、节点初始化向量生产模块生成的 节点初始化向量作为输入,通过降低训练集的损失之和,完成图注意力神经网络的训练, 利用注意力机制为在新闻传播中不同影响力的节点分配不同的权重,获得节点的向量表 示;聚合异构图中的多种关系,获得用户节点的向量表示并输出;

节点真实性概率模块:基于图注意力模型训练模块得出的用户节点向量表达计算该 用户节点的真实性概率;

信息真实性判断模块:利用转发及发布信息的所有用户真实性概率结果均值计算该 条信息的真实性。

优选的,节点种类包括用户节点和信息节点,节点之间的边关系包括转发关系和发 布关系,发布关系和转发关系均使用边关系矩阵进行表示;

描述用户发布信息的关系矩阵A1

描述用户转发信息的关系矩阵A2

优选的,为异构图中的每个节点随机生成初始化向量表示;

标注信息的节点标签,信息的节点标签tl∈{0,1},信息为真时,tl=1,信息为假时, tl=0;用户的节点标签ul∈{0,1},由用户的行为以及所转发或发布的信息节点标签所决 定,计算为所有参与转发、发布信息的节点标签平均值;

用户对当前新闻主题持赞同观点时,ul=1,用户对当前新闻主题持反对观点,ul=0; 用户节点标签值通过下式计算:

其中,retweet

优选的,根据标注的信息节点标签,通过降低训练集的损失之和,完成图注意力神经网络的训练,该图注意力神经网络依赖于局部相邻节点,利用注意力机制为节点分配 不同的权重;聚合异构图中不同的关系,利用关系型图卷积神经网络聚合每个用户节点 相邻节点的向量表达,最终计算得到用户节点的向量表达;

基于图算法模型得出的用户节点向量表达计算该用户节点的真实性概率h

优选的,利用转发及发布信息的所有用户真实性概率结果均值计算该条信息的真实 性,表达式为:

其中,

与现有技术相比,本发明具有如下的有益效果:

(1)本发明的高预测准确率减少了人工判断虚假新闻的成本;使用图注意力网络训 练时,仅采用少量样本训练,符合真实社交网络环境;

(2)本发明仅利用了信息在社交网络中的传播情况,未使用信息文本作为训练特征, 因此具备跨主题的识别能力,能适应多变的信息发布环境。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目 的和优点将会变得更明显:

图1为本发明实现系统的结构框图;

图2为信息异构传播图生成示意图;

图3为图注意力模型结构图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人 员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于 本发明的保护范围。

实施例:

本发明提出了一种基于少量举报信息的社交网络中谣言判断方法,包括:

信息收集步骤:获取或者人工指定存在谣言传播的主题关键词,例如#标签;

信息爬取步骤:根据主题关键词爬取与主题相关的所有推文,包括:信息id、信息发布者数据以及信息转发、点赞等用户数据;

信息异构传播图生成步骤:利用获取的信息id、发布用户id以及转发用户id,确定节点种类、节点标签、边关系矩阵,并生成信息异构传播图,根据标注的信息节点标 签,通过降低训练集的损失之和,完成图注意力神经网络的训练;

节点种类包括两种节点:用户节点、信息节点;节点之间的边有两种关系:转发关系、发布关系。发布关系和转发关系均使用边关系矩阵进行表示。

描述用户发布信息的关系矩阵A1

描述用户转发信息的关系矩阵A2

如图2所示,

节点初始化向量生成步骤:利用xavier uniform为异构图中的每个节点随机生成50 维初始化向量h

人工标注信息节点标签步骤:信息的节点标签tl∈{0,1},信息为真时,tl=1,信息 为假时,tl=0;用户的节点标签ul∈{0,1},为用户参与真假信息传播的全部行为的一种 表达,由用户的行为以及所转发或发布的信息节点标签所决定,例如用户在当前新闻主题下进行转发、发布行为,计算为所有参与转发、发布信息的节点标签平均值。

用户对当前新闻主题持赞同观点时,ul=1,用户对当前新闻主题持反对观点ul=0; 具体地,所述用户节点标签值(平均值等方式计算得出)通过下式计算:

图注意力模型训练步骤:根据人工标注的少量信息节点标签,通过降低训练集的损 失之和,完成图注意神经网络的训练。该图注意力神经网络依赖于局部相邻节点,利用注意力机制为节点分配不同的权重;聚合异构图中不同的关系,利用关系型图卷积神经 网络聚合每个用户节点相邻节点的向量表达,最终计算得到用户节点的向量表达。整个 网络结构如图3所示。

所述利用注意力机制为节点分配不同的权重,包括:z

所述利用关系型图卷积神经网络聚合每个用户节点相邻节点的向量表达,包括:

节点真实性概率计算步骤:使用具有softmax激活的全连接层将关系型图卷积神经 网络模块生成的节点向量表达投影到两类目标空间:对当前新闻主题持赞同观点的用户 和对当前新闻主题持反对观点的用户,获得概率分布:p

对于每一个用户节点,图算法步骤的目标是最小化交叉熵,

信息真实性判断步骤:利用转发及发布信息的所有用户真实性概率结果均值计算该 条信息的真实性;

本实施例还提供了一种基于少量举报信息的社交网络中谣言检测装置,具有信息收 集模块、信息爬取模块、信息异构传播图生成模块、人工标注信息节点标签模块、图注意力模型训练模块、节点真实性概率计算模块、信息真实性判断模块。

本例中信息收集模块用于获取或者人工指定存在谣言传播的主题关键词;信息爬取 模块用于根据主题关键词爬取与主题相关的数据;信息异构传播图生成模块用于基于获 取的信息id、发布用户id以及转发用户id,确定节点种类、节点标签、边关系矩阵, 并生成信息异构传播图;节点初始化向量生成模块用于生成随机节点初始化向量;人工 标注信息节点标签模块用于人工标注少量条已获取的信息真实性,并计算用户节点标签; 图注意力模型训练模块用于根据人工标注的少量信息节点标签,通过降低训练集的损失 之和,完成图注意力神经网络的训练;节点真实性概率模块用于基于图注意力模型训练 模块得出的用户节点向量表达计算该用户节点的真实性概率;信息真实性判断模块利用 转发及发布信息的所有用户真实性概率结果均值计算该条信息的真实性。

本实施例还提供一种存储介质,其上存储有能被处理器执行的计算机程序,该计算 机程序被执行时实现本实施例中基于少量举报信息的社交网络中谣言判断方法的步骤。

本实施例还提供一种计算机设备,具有存储器和处理器,存储器上存储有能被处理 器执行的计算机程序,该计算机程序被执行时实现本实施例中基于少量举报信息的社交 网络中谣言判断方法的步骤。

本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、 装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系 统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以 被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件 内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以 是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特 定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意 相互组合。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号