首页> 中国专利> 一种基于超图注意力网络的社交媒体贴文真实性检测方法

一种基于超图注意力网络的社交媒体贴文真实性检测方法

摘要

本发明涉及贴文检测的技术领域,公开了一种基于超图注意力网络的社交媒体贴文真实性检测方法,具体包括如下步骤:S1:对社交媒体贴文文本数据的数据预处理,划分为会话,回复分支,帖子的层级结构;S2:对经S1处理后的社交媒体贴文文本数据进行帖子属性特征提取;S3:对经S1处理后的社交媒体贴文文本数据进行帖子文本嵌入;S4:将S2和S3得到的向量拼接,作为超图结构的图节点;S5:将回复分支作为超边,超边与图节点组成的集合,共同构成超图,将超图结构的特征输入图注意力网络学习,从而构建超图注意力网络模型;S6:将S5中超图注意力网络模型用于预测源帖的真实性。本发明构建超图注意力模型,提高模型表达能力。

著录项

  • 公开/公告号CN113254652A

    专利类型发明专利

  • 公开/公告日2021-08-13

    原文格式PDF

  • 申请/专利权人 中南大学;

    申请/专利号CN202110746155.X

  • 发明设计人 李芳芳;宁肯;张盼曦;李伟;

    申请日2021-07-01

  • 分类号G06F16/35(20190101);G06F16/901(20190101);G06F40/30(20200101);G06Q50/00(20120101);G06N20/00(20190101);

  • 代理机构43228 长沙惟盛赟鼎知识产权代理事务所(普通合伙);

  • 代理人滕澧阳

  • 地址 410000 湖南省长沙市岳麓区麓山南路932号

  • 入库时间 2023-06-19 12:13:22

说明书

技术领域

本发明涉及贴文检测的技术领域,尤其涉及一种基于超图注意力网络的社交媒体贴文真实性检测方法。

背景技术

随着互联网上社交媒体的快速发展,诸如Twitter,微博,Facebook这样的社交媒体平台成为了信息传播和信息共享的主要工具。社交媒体打破了人与人之间的物理距离障碍,凭借其参与、公开、交流、对话、连通性、社区化的六大特性,提高了相互交流的频率、加快了相互交流的速度、扩展了相互交流的广度与深度。根据2020年全球数字报告,全球有38亿人正在使用社交媒体平台,其中Twitter的日活跃用户已达到1.45亿,微博的平均日活跃用户达到2.29亿。虽然社交媒体给人们的生活提供了便利,但是在此背景下,由于媒体大批量地生产信息,高速率地传播信息,引发了大数据背景下的信息泛滥的问题。同时,社交媒体平台传播贴文的低成本性也在一定程度上加大了贴文检测的难度。此时,如果没有准确的工具来检测信息的真实性,就可能造成未经核实的信息衍生并传播的问题。

贴文检测变得越来越重要,具有一定准确性的贴文检测可以在许多方面造福于个人甚至于整个社会。识别贴文能够帮助社交媒体供应商对其业务范围进行优化调整。

但在社交媒体时代,贴文检测仍面临着很多现实的挑战。首先,贴文是由传播源展开,由不同回复分支传播的发散结构。到目前为止,为了拟合这种传播结构,还有很多工作要做。由于社交媒体数据的表现形式多样化,内容质量参差不齐等原因,贴文是通过各种社交媒体渠道传播的对事实,事件或公共利益问题的未经证实的陈述或诠释。如何依据贴文文本内容及其传播途径来对贴文进行准确检测已经引起了研究者们的广泛关注。

虽然现有研究在贴文检测任务上取得了一些成绩,但当前贴文检测任务还存在以下的几个问题:

(1)现有方法较少地考虑了贴文特殊的会话结构以及贴文扩散式的传播方式。存在对贴文的传播结构建模不充分的问题。

(2)带有标签的贴文数据中存在数据不平衡的问题。

发明内容

本发明的目的是提供一种基于超图注意力网络的社交媒体贴文真实性检测方法,本发明构建了一个会话-分支-tweet的超图注意力模型(CBT-HGAT),用于从贴文传播和散布中获取结构特征以检测贴文,从而提高模型的表达能力。

为达到上述目的而采用了一种基于超图注意力网络的社交媒体贴文真实性检测方法,具体包括如下步骤:

S1:对社交媒体贴文文本数据的数据预处理,划分为会话,回复分支,帖子的层级结构,源帖子用s表示,回复分支由branch表示,一条源帖子和多个回复分支[branch

S2:对经S1处理后的社交媒体贴文文本数据进行帖子属性特征提取,表示为向量的形式;

S3:对经S1处理后的社交媒体贴文文本数据进行帖子文本嵌入,获得每条帖子的向量表示;

S4:将S2和S3得到的向量拼接,作为超图结构的图节点;

S5:将回复分支branch作为连接多个图节点的超边,超边的集合与S4中的图节点组成的集合,共同构成一个超图结构,将超图结构的特征向量表示输入图注意力网络学习,从而构建一个基于会话-回复分支-帖子的超图注意力网络模型;

S6:将S5中超图注意力网络模型有监督学习从而形成一个分类器,用于预测源帖子的真实性标签

作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S1中,具体包括以下步骤:

S1.1:进行数据清洗和数据标准化的步骤,数据清洗包括去除代码标签和删除无关的干扰符号,至少包括:换行符“\n”,制表符“\ t”,同时,删除与上下文无关的句柄符号“@user”,数据标准化包括使用python第三方库emoji将emoji表情符号转化为英文表达;使用python语言中的tweet预处理库tweet-processor将上下文语料中的URL标准化为“urlurlurl”,将图片转化为“picpicpic”;使用python语言中的NLTK和spaCy库删除停用词并为上下文语料分词;

S1.2:将原始语料组织成会话的形式,具体做法为从原始语料中获取每个会话的分支结构,通过分支结构梳理帖子的组成结构,并按每个分支中的帖子ID对其进行排序,将会话中的分支用“$branch$”分隔,分支中的帖子用“\t”分隔,以区分会话中的层级关系,将语料组织为每行一个会话的形式。

作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S2中:

将提取的帖子属性特征包括:内容特征、情感特征、虚假信息特征和相关特征;

所述内容特征包括:是否包含符号;内容长度;帖子中大写字母占字符数的比例;以“wh”开头的单词数;

所述情感特征包括:帖子中包含的否定词数量;帖子中表示可能性的标签数量;

所述虚假信息特征包括:帖子中的表示“fake”的同义词数量;帖子中的“fake”的反义词数量;判断帖子中是否包含“rumor”或“gossip”或“hoax”之类的词;

所述相关特征包括:当前帖子和源帖子之间的余弦相似度特征;当前帖子和当前帖子的前一条帖子的序列之间的余弦相似度特征。

作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S2中:

内容特征中:

是否包含符号包括:问号,感叹号,句号,#号标签,URL或图片;

以“wh”开头的单词包括:“what”,“when”,“why”和“where”;

情感特征中:

否定词包括:not”,“no”,“nobody”,“nothing”,“none”和“never”;

可能性的标签包括:“WRB”,“WP $”,“WP”,“WDT”,“VBZ”,“VBP”,“VBN”和“VBG”;

虚假信息特征中:

“fake”的同义词包括:“bogus”,“deceitful”,“dishonest”,“distorted”,“erroneous”;

“fake”的反义词包括:“accurate”,“authentic”,“correct”,“fair”,“faithful”和“frank”。

作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S3中:

采用预训练模型BERT,在帖子层级结构对每条帖子进行嵌入表示,具体为使用BERT的MLM来掩盖帖子中部分单词,通过预测这些被掩盖的单词,获得每条帖子的向量表示;在BERT预训练前,使用特殊标记“[CLS]”和“[SEP]”来分隔每条帖子,在帖子的开头放置“[CLS]”,在帖子的末尾放置“[SEP]”,将语料组织为“[CLS] 帖子 [SEP]”的形式,随后,使用“[CLS]”位的向量表示作为帖子的向量表示。

作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,预训练模型BERT采用“bert-base-uncased”基本模型,输入的序列最大长度为512,如果帖子的长度少于512,则使用填充符填充;如果帖子的长度超过512,则将超过的部分截断。

作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S5中:

超图注意力网络模型中使用隐含狄利克雷分布模型来挖掘贴文会话中的潜在主题作为语义超边,从而连接与主题相关的前k个帖子,形式上,使用G=(A,X)表示整个超图,其中图中节点表示帖子,边表示branch,A是邻接矩阵,X是节点属性矩阵,X表示v个节点的属性,表示为X=[x

式中i,j分别指示矩阵的行列索引,

超图中图节点和超边的更新方式如下:

假设

其中,W

其中α

其中,

在更新所有超边之后,依次使用超边来更新节点表示,对于超边

其中,

其中,

作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S6中:

超图注意力网络模型中构建了一个两层的网络进行分类,其中,第一层网络用于对文本是否被验证进行分类,第二层网络用于对已被验证的文本进行真假性分类;

在经过超图注意力网络后,假设贴文会话的输出维数为n×m,那么输出表示为

激活函数设置为S

类似地,已验证的类别被分类为真或假;

分配损失权值时,分类为真或假的重要性比分类为是否验证更高,损失的计算公式如下:

Loss=loss

其中loss

作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,所述帖子为推特上的推文或博客上的博文或贴吧上的贴文。

(1)在贴文检测任务中,本发明基于贴文的传播结构,构建了一个会话-分支-tweet的超图注意力网络模型(CBT-HGAT)。

(2)普通图仅能表示相邻两个节点,即tweet,帖子之间的交互关系,本发明的超图模型通过使用超边(能够连接多个节点的边),表示多个节点的组合关系。

(3)本发明将BERT语言模型学习到的tweet级文本嵌入与提取到的手工特征相结合,作为超图中的节点。

(4)本发明使用图注意力机制模型,给予重要的tweet更多的关注。

(5)本发明对数据进行分层分类,使用分层预测来缓解数据分布不平衡的问题。

(6)本发明在来自 Twitter和Reddit的公开数据集上评估了本发明提出的方法。结果证明所提出的方法能够有效提高贴文检测的准确率。

附图说明

图1为基于超图注意力网络的贴文检测方法示意图。

图2为基于会话-分支-tweet的超图注意力网络(CBT-HGAT)模型图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

问题陈述:

贴文数据在诸如Twitter,Reddit,微博等社交媒体平台的公布形式都大同小异。以Twitter为例,贴文数据可分为会话,分支,tweet的层次结构。一个贴文会话通常是由一条源tweet开始,引出某个话题或是陈述某个事件的发生,然后由其他用户对其进行评论以展开讨论,形成多条链式回复。

根据上述数据格式,本发明将贴文数据进行公式化表示。将源tweet用s表示,则一个源tweet可以引出多条回复分支,回复分支由branch表示。总体而言,一条源tweet和多个回复分支 [branch

贴文检测任务的目的是确定会话中的源帖子

如图1所示,基于超图注意力网络的社交媒体贴文检测模型及主要步骤如下:

步骤1:对社交媒体贴文文本数据的数据预处理。

进行数据清洗和数据标准化的步骤。数据清洗包括去除代码标签和删除一些无关的干扰符号,例如换行符“\n”,制表符“\ t”。同时,删除与上下文无关的句柄符号(“@user”)。因为该(“@user”)符号的提示信息已经包含在回复分支的传播结构中。数据标准化包括使用python第三方库emoji将emoji表情符号转化为英文表达;使用python语言中的tweet预处理库tweet-processor将上下文语料中的URL标准化为“urlurlurl”,将图片转化为“picpicpic”;使用python语言中的NLTK和Spacy库删除停用词并为上下文语料分词。

在数据清洗完成后,将原始语料组织成会话的形式。具体做法为从原始语料中获取每个会话的分支结构,通过分支结构梳理tweet的组成结构,并按每个分支中的tweet ID对其进行排序。为了区分会话中的层级关系,将会话中的分支用“$branch$”分隔,分支中的tweet用“\t”分隔。通过这样的方式本节将语料组织为每行一个会话的形式,目的是在后续步骤中更轻松地将会话构建为图结构。

步骤2:对步骤1处理后的社交媒体贴文文本数据进行特征提取。

将提取的特征分为以下几类:

内容特征:内容特征是根据tweet的呈现形式,提取tweet中的以下特征:(1)是否包含符号特征:问号(

情感特征:(1)计算tweet中包含的否定词数量,否定词包括“not”,“no”,“nobody”,“nothing”,“none”和“never”等。(2)计算tweet中表示可能性的标签数量,例如“WRB”,“WP $”,“WP”,“WDT”,“VBZ”,“VBP”,“VBN”和“VBG”等。

虚假信息特征:(1)tweet中的表示“fake(虚假)”的同义词数量,例如“bogus”,“deceitful”,“dishonest”,“distorted”,“erroneous”和“fake”等。(2)tweet中的“fake(虚假)”的反义词数量,例如“accurate”,“authentic”,“correct”,“fair”,“faithful”和“frank”等。(3)判断tweet中是否包含“rumor”,“gossip”,“hoax”之类的词。

相关特征:(1)当前tweet和源tweet之间的余弦相似度特征。(2)当前tweet和当前tweet的前一条tweet的序列之间的余弦相似度特征。

步骤3:对步骤1处理后的社交媒体贴文文本数据进行文本嵌入。

跟随当前最先进的语言模型的趋势,基于Hugging-Face团队的PyTorch的预训练模型BERT进行了微调,并用微调后的模型在tweet层级对每条tweet进行嵌入表示。主要使用BERT的遮盖语言模型(MLM)来掩盖tweet中15%的单词。通过预测这些被屏蔽的单词,获得每条tweet的向量表达。在模型训练前,使用特殊标记“[CLS]”和“[SEP]”来分隔每条tweet。在tweet的开头放置“[CLS]”,在tweet的末尾放置“[SEP]”,具体的,将语料组织为“[CLS] tweet [SEP]”的形式。随后,使用“[CLS]”的向量表示作为tweet的向量表示。由于大多数tweet都属于短文本类型,因此使用“bert-base-uncased”基本模型,最大长度为512。如果tweet的长度少于512,则使用填充符填充;如果tweet的长度多于512,则将超过的部分截断。

步骤4:将步骤2和步骤3得到的向量拼接,作为超图结构的图节点。

步骤5:构建基于会话-分支-tweet的超图注意力网络模型(CBT-HGAT)。

传统的GNN通常使用的图结构为G=(V

在贴文的会话-分支-tweet传播结构中,将分支作为顺序超边,不仅有利于学习tweet之间的高级交互,而且还有助于捕获贴文传播结构的信息。此外,为了丰富每个tweet的上下文语义,CBT-HGAT模型中构建了语义超边来捕获tweet之间与主题相关的高阶相关性特征。具体来说,通过使用隐含狄利克雷分布(LDA)模型来挖掘贴文会话中的潜在主题作为语义超边,从而连接与主题相关的前k个tweet。

超图中图节点和超边的更新方式如下:

形式上,使用G=(A,X)表示整个超图,其中A是邻接矩阵;X是节点属性矩阵,用于表示每个节点的属性,表示为X=[x

式中i,j分别指示矩阵的行列索引,

使用超边(branch)来学习节点(tweet)的高级表示,一条超边串联了多个tweet,通过超边来表达tweet之间的多元关系。下面介绍超图中节点和边的更新方式。假设

其中α

其中,

在更新所有超边之后,依次使用超边来更新节点表示。对于超边

其中,

通过以上的方式,更新贴文会话结构中的超边(branch)和节点(tweet),用超图的形式模拟贴文会话的传播结构。

步骤6: 在步骤5的基础上进行贴文的分层预测。

贴文检测任务是将文本分类为“真”、“假”或“未验证”这三个类别。由于贴文的数据分布不平衡,标签为“未验证”的数据量总是比其他两个标签中的数据多。并且,在贴文检测的任务中,判断“已验证”类别中的文本的真假性比判断贴文是否被验证更重要。本发明为了解决数据不平衡的问题,以及区分两个任务的重要性程度,构建了一个两层的网络进行分类。其中,第一层网络用于对文本是否被验证进行分类,第二层网络用于对已被验证的文本进行真假性分类。

在经过超图注意力网络后,假设贴文会话的输出维数为n×m,那么输出表示为

激活函数设置为S

类似地,已验证的类别被分类为真或假。分配损失权值时,分类为真或假的重要性比分类为是否验证更高,损失的计算公式如下:

Loss=loss

其中loss

图2中贴文会话样例:

A320 flight 4U9525 registration DAIPX was lost from at 6800 feet at0939 UTC time urlurlurl Plane crashed near Digne South of France according tolocal police $branch$A320 flight 4U9525 registration DAIPX was lost from at6800 feet at 0939 UTC time urlurlurl A bit low for cruising altitude $branch$A320 flight 4U9525 registration DAIPX was lost from at 6800 feet at 0939 UTCtime urlurlurl A320 van Germanwings neergestort in Franse Alpen Alpes desHautes Provence $branch$

本发明为了模拟贴文的发散性传播结构并更好地说明贴文数据中的会话、分支、tweet三者之间相互的复杂关系,本发明基于贴文数据的内部结构和文本内容构建了一个会话-分支-tweet的超图注意力模型(CBT-HGAT)。

优点:贴文检测模型只是基于贴文的分支结构(分支-tweet)进行建模,而没有对贴文的传播结构(会话-分支-tweet)进行建模,可能会造成贴文结构信息的丢失。一条tweet的观点不仅与它的前一条tweet相关,而是需要该条tweet与它前面n条tweet的组合才能表达该条tweet的观点。例如,考虑一个分支[s,r

本发明通过图注意力机制区分tweet的重要性程度。

优点:由于贴文数据结构中的每条tweet对判定该消息是否为贴文的重要性不同,不能将会话中的每条tweet一概而论,因此我们的超图注意力网络通过注意力机制,给予重要的tweet更多的关注。

本发明设置分层网络对贴文数据进行分层预测。

优点:由于贴文的数据分布不平衡,标签为“未验证”的数据量总是比其他两个标签中的数据多。并且,在贴文检测的任务中,判断“已验证”类别中的文本的真假性比判断贴文是否被验证更重要。本发明构建的分层网络能够解决数据不平衡的问题,以及区分两个任务的重要性程度。

本发明在Twitter和Reddit的真实数据集上评估了提出的方法,证明了提出的方法可以有效地提高贴文检测任务的准确性。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号