首页> 中国专利> 一种基于知识集成的虚假评论检测方法及系统

一种基于知识集成的虚假评论检测方法及系统

摘要

本发明公开了一种基于知识集成的虚假评论检测方法及系统,所述方法包括以下步骤:获取待检测评论数据;采用检测虚假评论模型对所述待检测评论数据进行虚假检测;其中,所述检测虚假评论模型基于知识嵌入单元提取文本嵌入特征,基于深度嵌入单元提取上下文嵌入特征,将所述文本嵌入特征和上下文嵌入特征进行融合,采用融合嵌入特征进行虚假检测。本发明通过集成评论数据的文本嵌入特征和上下文特征,增强了特征语义表达的准确性,提高了虚假评论的检测精度。

著录项

  • 公开/公告号CN113076754A

    专利类型发明专利

  • 公开/公告日2021-07-06

    原文格式PDF

  • 申请/专利权人 山东师范大学;

    申请/专利号CN202110307754.1

  • 申请日2021-03-23

  • 分类号G06F40/30(20200101);G06F16/35(20190101);G06F40/216(20200101);G06K9/62(20060101);G06N3/04(20060101);

  • 代理机构37221 济南圣达知识产权代理有限公司;

  • 代理人闫伟姣

  • 地址 250014 山东省济南市历下区文化东路88号

  • 入库时间 2023-06-19 11:44:10

说明书

技术领域

本发明属于大数据分析技术领域,尤其涉及一种基于知识集成的虚假评论检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。

网络消费如网购、预定酒店、预定车票等,由于其内容丰富、便捷、用户体验佳等优势,已经成为目前主流的消费方式。潜在的消费者通常在决定是否消费之前先访问产品评论,但是,由于商家为提高自身声誉,或者商家之间的竞争等因素,往往存在部分虚假评论,为消费者的决策带来了不便,并且也不利于有效的在线市场监管。

目前已经存在基于机器学习进行评价筛查的相关方法,但是,现有方法在进行特征提取时通常仅使用词袋或心理语言标记来表示特征,而不考虑文本的上下文,很难捕获评论内容的语义信息,无法正确地描述评论。并且,由于评论是长度不一的序列,并且具有很强的时间依赖性,而深度模型通常无法平衡长期和短期历史信息的作用,这将导致模型耗时且准确率低。最后,用于虚假评论检测的深度学习模型缺乏可解释性,人们只能看到其输入和输出,但是很难理解其工作,影响了人们对模型的信任和模型效果的提高。

发明内容

为克服上述现有技术的不足,本发明提供了一种基于知识集成的虚假评论检测方法及系统。通过集成评论数据的文本嵌入特征和上下文特征,增强了特征语义表达的准确性,提高了虚假评论的检测精度。

为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:

一种基于知识集成的虚假评论检测方法,包括以下步骤:

获取待检测评论数据;

采用检测虚假评论模型对所述待检测评论数据进行虚假检测;

其中,所述检测虚假评论模型基于知识嵌入单元提取文本嵌入特征,基于深度嵌入单元提取上下文嵌入特征,将所述文本嵌入特征和上下文嵌入特征进行融合,采用融合嵌入特征进行虚假检测。

进一步地,所述知识嵌入单元包括关键词特征单元,用于提取待检测评论数据中的关键词特征。

进一步地,所述知识嵌入单元还包括情绪特征单元,用于提取待检测评论数据中的情绪特征。

进一步地,所述知识嵌入单元还包括N-Gram嵌入单元,用于提取待检测评论数据的文本高维稀疏嵌入特征。

进一步地,所述深度嵌入单元包括连接的一维卷积神经网络和长短期神经网络,用于提取上下文嵌入特征。

进一步地,所述一维卷积神经网络包括因果卷积层、扩张卷积层和残差块。

进一步地,所述方法还包括:采用LIME模型对所述检测虚假评论模型进行解释,得到用于检测虚假评论的特征。

本发明的一个或多个实施例提供了一种基于知识集成的虚假评论检测系统,包括:

数据获取模块,被配置为获取待检测评论数据;

虚假评论检测模块,采用检测虚假评论模型对所述待检测评论数据进行虚假检测;其中,所述检测虚假评论模型基于知识嵌入单元提取文本嵌入特征,基于深度嵌入单元提取上下文嵌入特征,将所述文本嵌入特征和上下文嵌入特征进行融合,采用融合嵌入特征进行虚假检测。

本发明的一个或多个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于知识集成的虚假评论检测方法。

本发明的一个或多个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的基于知识集成的虚假评论检测方法。

以上一个或多个技术方案存在以下有益效果:

通过集成评论数据的文本嵌入特征和上下文特征,增强了特征语义表达的准确性。具体而言,通过融合评论数据中的关键词特征、情绪特征,和/或评论数据的文本高维稀疏特征,实现了针对待检测评论的知识语义嵌入,提高了虚假评论检测的准确性;

虚假评论检测时通过一维卷积神经网络和长短期神经网络相结合进行深度嵌入,平衡了评论的长期和短期历史信息的作用,从而提高了虚假评论的检测模型的泛化能力;并且,通过将一维卷积网络,长期短期记忆网络和残差连接层融合在一起,检测模型更加稳健;

通过对检测模型进行解释,能够找到用于检测虚假评论的关键重要单词,有利于后续虚假评论检测精度的提高。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。

图1为本发明实施例中基于知识集成的虚假评论检测方法流程图;

图2为本发明实施例中虚假评论检测模型架构图;

图3为本发明实施例中一维卷积神经网络示意图;

图4为本发明实施例中因果扩张卷积示意图;

图5为本发明实施例中残差网络结构图;

图6为本发明实施例中LSTM结构图;

图7为本发明实施例中模型准确率图。

具体实施方式

应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种基于知识集成的虚假评论检测方法,如图1所示,包括以下步骤:

步骤1:获取待检测评论数据;

获取待检测评论数据后,还对数据进行预处理,包括分词、删除停用词和删除标点符号等。

步骤2:采用检测虚假评论模型对所述待检测评论数据进行虚假检测,其中,所述检测虚假评论模型基于知识嵌入单元提取文本嵌入特征,基于深度嵌入单元提取上下文嵌入特征,将所述文本嵌入特征和上下文嵌入特征进行融合,采用融合嵌入特征进行虚假检测。

本实施例提供了一种知识集成的可解释检测虚假评论模型(EKI-SM),集成了一组虚假评论的字嵌入特征,使评论的向量包含更丰富的语义信息,并且相似评论之间的距离在语义上更小;引入了一维卷积网络(1-D CNN)来提取高维特征,由于卷积运算,一维CNN从局部内容中提取特征,从而使表示更加有效;通过从具有高维特征的离散观测中学习连续序列模型,提高了模型的效率,并处理了卷积性能下降的问题。该模型将1-D CNN,长期短期记忆网络(LSTM)和残差连接层融合在一起,以捕获序列的局部和全局依赖性,并使虚假评论检测模型更可靠,并且,受可解释性深度学习思想的启发,对EKI-SM模型进行了解释,找到了检测虚假评论的重要词汇。

图2示出了可解释检测虚假评论模型的整体架构。总的来看,检测虚假评论模型包括四个模块:知识嵌入模块、深度嵌入模块、特征融合模块和分类模块。具体来说,我们首先从评论和评论的N-Gram表示中获得了语义知识。然后,我们将评论输入到深度嵌入模块中,以学习评论序列的深度嵌入。深度嵌入模块提供了一个简洁的表示形式,可以有效地编码上下文信息。我们整合了以上三个模块的输出,以供分类器使用。

知识嵌入模块,包括关键字特征单元、情绪特征单元和N-gram嵌入单元,分别被配置为提取待检测评论数据中的关键词特征、情绪特征和文本高维稀疏特征。具体如下:

(1)关键字特征单元:TF-IDF(termfrequency-inversedocumentfrequency)词频-逆向文件频率。在处理文本时,将文字转化为模型可以处理的向量,IF-IDF就是这个问题的解决方案之一。字词的重要性与其在文本中出现的频率成正比(IF),与其在语料库中出现的频率成反比(IDF)。

TF-IDF=TF×IDF (1)

(2)情绪特征单元:这是等式中定义的情感词与其他词的比率。

其中,emotion-degree是评论的情感度,emotion words是评论中情感词的数量,以及all words是评论中包含的字数。

如上所述,真实的评论者经常根据他们的经验进行客观的评估。但是,虚假评论者往往会过度推荐或超额订购某种产品,因此经常使用更多带有鲜明情感的词,例如“great”,“bad”,“beautiful”和“poor”。因此,我们使用HowNet情感词典来计算正/负词的数量。最重要的是,通过词典更容易获得情感特征。

(3)N-Gram嵌入单元,N-Gram是一种基于统计语言模型的算法。它对文本内容执行大小为N的滑动窗口基于字节的操作,从而形成一个长度为N的字节片段序列。每个字节片段称为gram。根据预设的阈值对所有gram的出现频率进行计数和过滤,以形成关键gram列表,该gram列表是此文本的特征向量,并且gram列表中的每种类型都是特征的一维。

该模型假定第N个单词的出现仅与前面的N-1个单词相关,而与其他任何单词均不相关。整个句子的概率是每个单词的概率的乘积。这些概率可以通过直接计算来自语料库的N个单词同时出现的次数来获得。常用的N-Gram是Uni-Gram,Bi-Gram或Tri-Gram。

深度嵌入模块,包括编码单元、一维卷积单元和长短期神经网络单元,分别被配置为对待检测评论数据进行局部上下文嵌入和全局上下文嵌入。

本实施例采用一维卷积(1D-CNN)单元进行评论嵌入。该网络可以保留短期历史信息并捕获本地语义关系。此外,它还具有诸如输入长度灵活,预测结果不依赖于未来信息以及在网络深度增加时保持有效性等优点。

待检测评论数据通过编码单元进行GloVe编码后,将被送到1D-CNN以进行进一步的特征提取。1D-CNN模块包括因果卷积层,扩张卷积层和残差块(图3)。因果卷积层是一维(1D)卷积层。该卷积层是因果关系的,这意味着将来的信息不会泄漏到过去。扩张卷积层在输出层之前的每一层中使用扩张因果卷积。

在图4中,第一层的扩展率为1,卷积核的大小为3。第一隐藏层的膨胀因子为2,卷积核的大小为3。此外,第二隐藏层具有4扩张因子,并且卷积核大小为3。此外,输出层最初填充为零,以确保输出和输入长度相同。

我们可以堆叠多个隐藏层,以使因果扩展的卷积网络更深,因为需要该模型记住不同级别的序列历史信息。

为了使因果扩张层的原理更加形式化,假设输入序列是一维输入序列X=(x

其中k是卷积核大小,s是序列中的元素,x是输入特征,d是扩展率,F(X)表示X序列中的卷积运算。

如等式(3)所示,当处理大量评论数据和较长的时间连接距离时,我们基于因果卷积构造了多个膨胀卷积层,并进一步扩展了卷积。即当扩展率增大时,感受野的范围增大,这表明卷积输出与长期历史信息有关。

如上所述,堆叠因果卷积层可以提取多个级别的特征。同时,它使神经网络(CNN)更深。但是,较深的网络结构经常会遇到梯度消失或梯度爆炸的问题,这使得模型难以收敛。解决此问题的一种方法是为网络引入更丰富的信息。因此,将残差块集成到因果扩展卷积层中,以提高CNN的泛化能力。图5显示了残差块的网络结构。

假设模块的输入为X,因果卷积模块的输出为H(X)。另外,我们设置了两层因果膨胀卷积网络和非线性激活函数。为了提高泛化能力,我们对卷积核的权重进行归一化,并在残差模块中设置Dropout层。整个残差模块的输出表示如下。

Z=Activation(X+H(X)) (4)

其中,H(X)表示因果卷积层的输出。

总体而言,因果扩张卷积和残差连接层共同形成1D-CNN模块,该模块输出评论特征嵌入矩阵。

在1D-CNN之后,长短期神经网络(LSTM)学习了评论的长期特征。

LSTM模型将1D-CNN模块输出的特征向量作为输入,并与上一步的隐藏状态组合。由三个门控制,它可以读取,重置和更新历史信息。此外,存储单元用于保存历史信息。图6显示了LSTM模型的体系结构。C

其中,i

i

f

c

o

h

LSTM的损失函数是公式10中所示的负对数似然损失函数:

其中y

因此,我们获得了嵌入EKI-SM的评论。

本实施例将一维CNN和LSTM相结合的原因是它们具有互补的优势,从而使EKI-SM继承了它们的优势并避免了它们的劣势。具体来说,一维CNN独立处理输入序列,因此它们从局部输入序列中提取特征,并提高了处理效率,而LSTM模型则相反。我们的策略结合了1D-CNN的速度和轻便与LSTM的顺序敏感性。当评论序列太长而无法用LSTM进行实际处理时,这尤其有用。

由于1D-CNN独立处理输入,因此它对序列的顺序(超出局部范围,卷积窗口的大小)不敏感。为了识别评论全局特征,我们将1D-CNN与LSTM进行堆叠,将1D-CNN模块的输出被送到LSTM模块。这种策略使我们能够操纵更长的评论序列。

特征融合模块,被配置为将所述知识嵌入模块、N-Gram嵌入模块和深度嵌入模块得到的特征进行融合,得到融合特征向量。

分类模块,被配置为根据融合特征向量对待检测评论数据进行分类。

由于虚假评论检测属于二分类,因此在分类模块采用sigmoid作为激活函数进行分类。

在构建了EKI-SM模型的基础上,本实施例还采用LIME方法对EKI-SM模型进行解释,得到了检测虚假评论的重要词汇。

经过多次实验,我们发现评论为虚假则LIME模型预测是否定的得分为1。如果评论为真,则LIME模型预测结果在正面得分高于负面得分。也就是说,在真实评论中,既有正面表达,也有负面表达。虚假评论更多是积极的表达。通过采用LIME模型计算一条评论数据中文本特征的重要性,能够得到该评论数据主要特征对预测的贡献,根据贡献值即可得到能够用于识别虚假评论的重要词汇。

实验1采用酒店数据集作为基准数据集,将本实施例方法同其他方法的检测结果进行对比分析,以验证本实施例方法的有效性。

酒店数据集由800个不同极性评论的两个数据集组成,包括400个真实评论和400个伪评论。具体地,每个数据集都包含20家酒店的TripAdvisor评论,每家酒店的40条真实评论和40条假评论。获取数据集后,对数据进行预处理,例如分词,删除停用词,将大写转换为小写,删除标点符号和非字母字符,这些操作消除了不相关的信息并减小了数据集的大小。

本实施例采用如下模型参数:

关键字模块:使用前2000个特征。

N-Gram模块:采用Uni-Gram,Bi-Gram和Tri-Gram,并使用前2000个特征。

深度嵌入模块:首先使用由GloVe模型训练的300维单词向量,然后通过EKI-SM模型进行深度嵌入,得到局部和全局上下文特征,具体地,CNN层使用64个大小为3*3的滤镜来提取特征,两层LSTM中的神经元数分别为30和60。Dropout防止模型过度拟合,并且其大小设置为0.3。在深度嵌入模块中,我们使用Adam进行了优化,Adam利用动量和自适应学习率来加快收敛速度。

在评估实验结果时,考虑了五个评估指标:Acc(准确率),P(精确率),R(召回率),F(F-score)和AUC。准确率也是准确率,即检索后返回的结果中,真正正确的结果数与整个结果的比率。召回率是搜索结果中真正正确数字的数量与整个数据集(已检索和未检索到)中真正正确数字的数量之比。除了使用了准确性和召回率,还使用F-score来综合考虑这两个评估指标。公式(11)–(14)显示了四个指标的计算方法。

其中,TP表示真正例样本数,FP表示实际为假正例样本数,FN表示实际为假负例样本数,TN表示实际为真负例样本数。

为了证明本实施例方法的有效性,我们采用本实施例方法和其他方法分别检测虚假评论,并对得出的实验结果进行了比较,其他方法所采用的虚假评论检测模型如下:

(1)支持向量机(SupportVectorMachine,SVM);

(2)卷积神经网络(Convolutional neural network,CNN),以CBOW词向量特征作为输入。

(3)DFFNN模型,以N-Gram,word2vec模型得到的词嵌入特征作为输入。

从图7中可以看出,本实施例方法的虚假评论检测性能优于其他模型。除了准确率之外,从表1中可以看出,本实施例方法所采用的模型F-score得分最高。

表1模型的实验结果

实验2基于本实施例提出的方法,采用不同的融合特征,以验证本实施例方法所提出的融合特征的有效性。包括:

(1)EKI-SM(TF-IDF):基于低维向量;

(2)EKI-SM(TF-IDF+emotion):基于低维向量和情绪特征的融合特征。

(3)EKI-SM(TF-IDF+emotion+N-Gram):基于低维向量、情绪特征、和高维稀疏特征的融合特征(本实施例所提出的融合特征)。

表2不同特征融合的实验结果

实验结果表明,使用高维稀疏特征和情感特征更有助于改善模型的性能。

实验3在输入特征相同的条件下,对深度嵌入单元仅采用CNN模型、仅采用LSTM模型和采用CNN+LSTM模型的虚假评论检测结果进行对比,从表3中可以看出,本实施例中采用CNN+LSTM相结合的混合模型(EKI-SM)的性能最佳。

表3不同模型的实验结果

从表中,CNN和LSTM模型使用TF-IDF和N-Gram提取的特征作为检测假评论的输入。

实施例二

本实施例的目的是提供一种基于知识集成的虚假评论检测系统。所述系统包括:

数据获取模块,被配置为获取待检测评论数据;

虚假评论检测模块,采用检测虚假评论模型对所述待检测评论数据进行虚假检测;其中,所述检测虚假评论模型基于知识嵌入单元提取文本嵌入特征,基于深度嵌入单元提取上下文嵌入特征,将所述文本嵌入特征和上下文嵌入特征进行融合,采用融合嵌入特征进行虚假检测。

实施例三

本实施例的目的是提供一种电子设备。

一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如实施例一所述的基于知识集成的虚假评论检测方法。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如实施例一所述的基于知识集成的虚假评论检测方法。

以上实施例二-四中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一或二的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

以上一个或多个实施例中,通过集成评论数据的文本嵌入特征和上下文特征,实现了多种知识信息的挖掘,增强了特征语义表达的准确性,通过一维卷积神经网络和长短期神经网络相结合,平衡了评论的长期和短期历史信息的作用,从而提高了虚假评论的检测模型的泛化能力。

本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号