首页> 中国专利> 基于多维评论表示的虚假评论检测方法

基于多维评论表示的虚假评论检测方法

摘要

基于多维评论表示的虚假评论检测方法,属于信息挖掘技术领域。本发明是为了解决现有的虚假评论检测方法不能真实的、自动的、准确的解决电子商务平台中的商品评价信息处理的问题。本发明从词级和句子级将用户级相关特征表示、产品级相关特征表示和细粒度方面级相关特征表示进行融合,并对用户与产品之间的关系进行建模,将关系融入模型之中;基于注意力机制计算包含丰富上下文信息h′与用户‑产品知识的评论表示UP′之间的交互影响,获得最终的评论表示Fr,然后进行分类,进而判断评论是虚假评论还是真实评论。主要用于虚假评论的检测。

著录项

  • 公开/公告号CN112597302A

    专利类型发明专利

  • 公开/公告日2021-04-02

    原文格式PDF

  • 申请/专利权人 东北林业大学;

    申请/专利号CN202011505843.9

  • 发明设计人 刘美玲;尚玥;于洋;

    申请日2020-12-18

  • 分类号G06F16/35(20190101);G06F40/237(20200101);G06F40/253(20200101);G06F40/284(20200101);G06K9/62(20060101);G06N3/04(20060101);

  • 代理机构23109 哈尔滨市松花江专利商标事务所;

  • 代理人时起磊

  • 地址 150040 黑龙江省哈尔滨市香坊区和兴路26号

  • 入库时间 2023-06-19 10:27:30

说明书

技术领域

本发明涉及一种基于多维评论表示的虚假评论检测方法,属于信息挖掘技术领域。

背景技术

随着网络的飞速发展,用户使用网络的便捷性在不断上升。现如今,网络已不仅仅是人们获取知识的工具,同时还是人们发表观点和传播信息的载体。在电子商务方面,评论信息对网络平台中的用户与企业都影响重大,一方面影响着用户的购买决策,另一方面影响着企业的发展。据社交商务平台Bazaarvoice最新数据发现,超过50%的用户在发现产品有虚假评论后会停止购买行为,失去对品牌的信任。而针对虚假评论,据《华盛顿邮报》研究,亚马逊网站中电子产品的评论超过60%为虚假评论。正因此,自动鉴别网络平台信息的真假、给用户提供更加真实的信息至关重要。

现有的虚假评论的检测方法主要分为两种:一种是基于特征工程的虚假评论的检测方法,此方法多从文本特征和行为特征入手,例如在文本的语义特征方面包括评论文本的长度、词性特征和情感极性等,在用户行为特征方面包括好/差评论的发表数量,发表评论的频率等,然而在利益的驱使下,这些特征容易被虚假评论发布者反侦破,再伪装,虚假评论发布者的计策针对相应的检测特征也在不断提升和伪装;另一种是基于深度学习的虚假评论的检测方法,此方法相比基于特征的方法,能够自动识别文本内部隐含的特征,而不需要人工设计,具有更强的领域适应性,更为有效,但大多仅从单一的评论文本或用户角度出发,而忽略了用户自身隐含的一些表达模式以及用户、产品与文本三者之间的关联与影响;除此之外,我们发现用户在表达自己的真实感受的时候,无论是好评还是差评,都会从一些细节方面来描述说明,以此增强自己情感的表达,而虚假评论发布者因并非自己亲身经历或真实使用,并不能从细节处描述产品,大多是笼统的评论。

基于以上原因,在网络数据量飞速增长的环境下,提供一个自动的、准确的且不易被虚假评论发布者反侦破的虚假评论检测方法是解决电子商务平台中的商品评价信息处理的技术问题的关健。

发明内容

本发明是为了解决现有的虚假评论检测方法不能真实的、自动的、准确的解决电子商务平台中的商品评价信息处理的问题。现提供一种基于多维评论表示的虚假评论检测方法。

基于多维评论表示的虚假评论检测方法,包括以下步骤:

步骤1、提取细粒度方面词集:

首先,对评论语句进行预处理,提取评论语句中词性为名词且词频大于词频阈值的所有单词构成细粒度方面词集1;

然后,将评论中所包含的细粒度方面词视为当前评论句子中的主题,采用LDA主题挖掘模型结合主题困惑度计算对已有的评论集进行细粒度方面词的提取,得到细粒度方面词集2;

最后,将得到的细粒度方面词集1和细粒度方面词集2进行去重合并,得到最终的细粒度方面词集

步骤2、构建词级融合模型:

通过用户ID信息、产品ID信息和细粒度方面词分别与评论文本中的单词基于注意力机制进行计算,获取用户级相关特征、产品级相关特征和细粒度方面级相关特征;

步骤3、构建句级交互模型:

步骤3.1、利用双向LSTM+max-pooling层作为基础模型,获取评论句子表示h:

步骤3.2、根据词级融合模型输出的用户级相关特征表示ν

步骤3.3、将用户句子表示U与产品句子表示P拼接在一起生成用户-产品级句子表示,将细粒度方面句子表示A作为约束门,分别对评论句子表示h与用户-产品级句子表示UP传向下一层的信息进行约束,并将细粒度方面句子表示A分别融入包含丰富上下文信息h′与用户-产品知识的评论表示UP′中,基于注意力机制计算包含丰富上下文信息h′与用户-产品知识的评论表示UP′之间的交互影响,并获得最终的评论表示F

步骤4、构建分类模型:

对句级交互模型输出的最终的评论表示F

进一步地,所述的步骤1中,对评论语句进行预处理的方式为:利用语法和形态分析工具对分词后的评论语句进行处理。

进一步地,所述的步骤1中,获得细粒度方面词集2的具体步骤如下:对评论语料进行语法和形态分析,然后利用语法和形态分析工具对分词后的评论语句进行预处理,通过LDA主题挖掘模型对预处理之后的评论集进行建模,采用困惑度最小时的主题数来确定每个评论集中的主题数,将确定的所有主题下的所有词全部进行整合,从而得到细粒度方面词集2。

进一步地,所述的步骤2中,获取用户级相关特征、产品级相关特征和细粒度方面级相关特征具体过程如下:

设定单词相关域d,基于注意力机制对每一个用户的ID信息在其所发表的评论的(w

u=tanh(XW

其中,X是(w

确定产品级相关特征表示v

对于评论S

v

β

ap

其中,X

进一步地,所述的步骤3.1中获取评论句子表示h的具体过程如下:

首先对评论集S={S

E

S′

其中,E

进一步地,所述的步骤3.1中,对原始评论句子进行预处理的方式为:将句子中的缩略词进行替换并去掉句子中的标点符号。

进一步地,所述的步骤3.2中,获取用户句子表示、产品句子表示和细粒度方面句子表示的具体过程如下:

将每个用户级相关特征表示v

S

其中,W

将所有的用户相关级句子表示进行堆叠得到用户句子表示,用户句子表示

分别根据v

进一步地,所述的步骤3.3中,获得最终的评论表示F

如公式(5)所示,对UP和h进行线性转换,将细粒度方面句子表示A看作约束门,约束

其中,

如公式(6)和公式(7)所示,利用softmax层将UP′与h′之间的相关分数归一化,得到各自的注意力权重

其中,

如公式(8)所示,将UP′,h′与各自的权重相乘得到加权后的表示UP

如公式(9)所示,将UP

F

其中,

进一步地,所述的步骤4的过程包括以下步骤:

将句级交互模型输出的最终的评论表示F

y=tanh(F

其中,W

最后使用softmax层进行分类进行确定评论的虚假性。

进一步地,所述方法还包括优化MIANA模型的目标函数的步骤,具体过程包括以下步骤:

将用户、评论和产品作为三元组信息,

基于TransD算法对三元组之间的关系进行知识表示,首先,将不同的实体属性映射到不同的矩阵,如公式(11)所示,构造两个投影矩阵M

M

M

其中,U′代表U的投影向量,P′代表P的投影向量,F′

然后确定头实体用户与尾实体产品在关系空间的距离,由公式(12)进行计算:

最后,对尾实体产品进行负采样,得到负采样的距离l(u,p)′,将l

在模型训练过程中,训练目标是最小化优化后的交叉熵损失,如公式(13);

其中,λ为超参数。

有益效果:

本发明从全局角度出发,在细粒度方面信息的约束下,融合用户级表达模式、文本上下文语义信息以及产品细粒度属性作为评论的表示,基于注意力机制设计了一个具有细粒度方面约束的多级交互神经网络模型,并将评论与用户、产品之间的关系基于TransD进行建模,将模型训练结果作为多级交互神经网络模型的正则化项对模型进行优化,将评论与用户、产品之间的关系融入多级交互神经网络模型之中,增强虚假评论识别模型的性能。

实验结果证明,与现有的虚假评论检测方法相比,本发明提出的基于多维评论表示的虚假评论检测方法具有较大的优势,模型性能得到了很大的提升,更加适用于真实网络环境中的评论信息处理和分类。

附图说明

图1为本发明细粒度方面约束的多级交互神经网络模型MIANA。

具体实施方式

具体实施方式一:参照图1具体说明本实施方式,

本实施方式所述的基于多维评论表示的虚假评论检测方法,检测步骤具体如下:

步骤1、提取细粒度方面词集

经过对产品的真实评论数据分析和研究发现,用户在表达自己的真实感受的时候,无论是留下好评还是差评,都会从一些细节方面来描述说明,以此增强自己情感的表达,而虚假评论发布者因并非自己亲身经历或真实使用,并不能从细节处描述产品,大多是笼统的评论。例如对一个餐厅的评价中,真实用户user1无论发表好评还是差评,都会对产品详细的方面(Frech toast,chicken sausage)进行评价,而虚假评论发布者user2无论留下好评或差评,都只是笼统的一个评价(food,place)。

所述的细粒度方面词Aspect即用户评论中或者观点中出现的产品属性,细粒度方面词可以作为一种判别虚假评论的关键。

通过以下方式从评论中提取用户所关注的细粒度方面词(或者说产品被关注的的细粒度方面词),具体步骤如下:

首先,利用语法和形态分析工具对分词后的评论语句进行预处理,提取词性为名词且词频大于词频阈值的所有单词构成细粒度方面词集1;词频阈值优选取值10。

然后,当用户写下评论时,将评论中所包含的细粒度方面词视为当前评论句子中的主题,在此前提下,本实施方式采用LDA主题挖掘模型结合主题困惑度计算对已有的评论集S={S

对评论语料进行语法和形态分析,然后利用语法和形态分析工具对分词后的评论语句进行预处理,通过LDA主题挖掘模型对预处理之后的评论集进行建模,采用困惑度最小时的主题数来确定每个评论集中的主题数,将确定的所有主题下的所有词全部进行整合,从而得到细粒度方面词集2。

本实施方式中共包含三个评论集,LDA主题挖掘模型对数据进行训练之后会生成指定主题,此处指定为5个,即确定每个评论集中主题数为5,共计15个主题,在指定的每个主题下会包含一些与主题相关性很高的单词,将模型所生成主题下的所有单词都集合到一起,得到细粒度方面词集2。

最后,将得到的细粒度方面词集1和细粒度方面词集2进行去重合并,得到最终的细粒度方面词集

步骤2、构建词级融合模型

通过对产品的真实评论数据分析研究,若是从用户角度出发,每个用户在发表评论时都有自己的表达模式,这是与用户相关的文本隐含模式,也可以说是用户级相关特征,例如:用户在网站中对多个餐厅留下评论,而这些评论中包含了一种固定的表达模式:“整体评价+细节评价”,但仅从单条评论来看,并不会发现这样的问题。若是从产品的角度来看,评论语句中所包含的产品级相关特征同样如此。

因此,本发明从全局角度出发,为了获取用户级相关特征和产品级相关特征,分别将用户ID信息User和产品ID信息Prod与评论文本中的单词基于注意力机制进行计算。

如图1所示,为了减小分词对后续计算的影响,设定单词相关域d,基于注意力机制对每一个用户的ID信息在其所发表的评论的(w

u=tanh(XW

其中X是(w

产品P

p=tanh(XW

其中,W

除此之外,为了获取评论中的细粒度方面级相关特征,将细粒度方面词与评论文本中的单词基于注意力机制进行计算。

对于评论S

v

β

ap

其中,X

在词级融合模型中,得到了词级的用户级相关特征表示v

步骤3、构建句级交互模型

句级交互模型中包含三部分句子处理机制。

步骤3.1因评论文本自身包含丰富的上下文语义信息,本发明使用RCNN网络(双向LSTM+max-pooling层)作为基础模型,首先对评论集S={S

E

S′

其中,E

步骤3.2对词级融合模型输出的用户级相关特征表示v

具体计算过程如下:将每个用户级相关特征表示v

S

其中,W

将所有的用户相关级句子表示进行堆叠得到用户句子表示,用户句子表示

分别根据v

用户句子表示、产品句子表示和细粒度方面句子表示可看做虚假评论识别的全局视角特征。

步骤3.3将用户句子表示U与产品句子表示P拼接在一起生成用户-产品级句子表示,即相关知识矩阵

具体计算过程如下:如公式(6)所示,对UP和h进行线性转换,将细粒度方面句子表示A看作约束门,约束

其中

最后,如公式(7)和公式(8)所示,基于注意力机制计算包含丰富上下文信息h′与用户-产品知识的评论表示UP′之间的交互影响,即对于虚假评论识别,在给定文本特征的情况下,用户-产品级句子表示中的可疑特征有多少;在给定用户-产品特征的情况下,评论句子表示中的可疑特征有多少。

利用softmax层将UP′与h′之间的相关分数归一化,得到各自的注意力权重

其中,

至此,本发明已将细粒度方面级信息融入到包含丰富上下文信息h′与用户-产品知识的评论表示UP′中,且包含丰富上下文信息h′与用户-产品知识的评论表示UP′之间的交互影响。

最后,如公式(10)所示,将UP

F

其中,

F

步骤4、构建分类模型

对句级交互模型输出的最终的评论表示F

如公式(11)所示,将句级交互模型输出的最终的评论表示F

y=tanh(F

其中W

步骤5、优化MIANA模型的目标函数

将用户、评论和产品作为三元组信息(U

基于以上原因,在训练过程中,对三元组之间所存在的关系基于TransD算法进行关系建模,将模型训练结果作为正则化项对MIANA模型的目标函数进行优化,提高MIANA模型的准确率与精准率。

具体计算过程如下:

基于TransD算法对三元组之间的关系进行知识表示,首先,将不同的实体属性映射到不同的矩阵,如公式(12)所示,构造两个投影矩阵M

M

M

其中,U′代表U的投影向量,P′代表P的投影向量,F′

其次,头实体用户与尾实体产品在关系空间的距离由公式(13)进行计算:

最后,对尾实体产品进行负采样,得到负采样的距离l(u,p)′,将l

在模型训练过程中,训练目标是最小化优化后的交叉熵损失,如公式(14)。

其中,λ为超参数。

实施例

基于具体实施方式的过程进行仿真,通过在Yelp网站中餐厅及旅馆的非平衡公开数据集上的实验验证,如下表1所示,本发明所设计的具有细粒度方面信息约束的多级交互神经网络模型在平均准确率(AP)及AUC均超越现有的优先技术,获得平均5%的提升。证明了本发明设计的模型在虚假评论识别任务中的有效性与可迁移性。

表1实验结果(MIANA为本发明的模型)

本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号