首页> 中国专利> 一种基于迁移学习和特征融合的虚假评论检测方法

一种基于迁移学习和特征融合的虚假评论检测方法

摘要

一种基于迁移学习和特征融合的虚假评论检测方法,属于数据分析技术领域,包括:获取评论数据集中评论文本的语义特征和情感特征;将评论文本的语义特征与情感特征进行拼接,获取评论特征;将评论特征输入原型网络,获取评论分类的原型表示;获取主题文本的语义特征;将评论分类的原型表示与主题文本的语义特征输入MLP多层感知机中进行检测;MLP多层感知机输出检测结果;通过提取评论数据集中评论文本的语义特征和情感特征,并通过将语义特征与情感特征进行拼接融合,获取评论特征,进而利用原型网络获取评论分类的原型表示,将评论分类的原型表示与获取的主题文本的语义特征输入MLP多层感知机中进行检测,避免了利用单一因素进行检测。

著录项

  • 公开/公告号CN115982643A

    专利类型发明专利

  • 公开/公告日2023-04-18

    原文格式PDF

  • 申请/专利权人 浙江中烟工业有限责任公司;

    申请/专利号CN202310046988.4

  • 发明设计人 金泳;楼卫东;高扬华;

    申请日2023-01-31

  • 分类号G06F18/241;G06F40/30;G06F18/25;G06F40/253;G06N3/0464;G06N3/096;

  • 代理机构南京纵横知识产权代理有限公司;

  • 代理人董建林

  • 地址 310008 浙江省杭州市中山南路77号

  • 入库时间 2023-06-19 19:30:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-05

    实质审查的生效 IPC(主分类):G06F18/241 专利申请号:2023100469884 申请日:20230131

    实质审查的生效

说明书

技术领域

本发明涉及一种基于迁移学习和特征融合的虚假评论检测方法,属于数据分析技术领域。

背景技术

信息化时代,在线评论影响着人们日常行为的方方面面。从在线购物到职业选择,人们依赖于前人的经验进行判断。新的社交媒体技术促进了信息共享的同时,也使错误信息可以通过在线媒体迅速传播,这意味着社交媒体平台可能会受到操纵。许多不法商家或个人故意发布虚假评论牟利,严重干扰了消费者的正常判断,破坏了公平的市场竞争。社交机器人(自动社交媒体帐户)可以通过推荐功能来扩大假新闻的传播。这些虚假评论混杂于真实的评论间,并不断模仿其语法和措辞,使虚假评论越来越真实,使得虚假评论检测越来越困难。

现实中评论的影响因素较多,只利用评论内容本身的语言特征来判断评论的真实性,忽略了评论的其他属性信息,这就会导致虚假评论的识别准确率低、系统鲁棒性差的问题。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域普通技术人员所公知的现有技术。

发明内容

本发明的目的在于克服现有技术中的不足,提供一种基于迁移学习和特征融合的虚假评论检测方法,解决了当前虚假评论的识别准确率低、系统鲁棒性差的问题。

为达到上述目的/为解决上述技术问题,本发明是采用下述技术方案实现的:

一种基于迁移学习和特征融合的虚假评论检测方法,包括:

获取评论数据集中评论文本的语义特征和情感特征;

将评论文本的语义特征与情感特征进行拼接,获取评论特征;

将评论特征输入原型网络,获取评论分类的原型表示;

获取主题文本的语义特征;

将评论分类的原型表示与主题文本的语义特征输入MLP多层感知机中进行检测;

MLP多层感知机输出检测结果。

可选地,所述获取评论数据集中评论文本的语义特征的方法具体包括:

在BERT预训练模型中加载tokenizer;

Tokenizer对评论文本的开始和结尾添加[CLS]和[SEP]标记;

构建BertModel,在BertModel后添加一个全连接层;

将评论文本输入至BertModel,得到评论文本的语义特征向量。

可选地,所述获取评论数据集中评论文本的情感特征的方法具体包括:

构建SKEP情感特征提取器;

将评论文本输入至SKEP情感特征提取器中,获取评论文本的情感特征向量。

进一步地,所述构建SKEP情感特征提取器的方法具体包括:

将paddlenlp的内置数据集ChnSentiCorp加载至内存中;

加载paddlenlp中的SkepTokenizer模块,将ChnSentiCorp中文本字符串数据转换为字典id;

根据加载至内存的数据构造DataLoader,DataLoader以batch的形式对数据进行划分;

将已划分好的数据输入SKEP模型中,SKEP模型的语义理解框架对文本的每个token进行编码,并产生对应的向量序列;

定义train函数训练SKEP模型。

进一步地,所述获取评论特征的计算公式为:

其中,X

进一步地,所述获取评论分类的原型表示的方法具体包括:

获取情感分类标签;

构建包含评论特征和情感分类标签的分类数据集;

将分类数据集输入原型网络中计算评论分类的原型表示。

进一步地,所述情感分类标签为CLS位置对应的输出向量。

进一步地,所述原型网络的计算公式为:

其中,t为情感分类标签;Z

进一步地,所述MLP多层感知机的检测方法具体包括:

获取主题文本的编码表示

获取主题文本的编码表示

获取主题文本为不同原型表示的概率;

选取与主题文本的编码表示

进一步地,计算主题文本为不同原型表示概率的公式为:

其中,c为分类的类别个数;y

与现有技术相比,本发明所达到的有益效果:

本发明通过提取评论数据集中评论文本的语义特征和情感特征,并通过将语义特征与情感特征进行拼接融合,获取评论特征,进而利用原型网络获取评论分类的原型表示,通过将评论分类的原型表示与获取的主题文本的语义特征输入MLP多层感知机中进行检测,避免了利用单一因素进行检测,提高了检测的准确性,解决了当前虚假评论的识别准确率低、系统鲁棒性差的问题。

附图说明

图1是本发明实施例提供的一种基于迁移学习和特征融合的虚假评论检测方法的流程图;

图2是本发明实施例提供的一种基于迁移学习和特征融合的虚假评论检测方法的BERT模型语义特征提取的示意图;

图3是本发明实施例提供的一种基于迁移学习和特征融合的虚假评论检测方法的SKEP模型框架的示意图;

图4是本发明实施例提供的一种基于迁移学习和特征融合的虚假评论检测方法的MLP框架的示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

实施例

如图1所示,一种基于迁移学习和特征融合的虚假评论检测方法,包括:

获取评论数据集中评论文本的语义特征和情感特征;

如图2所示,具体的,在BERT预训练模型中加载tokenizer;

Tokenizer对评论文本的开始和结尾添加[CLS]和[SEP]标记;

构建BertModel,在BertModel后添加一个全连接层,调整输出feature的维度;

将评论文本输入至BertModel后获得输出output,输出output的第0维信息为语义特征,即评论文本的语义特征向量;

构建SKEP情感特征提取器;

如图3所示,具体的,将paddlenlp的内置数据集ChnSentiCorp加载至内存中;

加载paddlenlp中的SkepTokenizer模块,将ChnSentiCorp中的文本字符串数据转换为字典id;

根据加载至内存的数据构造DataLoader,DataLoader以batch的形式对数据进行划分;

将已划分好的数据输入SKEP模型中,SKEP模型的语义理解框架对文本的每个token进行编码,并产生对应的向量序列;由于Tokenizer在评论文本的开始和结尾添加[CLS]和[SEP]标记,CLS位置对应的输出向量能够代表语句的完整语义,所以将利用该向量进行情感分类;

定义SKEP模型训练时的环境,包括:配置训练参数、配置模型参数,定义模型的实例化对象,指定模型训练迭代的优化算法等;定义train函数训练SKEP模型,在训练过程中,每隔log_steps步打印一次日志,以观测模型训练效果。

将评论文本输入至SKEP情感特征提取器中,获取评论文本的情感特征向量;具体的,任意输入一串带有情感的文本串,如:“这款卷烟味道很好,包装精致,价格公道”,期望能够输出这段文本描述中所蕴含的情感类别,进行情感特征提取;

将评论文本的语义特征与情感特征进行拼接,获取评论特征,评论特征的计算公式为:

其中,X

通过拼接层实现评论文本的语义特征和情感特征的融合特征,通过融合语义和情感特征有效提高评论文本相似度;

将评论特征输入原型网络,获取评论分类的原型表示;具体的:

获取情感分类标签,情感分类标签为CLS位置对应的输出向量;

构建包含评论特征和情感分类标签的分类数据集,其内部的样本的表示形式为{(z

将分类数据集输入原型网络中计算评论分类的原型表示,原型网络的计算公式为:

其中,t为情感分类标签;Z

获取主题文本的语义特征;

将评论分类的原型表示与主题文本的语义特征输入MLP多层感知机中进行检测;

如图4所示,多层感知机(MLP:Multi-Layer Perceptron)由感知机(PLA:Perceptron Learning Algorithm)推广而来。它最主要的特点是有多个神经元层,因此也叫深度神经网络。MLP由PLA叠加而来,当PLA加深到很多层的时,就得到了一个MLP。神经网络层可以分为输入层,隐藏层和输出层三层。一般来说第一层是输入层,最后一层是输出层,而中间的都是隐藏层,且层与层之间是全连接的,从每一个局部来看,都是一个线性模型加上一个激活函数;

具体的,获取主题文本的编码表示

获取主题文本的编码表示

获取主题文本为不同原型表示的概率,具体的,计算主题文本为不同原型表示概率的公式为:

其中,c为分类的类别个数;y

选取与主题文本的编码表示

MLP多层感知机输出检测结果。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号