首页> 中国专利> 基于多模态数据及多交互记忆网络的方面级情感分析方法

基于多模态数据及多交互记忆网络的方面级情感分析方法

摘要

本发明公开了基于多模态数据及多交互记忆网络的方面级情感分析方法,本发明中融合了文本和图像这两种不同模态的信息来进行方面级的情感分析,发明包括两个交互式记忆网络,分别对给定方面的文本和图片信息进行建模,不仅学习跨模态数据之间的交互影响,而且还学习单模态数据中的自我影响。交互式记忆网络中使用多个记忆跃点用于多交互注意力的提取并将得到的多交互注意力进行非线性组合以学习全局记忆抽象。本发明提出的基于多模态数据及多交互记忆网络的方面级情感分析方法通过增强单模态数据和跨模态数据的交互影响提升方面级情感分析的准确率,在方面级别的多模态情感分析任务上有了重大突破。

著录项

  • 公开/公告号CN112559683A

    专利类型发明专利

  • 公开/公告日2021-03-26

    原文格式PDF

  • 申请/专利权人 苏州元启创人工智能科技有限公司;

    申请/专利号CN202011440133.2

  • 发明设计人 何慧华;

    申请日2020-12-11

  • 分类号G06F16/33(20190101);G06F16/35(20190101);G06F16/951(20190101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构32103 苏州创元专利商标事务所有限公司;

  • 代理人范晴

  • 地址 215332 江苏省苏州市昆山市花桥经济开发区光明路88号中铁建设大厦11楼

  • 入库时间 2023-06-19 10:24:22

说明书

技术领域

本发明涉及自然语言处理、计算机视觉、深度学习、多模态情感分析领域,具体涉及一种基于多模态数据及多交互记忆网络的方面级情感分析方法。

背景技术

方面级别的情感分析是情感分析领域中的一项基本任务,它在商业、公共管理和社会保障等领域具有许多实际应用。现有的关于方面情感分析的工作大多基于文本模态。随着近年来互联网上多模态用户生成的内容(例如文本和图像)的普及,多模态情感分析已引起越来越多的研究和关注。在方面级别的情感分析任务中,多模态数据通常比纯文本数据更重要。例如,客户将在购买产品之前浏览产品评论,而这些多模态评论更有可能吸引顾客的注意力。在每个淘宝商品条目下,大约有40%的评论同时包含文字和图片,这些多模态评论中的回复和点赞数量比纯文本评论大3倍到4倍,这凸显了分析多模态数据方面级情感的重要性。

对于方面情感分析,图像信息与文本信息一样具有指示性。一方面,在多模态数据中,文本和图像都与方面级情感高度相关。例如,当查看衣服的“上身效果”方面时,客户可能会写下正面的单词并将高质量的照片添加到评论中以表示满意,或者负面的单词和错误图像样本(例如衣服上身后与预期相差太大)以表达他们的不满。此外,不同方面可能与每个模态数据上的不同部分相关。换句话说,客户可以针对不同方面写下不同的单词或附加不同的图像。另一方面,文本和图像信息可以相互补充和互补,以增强对特定方面情感的分析。总而言之,多模态数据中存在各种相关性可用于方面级别的情感分析。然而,到目前为止,在方面级别和多模态情感分析的交叉点上尚未进行任何相关工作。

发明内容

为了应用多模数据融合方法解决方面级情感分析任务,本发明提出了一种基于多模态数据及多交互记忆网络的方面级情感分析方法。

为了达到上述目的,本发明基于多模态数据及多交互记忆网络的方面级情感分析方法通过以下技术方案实现:

一种基于多模态数据及多交互记忆网络的方面级情感分析方法,包含以下步骤:

S1:从淘宝网上爬取衣服类别中的热搜商品的第1页到第100页的带图评论,元数据共计27454条,涵盖132个品牌,1064种商品;

S2:对获取到的元数据进行清洗,筛除不相关的评论,并通过人工标注的方式,将每条元数据对应至少一个至多不超过八个的方面级标签。八个方面级标签包括性价比、面料、版型、外观、质量、颜色、尺寸、上身效果。通过将每个方式与多模态数据匹配可以得到54372个方面-评论样本对。对于每个方面,评论的情感分数都在0到10的整数之间;

S3:构建输入编码层和特征提取层对输入的多模态数据和标签进行编码,并提取其中的文本特征和图像特征;

S4:构建基于多交互注意力机制的记忆网络,其中包括一个文本记忆网络和一个视觉记忆网络,用于学习跨模态数据引起的交互影响以及单模态数据的自我影响;

S5:构建情感分类器从融合了多模态数据的特征向量中获得情感分数;

S6:将数据集按照8:1:1的比例分割成训练集、验证集和测试集,并将构建好的多交互记忆网络在此数据集上进行训练和推理,证明该方法在处理多模态方面级情感分类任务中有良好的表现。

进一步地,所述步骤3中的特征提取过程包括:

S31:使用双向长短期记忆网络(BiLSTM)模型进行方面特征嵌入,给定方面短语A={A

S32:给定一个图像集{I

S33:给定文本内容T={W

进一步地,所述步骤4中的构建基于多交互注意力机制的记忆网络包括:

S41:构建文本记忆网络提取重要的词来表达情感,并用给定方面的表示形式聚合文本记忆,以解决方面对文本带来的影响。它以外部文本记忆矩阵M

S42:构建视觉记忆网络将图像特征与给定方面的表征相结合,以完全捕获方面对图像带来的影响。将视觉记忆M

进一步地,所述步骤S5中的情感分类器构成如下:

经过H次交互式记忆跃点后,提取GRU的最后输出作为最终的文本和视觉特征向量,并将它们连接起来作为softmax层的输入,以预测某个方面的情感得分。

进一步地,步骤S31中,所述最终方面特征向量v

步骤S32中,还堆叠每个隐藏状态

步骤S33中,堆叠隐藏状态

进一步地,所述步骤S4中,通过多层感知器网络将每段文本存储器

接着按照以下方式计算归一化权重:

最后,关注层使用关注权重a

提取视觉特征向量v

进一步地,所述步骤S4中,构建基于多交互注意力机制的记忆网络,对于文本注意力,使用文本和视觉记忆网络得到原始的文本特征向量v

对于视觉注意力,同样结合视觉特征向量v

同时,采用GRU来合并所有交互式注意力记忆结果并将交互式注意力机制与几种记忆跃点进行堆叠,以学习多模态数据的深度抽象;在第t个记忆跃点上,使用我们的多重交互注意机制获得文本和视觉注意特征向量;然后,GRU单元为下一个操作更新新的文本和视觉特征向量。

进一步地,所述步骤S6中,,训练过程中使用Adam优化算法及最小化交叉熵损失函数来训练模型;为了避免过度拟合,采用了Dropout机制;同时,还采用了早停策略,即如果训练损失连续几个时期下降率低于预设值,则停止训练。

本发明的有益效果:

本发明中融合了文本和图像这两种不同模态的信息来进行方面级的情感分析。该发明包括两个交互式记忆网络,分别对给定方面的文本和图片信息进行建模,不仅学习跨模态数据之间的交互影响,而且还学习单模态数据中的自我影响。交互式记忆网络中使用多个记忆跃点用于多交互注意力的提取并将得到的多交互注意力进行非线性组合以学习全局记忆抽象。本发明提出的基于多模态数据及多交互记忆网络的方面级情感分析方法通过增强单模态数据和跨模态数据的交互影响提升方面级情感分析的准确率,在方面级别的多模态情感分析任务上有了重大突破。

附图说明

图1为本发明的基于多模态数据及多交互记忆网络的方面级情感分析方法的流程图;

图2为本发明的基于多模态数据及多交互记忆网络的方面级情感分析方法的网络结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实例中技术方案进行清楚,完整地描述。本发明包括但不仅限于下述实施例。

如图1所示为本发明的基于多模态数据及多交互记忆网络的方面级情感分析方法的整体实施流程图,具体步骤如下:

S1:从淘宝网上自动化爬取衣服类别中的热搜商品的第1页到第100页的带图评论,元数据共计27454条,涵盖132个品牌,1064种商品;

S2:对获取到的元数据进行清洗,筛除不相关的评论,并通过人工标注的方式,将每条元数据对应至少一个至多不超过八个的方面级标签。八个方面级标签包括性价比、面料、版型、外观、质量、颜色、尺寸、上身效果。通过将每个方式与多模态数据匹配可以得到54372个方面-评论样本对。对于每个方面,评论的情感分数都在0到10的整数之间;

S3:构建输入编码层和特征提取层对输入的多模态数据和标签进行编码,并提取其中的文本特征和图像特征;

其中使用双向长短期记忆网络(BiLSTM)模型进行方面特征嵌入,给定方面短语A={A

a

然后我们将所有隐藏表示形式v

给定一个图像集{I

x

堆叠每个隐藏状态

给定文本内容T={W

w

堆叠这些隐藏状态并将它们表示为外部文本存储矩阵M

S4:构建基于多交互注意力机制的记忆网络,其中包括一个文本记忆网络和一个视觉记忆网络,用于学习跨模态数据引起的交互影响以及单模态数据的自我影响;

其中,文本记忆网络提取重要的词来表达情感,并用给定方面的表示形式聚合文本记忆,以解决方面对文本带来的影响。它以外部文本记忆矩阵M

接着按照以下方式计算归一化权重:

最后,关注层使用关注权重a

构建视觉记忆网络将图像特征与给定方面的表征相结合,以完全捕获方面对图像带来的影响。将视觉记忆M

对于多模态数据,文本和视觉信息在情感分析中可以相互补充和互补。为了完全捕获图像和文本之间的双向交互,本发明使用了一种多交互注意力机制。该机制包括跨模态注意和单模态注意。通过这种设计,模型不仅可以学习由跨模态数据引起的交互影响,而且可以学习由单模态数据(即文本到文本及图像到图像)引起的自我影响。

对于文本注意力,使用文本和视觉记忆网络得到原始的文本特征向量v

其中

对于视觉注意力,同样结合视觉特征向量v

同时,采用GRU来合并所有交互式注意力记忆结果并将交互式注意力机制与几种记忆跃点进行堆叠,以学习多模态数据的深度抽象。形式上,在第t个记忆跃点上,使用我们的多重交互注意机制获得文本和视觉注意特征向量。然后,GRU单元为下一个操作更新新的文本和视觉特征向量。

S5:构建情感分类器从融合了多模态数据的特征向量中获得情感分数;

具体的,经过H次交互式记忆跃点后,提取GRU的最后输出作为最终的文本和视觉特征向量,并将它们连接起来作为softmax层的输入,以预测方面的情感得分。

Pred=Softmax(w

整体网络结构如图2所示。

S6:将数据集按照8:1:1的比例分割成训练集、验证集和测试集,并将构建好的多交互记忆网络在此数据集上进行训练和推理,证明该方法在处理多模态方面级情感分类任务中有良好的表现。

具体的,训练过程中使用Adam优化算法及最小化交叉熵损失函数来训练模型。为了避免过度拟合,采用了Dropout机制。同时,本发明还采用了早停策略,即如果训练损失连续几个时期下降率低于预设值,则停止训练。

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员或一般模型爱好者可以无需创造性劳动或者通过软件编程就可以根据本发明的构思在现有技术的基础上通过逻辑分析,推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号