首页> 中国专利> 基于联合域分离表示分层图融合网络的多模态情感分析方法

基于联合域分离表示分层图融合网络的多模态情感分析方法

摘要

本发明提供一种基于联合域分离表示分层图融合网络的多模态情感分析方法,包括以下步骤:S1、建立多模态情感分析框架;S2、对多模态数据(文本、视频、音频)进行手工特征提取;S3、将处理好的数据输入到联合域分离网络中,获取联合域分离表示特征;S4、将各模态的联合域分离表示输入到分层图融合网络(HGFN),以获取可解释的融合表示;S5、融合表示输入预测网络中以进行情感预测;S6、结合网格搜索寻优算法,使用新的联合损失函数训练网络,以获取最优的模型。本发明设计了一种基于多模态联合域分离表示分层图融合神经网络,能够在有效地、可解释地融合各模态的信息,并用于指导情感分析。

著录项

  • 公开/公告号CN113837265A

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利权人 湖南工业大学;

    申请/专利号CN202111106277.9

  • 申请日2021-09-22

  • 分类号G06K9/62(20060101);G06F40/30(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构43224 长沙中海宏图专利代理事务所(普通合伙);

  • 代理人罗霞

  • 地址 412007 湖南省株洲市天元区泰山西路

  • 入库时间 2023-06-19 13:49:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-04-22

    实质审查的生效 IPC(主分类):G06K 9/62 专利申请号:2021111062779 申请日:20210922

    实质审查的生效

说明书

技术领域

本发明涉及基于数据融合的多模态情感分析方法,更具体地,涉及一种基于联合域分离表示分层图融合网络的多模态情感分析方法。

背景技术

作为自然语言处理(NLP)中的一个新兴领域,多模态情感分析(MSA)旨在通过挖掘多模态信号(如语言文本、视频、音频)中的线索来辨别说话者的情绪。相较于单模态情感分析只注重于通过单个情感通道来分析人类情感,MSA可以根据不同的应用场景需求来对不同模态特征进行表示学习。如循环注意力融合模型(MARN)、记忆融合网络(MFN),MSA中大多方法都专注于探究复杂的融合机制。虽然这给MSA的性能带来了提升,但这些融合技术经常受到模态间异构性鸿沟的影响。解决这一问题的常用方法为在表示学习过程中将异构特征投影到共享子空间。此外,希望能够利用模态间的互补信息来实现冗余信息最小化,并且能够建立具有可解释性的模态动力学融合机制来合并不同信息集。因此,本发明主要探究基于多模态表示学习方法和可解释性融合方法的情感分析框架。

发明内容

本发明针对以上问题提供一种基于联合域分离表示分层图融合网络的多模态情感分析方法,旨在探究高级的多模态表示学习方法和可解释性融合策略。

为实现上述目的,本发明采用以下技术方案:

S1、建立多模态情感分析框架;

S2、对多模态数据(文本、视频、音频)进行手工特征提取;

S3、将处理好的数据输入到联合域分离网络中,获取联合域分离表示特征;

S4、将各模态的联合域分离表示输入到分层图融合网络,以获取可解释的融合表示;

S5、融合表示输入预测网络中(Pre)以进行情感预测;

S6、结合网格搜索寻优算法,使用新的联合损失函数训练网络,以获取最优的模型。

进一步的,在步骤S1中多模态情感分析框架包括依次连接的多模态数据手工特征提取模块、联合域分离网络模块、分层图融合网络模块、情感预测网络模块、网络学习模块等五个模块。

进一步的,在步骤S2中手工特征提取模块通过Facet、COVAREP工具包分别提取视频和音频序列的手工特征。

进一步的,在步骤S3中将手工特征输入到联合域分离网络中以获取联合域分离表示,过程如下:(1)将文本、视频、音频手工特征分别输入到BERT模型和两个不同的长短记忆网络(LSTM),获取话语级特征;(2)将三模态的话语级特征输入到不同多层感知机(MLP)中,以获取统一映射表示;(3)将统一表示输入到联合域分离网络中(JDSN),以获取各模态特殊性-不变性表示的联合表示。

进一步的,在步骤S4中将各模态联合表示输入到分层图融合网络进行可解释性融合。

进一步的,在步骤S5中将融合后的特征输入到预测网络以进行情感状态分析。

进一步的,在步骤S6中结合网格搜索算法,利用新的约束正则损失函数对网络进行训练,并保存最优模型。

本发明的有益效果为:建立了多模态情感分析框架;设计了一个新的约束正则损失函数用于指导网络学习相应特征;通过网格搜索算法来获取网络超参数、损失函数权重参数,从而获得最优的模型。最终,经过实验可知本发明相较于经典的多模态情感分析模型具有明显的优势,并且具有融合可解释性。

附图说明

图1为多模态情感分析框架示意图;

图2为图融合网络拓扑图;

图3为网络结构拓扑图;

图4为网络在测试集上的图融合网络可视化光谱图;

图5为网络在测试集上的聚类融合效果T-SNE层次可视化图;

图6为网络在测试集上的相似性损失性能(精度)比较图。

图7为网络在测试集上的相似性损失性能(其他指标)比较图。

具体实施方式

为便于理解本发明,下面给出了本发明较佳的实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义,本文中所使用的所有的技术和科学术语与本发明的技术领域的技术人员通常理解的含义相同。说明书中所使用的术语只是为了描述具体的实施目的,不是旨在于限制本发明。

一种基于联合域分离表示分层图融合网络的多模态情感分析方法:

S1、建立多模态情感分析框架。

如图1所示,多模态情感分析框架包括依次连接的多模态数据手工特征提取模块、联合域分离网络模块、分层图融合网络模块、情感预测网络模块、网络学习模块等五个模块。其中,数据为流行多模态数据集CMU-MOSI、CMU-MOSEI。此外,为了方便利用多模态数据检测视频中的情感,话语数据被分为N个片段S组成的序列,每个片段S包含语言(l)、视觉(v)、听觉(a)等模态的三个低级特征序列。

S2、对多模态数据(文本、视频、音频)进行手工特征提取。

通过Facet、COVAREP工具包分别提取视频和音频序列的手工特征,并使用CMU-Multimodal SDK开发库来将文本、视频、音频的手工特征进行语义对齐。

S3、将处理好的数据输入到联合域分离网络中,获取联合域分离表示特征,其过程如下。

话语级特征表示:

首先,使用双向长短周期记忆神经网络LSTM来映射视觉(v)、听觉(a)模态的特征序列S

其中,

其次,对于语言(l)模态的文本序列S

其中,

特征统一映射表示:

由于底层特征映射表示F

其中,F

联合域分离表示:

在此部分,先将每个模态的统一映射表示通过经扩展的域分离网络(DSN)分解为模态不变性和模态特殊性两个部分。其中,使用共享编码器E

首先,在得到每个模态统一映射向量O

其中,θ

然后,通过神经网络前馈传播生成6个隐层向量

其中,h

S4、将各模态的联合域分离表示输入到分层图融合网络,以获取可解释的融合表示。

如图2所示,该网络是由顶点和边组成的三层网络第一层是单模态动力学层,由三个模态的单模态顶点V

其中,

在第二层,即双模态动力学层中,通过简单的多层神经融合网络:

其中,

对于相似性权重的获取,为了减少算力成本,假设两个信息向量越相似,双模态交互作用就越不重要。因此,对于连接第一层和第二层边的相似性,使用内积来度量第一层中每两个单模态信息向量的相似性。两个信息向量的相似性定义为如下:

其中,

进一步,将连接第一层顶点

其中,

其中,

在第三层,即三模态动力学层中,使用结构与第二层相同的MLF网络(参数不共享)进一步融合每两个双模态顶点,得到3个三模态顶点信息(如M

S5、融合表示输入预测网络中(Pre)以进行情感预测。

分层神经网络的输出表示为三层动力学表示的拼接,定义为:

Prediction=Pre(Z;θ

其中,

S6、利用新的约束正则损失函数对网络进行训练,并保存最优模型。

联合域分离表示部分中的特殊性-不变性以及其他相关特征皆通过损失函数获取,本方法损失函数表示如下:

L

其中,α,β,γ,η是相互作用的权重,它们决定了每个损失L

任务损失:

本任务以预测连续密集变量为目标,故使用均方差损失(MSE)作为网络的任务损失。对于一个批次中的N

其中,y

特殊性损失:

通过在两个表示向量施加软正交约束(Soft orthogonality constraint)可以实现非冗余效果。因此,本发明采用该约束来促使共享编码器E

在训练一个批次数据时,设

其中,

相似性损失:

采用相似性损失(L

设X和Y是有界随机样本,在紧密区间[a,b]

其中C

式中:E(X)为样本X的经验期望向量,C

此外,对于为什么选择CMD,将在后面对相似性损失的选择进行讨论。

重构损失:

当软正交约束被强制执行时,会存在特殊编码器学习琐碎表示的风险。但可以通过添加重构损失的方式来确保编码器能捕获各模态细节,从而解决以上问题。首先,通过模态解码器D

其中,

三元组损失:

在对联合域分离表示向量进行融合表示时,为了保证所有项目之间相似性的高等级关系。本方法通过余弦三元组边界约束损失L

以语言和视觉模态为例,建立一个三元组表示

其中,h

以同样的方式,视觉模态与听觉模态的余弦三重边界损失可以表述如下:

结合公式(20-22),总的余弦三重边界损失表示如下:

实验分析:

数据集:

实验所用数据集为流行多情感分析数据集CMU-MOSI、CMU-MOSEI:

CMU-MOSI数据集:该数据集是YouTube独白的集合,包括了来自不同发言者的93个意见的视频,这些意见视频共分为2199个主观话语-视频片段。这些话语被手动标注了一个介于[-3,3]之间的连续意见分数,其中-3/+3分别表示强烈的消极、积极情绪。实验使用1283个片段样本进行训练,229个片段进行验证,686个片段进行测试。

CMU-MOSEI数据集:MOSI的一个改进版,包含23453个带注释的话语片段,它们来自5000个视频、1000个不同的说话者和250个不同的主题。实验仍然使用1283个片段样本进行训练,229个片段进行验证,686个片段进行测试。

评估指标:

由于本实验为回归任务,因此以平均绝对误差(MAE)和皮尔逊相关系数(Corr)来对测试结果进行度量。此外,在实验时还考虑了分类指标,其中包括情感范围[-2,2]的5分类精度(Acc-5),积极、消极情感(p/g)二分类精度(Acc-2)和F1值(F1-Score)。

实验细节:

所提方法在Pytorch上进行试验,为了找到合适的超参数,在数据验证集上执行超参数的网格搜索,并保存具有最佳效果的模型和超参数。在网格搜索中,设置超参数的有限选项集如下:α∈{0.3,0.4},β∈{0.7,0.8,0.9,1.0},γ∈{0.1,0.2,0.3,0.4,0.5},η∈{0.01,0.1},drop∈{0,0.1,0.2,0.3,0.4},它们对应损失函数权值、随机失活(dropoutrate);对于表示部分和预测网络的隐层大小分从以下范围查看:Hid∈{128,256},P_h∈{50,64}。在迭代优化过程中,采用max epoch=20,batch size=16,学习率为0.0001的Adam优化器训练网络。在表1中给出了各数据集的网格搜索结果,并根据超参数的设置在图3中展示了之前所提到的模型部件结构图。

表1网络超参数

为了验证本发明的优越性、有效性,实验设计了基线模型对比、融合策略研究、损失函数消融研究、相似性损失选择研究等实验,并结合可视化以及定量分析的方法对各个实验进行讨论。

基线模型对比实验:

在对比实验中重现了TFN、LMF、MFN、Gragh-MFN、MARM等经典基线模型,并考虑了基于长短记忆混合网络(LSTHM)的衍生融合模型、性能卓越的MISA模型来和所提框架JDS-HGFN进行了比较研究,结果如表2和表3所示。

表2 MOSI数据集上对基线对比实验

表3 MOSEI数据集上对基线对比实验

由表2、表3可知,模型JDS-HGFN在两个数据(MOSI、MOSEI)下实现了最佳的性能,即在平均绝对误差(MAE)、皮尔逊相关系数(Corr)、精度分数(Acc)等综合指标上超过了基线模型和MISA模型。从以上结果可以看出,所提模型在性能上超过了一些复杂的融合机制(如TFN、MFN、Gragh-MFN)。这可能是因为这些方法忽略了探索模态不变空间,而JDS-HGFN通过联合域分离表示方法在融合前学习到了同时具有模态不变-特殊性的联合表示特征。

对于本发明使用BERT预训练模型来代替Glove方法来对语言模态话语级特征进行提取的原因。从表2和表3的结果中可以观察到,使用BERT的模型(JDS-HGF,MISA)相较于基于Glove词嵌入方法的基线模型、LSTHM衍生融合模型在各项评估指标上有显著提升。这证明了采用BERT方法是合理的。此外,对比同样采用BERT的MISA模型,所提模型依旧具有略微优势,这可能是由融合策略所致。为了进一步讨论所提模型的融合策略的有效性,将在后面进行了融合策略的比较实验。

融合策略实验:

为了证明所提融合策略的优越性,在MOSI数据集上设计了融合对比实验。在实验中保持联合域分离表示部分不变,将融合部件分别更为换为多倍注意融合(MultiAttention Fusion)、向量拼接融合(Concate)和动态融合图(DFN)等融合策略,得出结果如表4所示。

表4融合策略对比实验

从表4的结果推断出,HGFN相比于其他融合方法有显著的性能改进。对于获得以上结果,这是因为HGFN不但明确地对单模态、双模态、三模态层进行动态建模,而且还通过各模态层拼接的方式更全面地获取三模态融合表示。此外,为了验证图融合网络的可解释性,实验对融合过程权重变化进行了可视化。

如图4所示,每行表示迭代次序,每列代表动力学层中的交互顶点。观察纵轴可知,不同话语片段样本对相同模态交互顶点的贡献几乎没变,这是由于在融合之前,模态数据受到了域分离表示学习之中相似性约束的影响,使各个样本表示之间的差异波动性减少。观察横轴,对于单模态顶点权值(前3列),可以明显地发现语言模态对于预测结果贡献最多,这是因为语言文本通常是MSA中最重要的信息。对于双模态顶点权值(第4列-第6列),权值α

通过以上的分析可以得出结论:可解释的、全面的、层次化的融合策略是JDS-HGFN性能提高的关键因素。

由于损失函数对联合域分离表示的实现起着至关重要的作用。因此,实验通过消融研究并结合可视化、定量分析来对损失函数进行分析讨论。

消融研究:

在消融研究中分别将基本任务损失L

如图5所示,红色的点代表积极情绪,蓝色的点代表消极情绪。可以观察到在不同损失函数训练下,测试数据融合表示的T-SNE图会展现出不同的分布特征。其中,所有组件损失都存在的时候,模型具有最好的语义聚类效果;当重构损失L

表5消融研究实验

如表5所示,模型在涉及到所有损失时模型达到最好性能,这意味着发明所设计的每个组件损失是有效的。仔细观察,可以发现模型对于L

相似性损失实验:

在实验中将领域对抗损失(DANN)、最大均方度量(MMD)、中心距偏差度量(CMD)及其联合形式分别用于网络训练测试,结果如图6、7所示。由图的前三列可以观察到,在单一形式中CMD的性能在各项指标上优于MMD和DANN。将原因归纳为以下两点:(i)CMD可以直接执行高阶矩的精确匹配而不需要昂贵的距离和核矩阵计算。(ii)相较于CMD,DANN通过鉴别器与共享编码器进行极小极大博弈时获取模态相似性,但对抗性训练会增加鉴别器的额外参数以及可能在训练时遇到波动等问题。此外,观察联合形式(后三列),虽然具有CMD项的相似性损失的效果优于没有CMD项的损失,但是却劣于单一的CMD损失。这表明在进行度量计算时增加运算成本会导致网络学习效率降低,也进一步验证了选用CMD作为相似性损失的合理性。

本发明所述的实施例仅仅是对本发明的优选实施方式进行的描述,并非对本发明构思和范围进行限定,在不脱离本发明设计思想的前提下,本领域中技术人员对本发明的技术方案作出的各种变型和改进,均应落入本发明的保护范围,本发明请求保护的技术内容,已经全部记载在权利要求书中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号