首页> 中国专利> 一种基于自适应互信息和层次化Transformer的多模态情感分析方法

一种基于自适应互信息和层次化Transformer的多模态情感分析方法

摘要

本发明公开了一种基于自适应互信息和层次化Transformer的多模态情感分析方法。本发明采用自适应互信息和层次化Transformer提高多种模态非对齐数据的特征融合效果,进而进行精准的情感分析,具体包括多模态数据特征抽取、模态增强和情感预测等模块。其中,模态增强模块包括自适应互信息、层次化Transformer以及自适应互信息和层次化Transformer联合增强模态融合,三个子模块可以获取成对模态数据最大化的互信息以及解决跨模态数据不对齐的问题。本发明能够有效提高多模态非对齐数据特征的融合效果,是一种可行的具有鲁棒性的多模态情感分析方法。本发明可用于人工智能、计算机视觉、机器人与人机交互技术等领域。

著录项

  • 公开/公告号CN116910694A

    专利类型发明专利

  • 公开/公告日2023-10-20

    原文格式PDF

  • 申请/专利权人 台州学院;

    申请/专利号CN202311006797.1

  • 发明设计人 王丹丹;向天炯;张石清;

    申请日2023-08-11

  • 分类号G06F18/25(2023.01);G06V40/16(2022.01);G06V20/40(2022.01);G06V10/82(2022.01);G10L25/03(2013.01);G10L25/30(2013.01);G10L25/63(2013.01);G06F40/20(2020.01);G06N3/0455(2023.01);G06N3/0442(2023.01);G06N3/0464(2023.01);

  • 代理机构

  • 代理人

  • 地址 318000 浙江省台州市椒江区市府大道1139号

  • 入库时间 2024-04-18 19:48:15

说明书

技术领域

本发明涉及文本、视频和音频等多模态数据分析、处理与识别技术领域,具体领域为一种基于自适应互信息和层次化Transformer的多模态情感分析方法。

背景技术

情感在日常的人际交往中起着至关重要的作用。多模态情感分析作为一种智能情感分析技术,可以从多种输入信号(例如,语音、文本、视频等)中识别和检测人类的情绪状态,弥补人类和计算机之间通信之间的差距。

多模态情感分析的关键步骤是多模态融合,其目的是弥补多种输入模态数据之间的异质性差距,并为下游任务提取跨模态的统一特征表示。然而,如何有效地融合不同模态的情感特征仍是一个未能有效解决的问题,这可能是因为不同模态的输入数据既不是绝对独立的,也不是绝对相关的,导致捕获跨模态统一特征表示具有极大的挑战。

尽管目前采用各种简单连接特征的融合机制在学习统一特征表示时获得了显著的效果(见专利:宋彦,张勇东,陈伟东等.一种基于变分跨模态表征的实时弹幕情感分析方法-申请号/专利号:CN202310574093.8),但是不同模态之间的相互作用仍在很大程度上未得到充分的探索。此外,不同模态序列数据由于采样率不同通常是异步的,在实际场景中收集到的多模态序列数据往往表现出固有的非对齐特征。例如,一个描述快乐面部表情的视频可能与过去谈论的一个积极的单词或短语密切相关。因此,不同模态数据之间的异步性以及非对齐数据特征无疑增加了多模态高效融合的挑战性。为了解决这一问题,最近的研究工作提出了基于非对齐模态数据的融合方法。例如,Lv等人基于跨模态Transformer开发了一种渐进模态强化方法(Fengmao Lv, Xiang Chen, Yanyong Huang, et al.2021.Progressive modality reinforcement for human multimodal emotionrecognition from unaligned multimodal sequences. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). (June2021),2554–2562.)。基于Transformer的方法可以处理异步序列数据,学习不同模态之间的长期依赖关系。然而,目前基于Transformer的研究要么集中在粗糙的全局交互作用上,要么忽略了成对模态之间的交互作用,导致跨模态相关性的学习出现模糊或者不可靠的分析结果。

互信息由于可以测量成对多维变量之间依赖性,因此有望在探索情绪信息方面具有良好的表现。然而,目前基于互信息计算的方法在多模态情感分析方面的研究并不充分,缺乏基于特定任务的研究。

发明内容

针对现有技术和研究内容存在的不足,本发明的目的在于通过整合跨模态Transformer和互信息技术,设计出一种能够联合学习模态间相关性的情感分析模型,采用基于自适应互信息和层次化Transformer的模态增强方法解决多模态情感分析中非对齐序列数据难以有效融合的问题。为实现上述目的,本发明提供如下技术方案:一种基于自适应互信息和层次化Transformer的多模态情感分析方法,该方法包括3个步骤,即多模态数据特征抽取、模态增强和情感预测。

1.多模态数据特征抽取

基于自适应互信息和层次化Transformer的多模态情感分析方法首先将不同模态的原始输入数据分别处理成具有不同特征提取器的向量。对于视频,采用FACET OpenFace从视频剪辑中提取序列特征;对于音频模态数据,采用COVAREP和P2FA从音频剪辑中提取序列特征。提取出的特征随后分别通过V-LSTM模型和A-LSTM模型将视频和音频剪辑中提取的特征编码为单位长度的向量H

其中,

自适应互信息:是本发明提出的一种自动学习不同模态间最大化互信息的方法。

Transformer:是一种神经网络模型,从上下文学习序列数据的关系。

层次化Transformer:是本发明提出的一种模态对齐技术,旨在从跨模态非对齐数据中保留模态一致性的特征。

FACET OpenFace:是一种面部行为识别工具,实现了最先进的面部行为分析算法,包括:人脸特征点检测、头部姿态跟踪、眼睛视线和面部动作估计等。

COVAREP: 是一个处理语音技术的算法库,可以提供最新语音快速处理算法。

P2FA:是宾西法尼亚大学研发的强制对齐标注软件。

V-LSTM:是基于视频的长短期记忆模型。

A-LSTM:是基于语音的长短期记忆模型。

Pre-trained BERT:是一种预训练的多层双向编码Transformer模型,可以学习到输入文本的向量表示。

H

2.模态增强

为了加强模态间的同质性进而弥补不同模态间的异质性差距,在模态增强阶段采用自适应互信息最大化H

 (1)自适应互信息

模态增强阶段的任务是自适应地将成对模态之间的互信息最大化。由于序列数据的真实分布未知,自适应互信息采用了一种互信息估计器的参数化估计方法MINE,基于KL散度估计互信息。对于2个随机向量x,y,其边际分布为p(x),p(y),联合分布为p(x, y),x和y的互信息的可以如下定义:

其中,θ是神经网络的参数,E是数学期望,T是一组带有参数的函数,sup是最小上界,D

由于异质模态间分布不一致的特点,结合MINE参数估计方法,x、y的联合分布与其边际分布的差异不相同。因此,可以得到如下两部分的互信息:

以上两部分的互信息值的不同组合方式对预测结果有显著影响。为了改进各种多模态融合任务,最大限度地保持模态一致性,本发明采用自适应互信息估计器,自适应地调整以上两部分的互信息值,计算方法如(式4)所示,其中α

模态增强的任务是最大化MI

其中,L(MI,λ)是关于互信息的参数λ的拉格朗日表达式,

自适应互信息的损失函数L

(2)层次化Transformer

层次化Transformer网络包括两个跨模态Transformer和一个单层Transformer。跨模态Transformer能够有效地解决跨模态数据不对齐的问题。因此,自适应互信息情感分析方法可以基于跨模态Transformer的优势构建一个保留模态对齐特征的跨模态特征。跨模态Transformer是一种基于跨模态多注意力机制 (CMHA)的多模态Transformer,β和γ两种模态的CMHA输出可以表示为:

其中,

在(式14)中,CrossTrans是跨模态Transfomer模型,FFN表示前馈子层,经过FFN后分别得到文本与视频的特征C

其中,k为卷积核大小,

(3)自适应互信息与层次化Transformer联合增强模态融合

为了构建一个全面和健壮的多模态表征,同时满足模态一致性和模态对齐,本发明采用一种处理多模态特征的新方法,具体步骤如下。

第一步:H

第二步:通过一个互补的强化网络获得目标特征Z。自适应互信息情感分析方法将自适应互信息训练的特征

第三步:将

3.情感预测

本发明采用多层感知机(MLP)进行情感预测,

L

其中,N为一次训练的数据量大小,y

本发明与现有技术相比的有益效果是:

为了联合学习多个模态数据之间的相关性,提出了一种基于自适应互信息和层次化Transformer的模态增强方法,本发明方法可以同时考虑模态一致性和模态对齐问题。

为了解决多种模态非对齐数据难以融合的问题,提出了一种自适应互信息技术,本发明方法可以自适应地最大化不同模态间的互信息,从而产生一个保持模态一致性的单模态特征。同时,本发明方法将层次化Transformer设计为一个保持模态对齐的跨模态特征,解决了不同模态数据非对齐的问题。

本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂,通过本申请的实施例对本申请进行详尽说明和了解。

附图说明

图1为本发明的方法模型总体框图。

图2为在CMU-MOSI数据集上不同算法效果的比较。

图3为本发明在CMU-MOSI数据集最佳效果的参数设置。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。所描述的实施例仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明提供一种技术方案:一种基于自适应互信息和层次化Transformer的多模态情感分析方法,所采用的技术方案包括多模态数据特征抽取、模态增强和情感预测。

1.多模态数据特征抽取

基于自适应互信息和层次化Transformer的多模态情感分析方法首先将视频、音频和文本的原始数据分别处理成具有不同特征提取器的向量。本发明方法的实施例采用CMU-MOSI数据集的视频、音频以及文本数据进行实验。对于视频和音频模态数据,分别采用FACET OpenFace和COVAREP P2FA 从视频和音频剪辑中提取序列特征。提取出的特征随后通过V-LSTM模型得到64维的向量H

CMU-MOSI数据集:是一种多模态情感语料库,情感得分从低到高为[-3,3],得分越高情感越积极(Amir Zadeh, Rowan Zellers, Eli Pincus, et al. 2016. Multimodalsentiment intensity analysis in videos: facial gestures and verbal messages.IEEE Intelligent Systems, 31, 6, 82–88.)。

2.模态增强

为了加强模态间的同质性进而弥补不同模态间的异质性差距,在模态增强阶段采用自适应互信息最大化H

(1)自适应互信息

模态增强阶段的任务是自适应地将成对模态之间的互信息最大化。由于序列数据的真实分布未知,自适应互信息采用了一种互信息估计器的参数化估计方法MINE,基于KL散度估计互信息。对于2个随机向量x,y,其边际分布为p(x),p(y),联合分布为p(x, y),x和y的互信息的可以如下定义:

其中,θ是神经网络的参数,E是数学期望,T是一组带有参数的函数,sup是最小上界,D

由于异质模态间分布不一致的特点,结合MINE参数估计方法,x、y的联合分布与其边际分布的差异不相同。因此,可以得到如下两部分的互信息:

以上两部分的互信息值的不同组合方式对预测结果有显著影响。为了改进各种多模态融合任务,最大限度地保持模态一致性,本发明采用自适应互信息估计器,自适应地调整以上两部分的互信息值,计算方法如(式4)所示,其中α

模态增强的任务是最大化MI

其中,L(MI,λ)是关于互信息的参数λ的拉格朗日表达式,

自适应互信息的损失函数L

跨模态Transformer网络:指基于不同模态数据的Transformer模型。

 (2)层次化Transformer

层次化Transformer网络包括两个跨模态Transformer和一个单层Transformer。跨模态Transformer能够有效地解决跨模态数据不对齐的问题。因此,自适应互信息情感分析方法可以基于跨模态Transformer的优势构建一个保留模态对齐特征的跨模态特征。跨模态Transformer是一种基于跨模态多注意力机制 (CMHA)的多模态Transformer,β和γ两种模态的CMHA输出可以表示为:

其中,

在(式14)中,CrossTrans是跨模态Transfomer模型,FFN表示前馈子层,经过FFN后分别得到文本与视频的特征C

其中,k为卷积核大小,

(3)自适应互信息与层次化Transformer联合增强模态融合

为了构建一个全面和健壮的多模态表征,同时满足模态一致性和模态对齐,本发明采用了一种处理多模态特征的新方法,具体步骤如下。

第一步:H

第二步:通过一个互补的强化网络获得目标特征Z。自适应互信息情感分析方法将自适应互信息训练的特征

第三步:将

3.情感预测

本发明采用多层感知机(MLP)进行情感预测,

L

其中,N为一次训练的数据量大小,y

结合图2,本发明方法在多模态情感分析常用数据集CMU-MOSI上与MulT、MISA、MAG-BERT 、Self-MM、MMIM、MMCL、TFN和LMF等算法相比较,在平均绝对误差(MAE)、皮尔逊相关系数(Corr)、2分类的准确性(Acc-2)、7分类的准确性(Acc-7)以及F1等指标上获得了优越的性能和良好的表现。在CMU-MOSI数据集上,本发明方法超越了所有与之相对比的算法。值得注意的是,本发明方法不仅在非对齐的状态下获得了最好的表现,甚至超越了对齐情况下的所有对比算法的表现。由此可见,本发明方法不仅能够有效解决多模态数据非对齐情况下的无法有效融合的问题,并且取得了比其他深度学习最先进算法更高的准确性。

MulT:是一种基于Transformer的架构,在此基础上增加了新的组件可以处理不同模态的信息融合和可变长度输入数据的技术(Yao-Hung Hubert Tsai, Shaojie Bai,Paul Pu Liang, et al. 2019. Multimodal transformer for unaligned multimodallanguage sequences. In Proceedings of the conference. Association forComputational Linguistics. Meeting. Vol. 2019. NIH Public Access,6558.)。

MISA:是一种对齐的情感分析方法,可以从每个模态中提取不同的特征,然后从一个共享的潜在空间中重建所有的模态特征(Devamanyu Hazarika, Roger Zimmermann,and Soujanya Poria. 2020. Misa: modality-invariant and-specificrepresentations for multimodal sentiment analysis. In Proceedings of the 28thACM International Conference on Multimedia,1122–1131.)。

MAG-BERT:是一种对齐的情感分析方法,采用了注意力机制允许模型在每一步关注相关的模态信息(Wasifur Rahman, Md Kamrul Hasan, Sangwu Lee, et al. 2020.Integrating multimodal information in large pretrained transformers. InProceedings of the conference. Association for Computational Linguistics.Meeting. Vol. 2020. NIH Public Access, 2359.)。

Self-MM:该算法采用多模态标签并以自监督的方式为情感分析任务生成单模态标签(Wenmeng Yu, Hua Xu, Ziqi Yuan, et al. 2021. Learning modalityspecificrepresentations with self-supervised multi-task learning for multimodalsentiment analysis. In Proceedings of the AAAI conference on artificialintelligence number 12. Vol. 35, 10790–10797.)。

MMIM:多模态互信息最大化算法,该算法通过计算模态间特征、单模态特征和融合特征之间的互信息来提高任务性能(Wei Han, Hui Chen, and Soujanya Poria. 2021.Improving multimodal fusion with hierarchical mutual information maximizationfor multimodal sentiment analysis. arXiv preprint arXiv:2109.00412.)。

MMCL:多模态对比学习算法,该算法利用实例和基于情绪的对比学习引导模型更多地关注与任务相关的信息(Ronghao Lin and Haifeng Hu. 2022. Multimodalcontrastive learning via unimodal coding and cross-modal prediction formultimodal sentiment analysis. arXiv preprint arXiv:2210.14556.)。

TFN:是一种非对齐算法,该算法对每个模态使用不同的网络提取特征,然后使用张量融合网络对特征进行融合,得到联合特征表示(Amir Zadeh, Minghai Chen,Soujanya Poria, et al. 2017. Tensor fusion network for multimodal sentimentanalysis. arXiv preprint arXiv:1707.07250.)。

LMF:是一种低秩多模态融合算法,该算法利用低秩分解与特定因子融合多模态特征(Yao-Hung Hubert Tsai, Paul Pu Liang, Amir Zadeh, et al. 2018. Learningfactorized multimodal representations. arXiv preprint arXiv:1806.06176)。

图3给出了CMU-MOSI数据集上本发明最优性能的参数设置,包括实验数据批量大小、学习率、视频以及语音LSTM模型的隐层维度和输出维度、自适应互信息隐层维度和权重系数。

以上实施例仅表达了本申请的实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号