首页> 中国专利> 基于多模态数据融合的学习投入状态监测方法

基于多模态数据融合的学习投入状态监测方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本申请公开了一种基于多模态数据融合的学习投入状态监测方法及计算机设备，该方法包括：获取被监测主体的音频信息及皮电、肌电生理数据；将所述音频信息输入训练好的语音情绪识别模型中，获得第一情感标识；将所述皮电、肌电生理数据输入训练好的生理情绪识别模型中，获得第一情感标识；根据所述第一情感标识、第二情感标识以及预设的阈值条件，对被监测主体的学习投入状态进行分类，获得分类结果。本发明使用肌电、皮电生理信息，结合音频信息进行情绪状态分类，使得最后的情感状态分析更加真实准确；分析结果可作为衡量课堂中学生对教学内容的反馈以及积极性的重要依据。

著录项

公开/公告号CN115688051A

专利类型发明专利
公开/公告日2023-02-03

原文格式PDF
申请/专利权人武汉东湖学院;
展开▼

申请/专利号CN202211402111.6
发明设计人赵莉;刘婷婷;刘海;时俊雅;陈红;李佳雯;
展开▼

申请日2022-11-10
分类号G06F18/25;G06N3/0499;G06N3/048;G06N3/0464;G06N3/047;G06N3/08;G06Q50/20;A61B5/00;A61B5/0533;A61B5/16;A61B5/397;
代理机构长沙正务联合知识产权代理事务所(普通合伙);
代理人郑隽
地址 430212 湖北省武汉市江夏区文化大道301号
入库时间 2023-06-19 18:30:43

法律信息

法律状态公告日

法律状态信息

法律状态
2023-02-03

公开

发明专利申请公布

说明书

技术领域

本申请涉及情感识别与教育信息化技术领域，更具体地，涉及一种基于多模态数据融合的学习投入状态监测方法及计算机设备。

背景技术

随着教育环境的不断优化，教学环境由从前的黑板课桌逐步发展成多媒体教室，这种良好的环境不仅可以让学生充分享受学习资源也可以帮助老师在授学过程中得到许多便利。为响应国家教育部“以人为本，因材施教”的号召，越来越多的高校将教学环境设置在多媒体教室，并增设了小组讨论环节，让学生们积极发表自己的所想并在讨论中自主发现学习更多的知识。为了清楚不同学生的学习情况，教师利用多媒体教室功能的多样性在学生讨论时通过捕获的语音片段进行情绪识别进而判断学生学习状态。虽然在学生学习效果评判进行了语音情绪识别，但是在学习效果评判系统中无论是准确性还是体系规范性难以取得理想效果。

情感是学生对课堂内容投入程度的一个重要表现形式，通过分析学生在上课的小组讨论中的情绪状态进而可以发现学生对教学内容的理解程度这一隐性细节。在科技发展下，越来越多人佩戴运动手表，因此可以通过蓝牙数据传输获得学生的生理信息这一内隐行为，学生在小组讨论时，学生可能会产生激动、疑惑、中性与疲惫等情绪，在不同的情绪下，皮电、肌电信号会有不同的特点。然而，目前的学习效果评判系统中，单纯的语音或表情识别可能存在隐匿情况而导致分析准确性不高，这是亟需解决的问题。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种基于多模态数据融合的学习投入状态监测方法及计算机设备，其目的在于提高情绪识别的准确性，从而为学习投入状态分类提供准确依据。

为实现上述目的，按照本发明的第一个方面，提供了一种学习投入状态监测方法，其包括：

获取被监测主体的音频信息及皮电、肌电生理数据；

将所述音频信息输入训练好的语音情绪识别模型中，获得第一情感标识；

将所述皮电、肌电生理数据输入训练好的生理情绪识别模型中，获得第一情感标识；

根据所述第一情感标识、第二情感标识以及预设的阈值条件，对被监测主体的学习投入状态进行分类，获得分类结果。

进一步地，上述学习投入状态监测方法中，所述将音频信息输入训练好的语音情绪识别模型中，获得第一情感标识；包括：

对所述音频信息进行转录并提取语言表示，对所述语言表示进行线性变换，得到音频信息对应的语义嵌入；

将所述音频信息转换为频谱图并进行特征提取，获得有效特征向量；

对所述有效特征向量进行多维特征转换和聚合，得到声学特征序列；

将所述语义嵌入与声学特征序列进行融合，获得聚合特征；基于所述聚合特征预测得到被监测主体的第一情感标识。

进一步地，上述学习投入状态监测方法中，采用Sigmoid激活的简单门通机制将语义嵌入与声学特征序列进行融合，获得聚合特征。

进一步地，上述学习投入状态监测方法中，所述将皮电、肌电生理数据输入训练好的生理情绪识别模型中，获得第一情感标识，包括：

分别对皮电、肌电生理数据进行特征提取，获得各自对应的归一化表示；

将皮电、肌电生理数据对应的所述归一化表示进行加权求和，基于求和结果以及皮电、肌电生理数据各自的重要性权重分别计算皮电、肌电生理数据对应的全局特征表示；

将皮电、肌电生理数据对应的全局特征表示进行融合，得到融合向量；

基于所述融合向量预测得到被监测主体的第二情感标识。

进一步地，上述学习投入状态监测方法还包括：

将皮电、肌电生理数据对应的所述归一化表示转换为以时间帧和通道数表征的二维数组；

将两个所述二维数组对齐并进行加权求和。

进一步地，上述学习投入状态监测方法中，所述将皮电、肌电生理数据对应的全局特征表示进行融合，得到融合向量，包括：

获取一组投影矩阵，将每个所述投影矩阵分解为两个秩矩阵；

将每个所述秩矩阵表示为二维矩阵，并与皮电、肌电生理数据对应的全局特征表示择一进行配对，生成两个融合矩阵；

将两个所述融合矩阵作向量相乘，经池化后得到最终的融合向量。

进一步地，上述学习投入状态监测方法中还包括：

将所述音频信息进行转录，生成文本数据；

对所述文本数据进行关键词提取，得到关键词标签；

将所述关键词标签与预置的标准语句进行比对，计算两者的重合率；

根据所述重合率、第一情感标识、第二情感标识以及预设的阈值条件，对被监测主体的学习状态进行分类，获得分类结果。

进一步地，上述学习投入状态监测方法中，所述语音情绪识别模型包括文本嵌入模块、特征提取模块、交叉激励模块、池化层和全连接层；

所述特征提取模块包括多个堆叠的CMT-S模块，每个所述CMT-S模块包含一个局部感知单元、一个轻量级多头自注意模块和一个倒置残差前馈网络。

进一步地，上述学习投入状态监测方法中，所述生理情绪识别模型包括信号编码器、注意力模块、融合模块和分类模块；

所述信号编码器包括若干卷积层与一个长形网络；所述卷积层的输出增加 ReLU激活函数和LRN函数进行响应归一化操作；

所述融合模块包括投影矩阵和双线性池化，用于将皮电特征、肌电特征进行融合；所述分类模块是由全连接层与Softmax函数执行分类计算。

按照本发明的第二个方面，还提供了一种计算机设备，其包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行上述任一项所述学习投入状态监测方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明使用肌电、皮电等难以隐藏的生理信息，结合音频信息进行情绪状态分类，使得最后的情感状态分析更加真实准确；并进一步将将语音转义文本结合教学内容进行比对，更加精确判断学生的学习状态与情绪积极性，作为衡量课堂中学生对教学内容的反馈以及积极性的重要依据，分类识别的结果有利于开展因材施教的教学工作。

(2)在模型构造上，本发明使用了语音与皮电肌电数据融合的多模态模型；在此基础上，语音情感模型的音频流使用了CNN与transformer的融合网络结构 CMT-S，使得特征提取更加全面且大幅度减少了计算效率并与语音文本进行特征交叉融合，在情感分类时更加真实具体；生理情感模型使用肌电信号与同一类聚的皮电信号，利用一维注意力进行特征信息提取，最后通过双线性池进行有效特征融合，得到更为准确的情感分类。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种学习投入状态监测方法的流程示意图；

图2为本申请实施例提供的学习投入状态监测的执行步骤示意图；

图3为本申请实施例提供学生讨论式协作学习的数据获取场景图；

图4为本申请实施例提供的语音情绪识别模型的网络拓扑结构示意图；

图5是本申请实施例提供的生理情绪识别模型的网络拓扑结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三” 等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有” 以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

此外，为了避免使技术人员对本发明的理解模糊，可能不详细地描述或示出公知的或广泛使用的技术、元件、结构和处理。尽管附图表示本发明的示例性实施例，但是附图不必按照比例绘制，并且特定的特征可被放大或省略，以便更好地示出和解释本发明。

图1是本实施例提供的一种基于多模态数据融合的学习投入状态监测方法的流程示意图，图2是本实施例提供的学习投入状态监测的执行步骤示意图，请参阅图1、2，该方法包括以下步骤：

S1获取被监测主体的音频信息及皮电、肌电生理数据；

如图3所示，多个学生正在进行课堂讨论协作学习，在该场景下，利用麦克风采集每位学生音频谱图，通过学生佩戴的腕表获取皮电肌电信号图；该场景下获取到的音频谱图与皮电肌电信号图为语音情感识别模型与生理情感识别模型提供了重要的数据来源。

对于音频信息，需要通过音频识别技术将每位学生的声音片段分割开来。

S2将所述音频信息输入训练好的语音情绪识别模型中，获得第一情感标识；

本实施例中，在获取每位学生在学习过程中的音频数据后进行分帧处理，将每帧音频信息输入训练好的语音情绪识别模型中，通过模型预测获得第一情感标识；具体包括：

S21对所述音频信息进行转录并提取语言表示，对语言表示进行线性变换，得到音频信息对应的语义嵌入；

S22将音频信息转换为频谱图并进行特征提取，获得有效特征向量；

S23对有效特征向量进行多维特征转换和聚合，得到声学特征序列；

S24将语义嵌入与声学特征序列进行融合，获得聚合特征；在一个具体的示例中，采用Sigmoid激活的简单门通机制将语义嵌入与声学特征序列进行融合，获得聚合特征；基于聚合特征预测得到被监测主体的第一情感标识。

在一个可选的实施方式中，语音情绪识别模型包括文本嵌入模块、特征提取模块、交叉激励模块、池化层和全连接层；其中，特征提取模块包括多个堆叠的CMT-S模块，每个CMT-S模块包含一个局部感知单元、一个轻量级多头自注意模块和一个倒置残差前馈网络。交叉激励模块具有Sigmoid激活的简单门通机制，将融合后的特征进行平均池化，最后输入进前馈网络中。CMT-S模块能够更好的提取学生讨论中音频信息的语音特征；交叉激励模块则是将语音特征与转录的文本特征通过基于维度依赖的自门控机制学习每个嵌入维度自适应校准时间和对齐声学与语义表示；池化层、全连接层用于识别最终的语音情感分类。

图4是本实施例提供的语音情绪识别模型的网络拓扑结构示意图，下面结合该语音情绪识别模型的拓扑结构对情感预测的过程作进一步详细说明。

(1)将学生的音频信息输入文本嵌入模块中，对于每一个话语，通过自动语音识别(ASR)服务获得它的转录。然后，通过预训练的GloV e语言模型提取语言表示Q

之后，在语言表示Q

(2)将学生的音频信息转换为n帧

(3)将

(4)如图4所示，在阶段1至阶段4的每个阶段中，几个CMT块被按顺序堆叠以进行特征转换，在每个CMT块中，设置了局部感知单元(LPU)模块用来提取局部信息：

LPU(X)＝DWConv(X)+X (1)

为了减轻计算量则使用在轻量级多头自我注意力(LMHSA)模块，使用k×k 步幅k的深度卷积来减小k和V的空间大小，即

(5)对于倒置残差前馈网络(IRFFN)，将激活层和最后一个线性层进行批归一化处理，对X

IRFFN(X)＝Conv(H(Conv(X))) (3)

H(x)＝DWConv(X)+X (4)

每个CMT块的逻辑相关公式为：

(6)阶段4中的最后一个CMT块输出的声学特征序列进入交叉激励模块 (crossexcitation module，CEM)中；通过Sigmoid激活的简单门通机制，即 E

(7)通过相应的激励矩阵E

其中，符号⊙表示元素之间的乘积。

(8)

(9)平均池化层与全连接层计算最终的识别结果：将融合特征依次输入平均池化层与全连接层，池化的结果被计算为z＝avgpool(y)，avgpool表示平均池化；全连接计算为

S3将所述皮电、肌电生理数据输入训练好的生理情绪识别模型中，获得第一情感标识；

本实施例中，在获取每位学生在学习过程中的皮电、肌电生理数据后，将皮电、肌电生理数据输入训练好的生理情绪识别模型中，通过模型预测获得第二情感标识；具体包括：

S31分别对皮电、肌电生理数据进行特征提取，获得各自对应的归一化表示。

S32将皮电、肌电生理数据对应的所述归一化表示进行加权求和，基于求和结果以及皮电、肌电生理数据各自的重要性权重分别计算皮电、肌电生理数据对应的全局特征表示。

更加优选的，将皮电、肌电生理数据对应的归一化表示转换为以时间帧和通道数表征的二维数组，将两个二维数组对齐并进行加权求和。

S33将皮电、肌电生理数据对应的全局特征表示进行融合，得到融合向量；包括：

获取一组投影矩阵，将每个所述投影矩阵分解为两个秩矩阵；

将每个所述秩矩阵表示为二维矩阵，并与皮电、肌电生理数据对应的全局特征表示择一进行配对，生成两个融合矩阵；

将两个所述融合矩阵作向量相乘，经池化后得到最终的融合向量。

S34基于所述融合向量预测得到被监测主体的第二情感标识。

在一个可选的实施方式中，生理情绪识别模型包括信号编码器、注意力模块、融合模块和分类模块；信号编码器用于将皮电信号图与肌电信号图通过局部响应归一化转为高级表示；在一个具体示例中，信号编码器包括若干卷积层与一个长形网络；卷积层的输出增加ReLU激活函数和LRN函数进行响应归一化操作；融合模块包括投影矩阵和双线性池化，用于将皮电特征、肌电特征进行融合；所述分类模块是由全连接层与Softmax函数执行分类计算。图5是本实施例提供的生理情绪识别模型的网络拓扑结构示意图，下面结合该生理情绪识别模型的拓扑结构对情感预测的过程作进一步详细说明。

(1)将皮电数据与肌电数据分别输入多个堆叠的卷积层，每层卷积层后设置有ReLU激活函数和LRN函数，假设在位置(x,y)处用核i计算神经元的活动用

其中，size表示和在相同空间位置的size个相邻卷积核映射上表示，size为卷积层中的核总数。常数k,size,α,β是超参数。

(2)在得出归一化表示后为了及时对齐肌电信号与皮电信号，因此，将信号编码器的输出设为一个二维数组W×C，其中，W和C分别表示时间帧和通道数。可以把输出看作一个W元素的长型网络，每个元素都是一个C向量，对应相应的肌电图与皮电图的一个区域，表示为e

(3)注意力模块用来从集合E、F中提取对生理情感重要的信息，通过计算时间维度中的权重，集合E、F中的元素被加权和求和，其中，{Q

(4)对得到的

(5)最后，利用集合E、F的重要性权重计算

(6)融合模块用于对所得肌电与皮电的全局表特征示

其中，Φ

将每个投影矩阵Φ

其中，L作为分解矩阵中的潜藏维度数，得到秩矩阵

为了得到最后的一个输出量，将把两个需要学习的三维向量M＝ {m

(7)分类模块是将所得到的融合向量I通过全连接层与激励函数softmax计算出不同的情感表示，最终的情感识别结果被计算为x：

x＝Softmax(FC(I))∈R

其中，FC表示全连接层，softmax为激励函数用于分类情感，j代表表情识别的类别。本实施例中，表情识别的类别分为三类：积极、中性、消极。

本实施例中，生理情感识别模型的损耗主要是在信号提取与传播部分不够准确，为了调整模型损耗，损失函数L为：

其中，p表示真实概率分布，

S4根据所述第一情感标识、第二情感标识以及预设的阈值条件，对被监测主体的学习投入状态进行分类，获得分类结果。

本实施例中，将语音情绪识别与生理情绪识别出的第一情感标识、第二情感标识进行融合，不同的情感标识具有预先设置的标准指标值，将该标准指标值与预设的阈值条件进行对比，即可获得学生的学习投入状态等级。

在一个更加优选的实施例中，将语音情绪识别、生理情绪识别以及文本比对情况三者进行融合，来对学习投入状态进行分类。基于该更加优选的实施例，上述学习投入状态监测方法还包括：

将所述音频信息进行转录，生成文本数据；

具体的，对音频信息每个话语，可通过自动语音识别(ASR)服务获得它的转录。然后，通过预训练的语言模型提取语言表示

对所述文本数据进行关键词提取，得到关键词标签；

具体的，将所获取到的语言表示

将所述关键词标签与预置的标准语句进行比对，计算两者的重合率；

具体的，将关键词集合

最后，根据所述重合率、第一情感标识、第二情感标识以及预设的阈值条件，对被监测主体的学习状态进行分类，获得分类结果。

在该优选实施例中，将语音情绪识别与生理情绪识别出的第一情感标识、第二情感标识进行融合，不同的情感标识具有预先设置的第一标准指标值；不同的文本重合率具有预先设置的第二标准指标值，将第一标准指标值与第二标准指标值进行融合(例如求和)，得到第三标准指标值；然后将该第三标准指标值与预设的阈值条件进行对比，即可获得学生的学习投入状态等级。

下面给出一个具体的学习投入状态判级方法，作为一种可选示例，如表1 所示：

表1基于文本重合率及第一、第二情感标识的学习投入状态判级

应当注意，尽管在上述的实施例中，以特定顺序描述了本说明书实施例的方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本实施例还提供了一种计算机设备，其包括至少一个处理器、以及至少一个存储器，其中，存储器中存储有计算机程序，当计算机程序被处理器执行时，使得处理器执行学习投入状态监测方法的步骤，具体步骤参见上文，此处不再赘述；本实施例中，处理器和存储器的类型不作具体限制，例如：处理器可以是微处理器、数字信息处理器、片上可编程逻辑系统等；存储器可以是易失性存储器、非易失性存储器或者它们的组合等。

该计算机设备也可以与一个或多个外部设备(如键盘、指向终端、显示器等) 通信，还可与一个或者多个使得用户能与该计算机设备交互的终端通信，和/或与使得该计算机设备能与一个或多个其它计算终端进行通信的任何终端(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且，计算机设备还可以通过网络适配器与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide AreaNetwork，WAN)和/或公共网络，例如因特网)通信。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random AccessMemory，RAM)、磁盘或光盘等。

以上所述者，仅为本公开的示例性实施例，不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰，皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的范围和精神由权利要求限定。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于多模态融合网络的学习投入度数据的获取方法 [P] . 中国专利： CN115116117A . 2022-09-27
2. 基于多模态信息融合的课堂学习状态监测方法及系统 [P] . 中国专利： CN108805009A . 2018-11-13
3. CLOTH DEFECT DETECTION METHOD BASED ON MULTI-MODAL FUSION DEEP LEARNING [P] . WO2021098323A1 . 2021-05-27

机译：基于多模态融合深度学习的布缺陷检测方法
4. Method and Apparatus for Determining and Fusing an Aging State Trajectory of an Electrical Energy Storage Unit Based on Statistical, Model-Based, and Machine-Learning Methods [P] . 美国专利： US2022099742A1 . 2022-03-31

机译：用于基于统计、基于模型和机器学习方法确定和融合电能存储单元的老化状态轨迹的方法和设备
5. Method and apparatus for determining and fusing an aging state trajectory of an electrical energy storage system based on statistical, model-based and machine learning methods [P] . 德国专利： DE102020212283A1 . 2022-03-31

机译：基于统计、基于模型和机器学习方法确定和融合电能存储系统老化状态轨迹的方法和装置