首页> 中国专利> 一种基于多模态人工智能技术的儿童抑郁情绪识别方法

一种基于多模态人工智能技术的儿童抑郁情绪识别方法

摘要

本发明涉及情绪识别,具体涉及一种基于多模态人工智能技术的儿童抑郁情绪识别方法,获取被测儿童在人机智能语音交互环境下的语音数据及面部视频数据;将语音数据转换为文本信息,提取文本信息、语音数据对应的文本特征向量、语音特征向量,并基于文本特征向量、语音特征向量分别得到抑郁情绪识别结果;在面部视频数据中提取微表情区域,并在面部视频数据中对微表情进行定位,根据定位结果得到基于微表情分析的抑郁情绪识别结果;通过对基于文本特征向量、语音特征向量、微表情分析得到的抑郁情绪识别结果进行综合评价;本发明提供的技术方案能够有效克服现有技术所存在的需要耗费大量人力物力资源、识别过程复杂且准确率较低的缺陷。

著录项

  • 公开/公告号CN114974254A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 安徽兰臣信息科技有限公司;

    申请/专利号CN202210571017.7

  • 发明设计人 张云龙;

    申请日2022-05-24

  • 分类号G10L15/26(2006.01);G10L25/63(2013.01);G10L25/30(2013.01);G06V40/16(2022.01);G06V10/82(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构合肥律众知识产权代理有限公司 34147;

  • 代理人夏舜

  • 地址 230000 安徽省合肥市高新区望江西路900号中安创谷科技园D9栋4层402室

  • 入库时间 2023-06-19 16:33:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G10L15/26 专利申请号:2022105710177 申请日:20220524

    实质审查的生效

说明书

技术领域

本发明涉及情绪识别,具体涉及一种基于多模态人工智能技术的儿童抑郁情绪识别方法。

背景技术

抑郁症被形象地称为“心灵感冒”,意思是说抑郁症像伤风感冒一样,是一种常见的心境障碍。目前,抑郁症的诊断主要包括自我认知识别、医院或心理咨询机构的诊断两个部分。

抑郁症自我认知识别的关键是患者是否存在明显情绪低落,终日忧心忡忡、抑郁寡欢、愁眉苦脸、长吁短叹;是否有兴趣的缺乏,对任何事情都提不起劲,心里有压抑感,高兴不起来;是否有精力不济、疲劳,无论是做脑力劳动还是体力劳动都觉得疲劳,即使充分休息都不能恢复;是否有明显的睡眠障碍,特别是早醒;典型的抑郁患者,其抑郁心境有晨重夜轻的变化特点,即在早晨时情绪低落严重,而傍晚时有所减轻。同时,可以借助自评表,如《贝克抑郁问卷》和《Zung自评量表》等,进行自我评估,而在临床研究中常使用他评表,如汉密尔顿抑郁量表(HAMD)及蒙哥马利抑郁量表(MADS)评定疾病严重程度。

造成抑郁症识别率低的原因有多种,包括患者自身的“病耻感”、抑郁症伴发症状多样且复杂、医师的诊断能力等,随着社会对精神卫生服务的需求大量增加,精神科医务人员匮乏的问题将变得更加突出。当前,传统的儿童抑郁情绪识别需要投入大量人力、物力资源,并且识别的过程较为复杂,同时识别准确率较低,所以需要一种基于多模态人工智能技术的儿童抑郁情绪识别方法。

发明内容

(一)解决的技术问题

针对现有技术所存在的上述缺点,本发明提供了一种基于多模态人工智能技术的儿童抑郁情绪识别方法,能够有效克服现有技术所存在的需要耗费大量人力物力资源、识别过程复杂且准确率较低的缺陷。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:

一种基于多模态人工智能技术的儿童抑郁情绪识别方法,包括以下步骤:

S1、获取被测儿童在人机智能语音交互环境下的语音数据及面部视频数据;

S2、将语音数据转换为文本信息,提取文本信息、语音数据对应的文本特征向量、语音特征向量,并基于文本特征向量、语音特征向量分别得到抑郁情绪识别结果;

S3、在面部视频数据中提取微表情区域,并在面部视频数据中对微表情进行定位,根据定位结果得到基于微表情分析的抑郁情绪识别结果;

S4、通过对基于文本特征向量、语音特征向量、微表情分析得到的抑郁情绪识别结果进行综合评价,得到被测儿童的最终抑郁情绪识别结果。

优选地,S2中将语音数据转换为文本信息,提取文本信息对应的文本特征向量,包括:

利用Bert模型,将按照时间顺序排列的若干个被测儿童回答语句转换为文本嵌入模型,得到按照时间顺序排列的若干个文本特征向量。

优选地,S2中基于文本特征向量得到抑郁情绪识别结果,包括:

利用训练集对长短期记忆神经网络LSTM进行模型训练,得到关于文本的抑郁情绪识别模型;

将文本特征向量输入关于文本的抑郁情绪识别模型,得到基于文本特征向量的抑郁情绪识别结果。

优选地,S2中提取语音数据对应的语音特征向量,并基于语音特征向量得到抑郁情绪识别结果,包括:

对语音数据进行特征提取、特征选择,并对选择后的特征进行重新组合,得到语音数据对应的语音特征向量;

利用随机森林算法对语音特征向量进行识别,得到基于语音特征向量的抑郁情绪识别结果。

优选地,所述对语音数据进行特征提取、特征选择,并对选择后的特征进行重新组合,得到语音数据对应的语音特征向量,包括:

通过分帧加窗处理对语音数据进行特征提取,根据决策树对提取的特征进行特征选择;

对时域特征进行离散化处理,对离散化后的时域特征以共同出现的方式进行重新组合,统计一帧语音数据内特征出现的频数来生成对应的语音特征向量。

优选地,所述通过分帧加窗处理对语音数据进行特征提取后,得到时域特征和频域特征,所述时域特征包括短时能量、能量熵和过零率,所述频域特征包括谱熵和基频。

优选地,S3中在面部视频数据中提取微表情区域,并在面部视频数据中对微表情进行定位,包括:

利用人脸识别模型对面部视频数据进行人脸识别,并对人脸区域进行划分,得到微表情区域;

利用训练集对双流神经网络进行模型训练,得到微表情定位模型;

对微表情区域提取光流信息,将光流信息与微表情区域一同输入微表情定位模型,对微表情的开始帧、中间帧、结束帧进行定位。

优选地,所述对人脸区域进行划分,得到微表情区域,包括:

将人脸区域划分为眉毛、眼睛、鼻子、嘴巴、下巴、左面颊和右面颊,得到七个微表情区域。

优选地,所述双流神经网络为时空级联的双流神经网络,所述双流神经网络采用三个基于注意力机制的CNN+BLSTM模型提取微表情区域和光流信息的时间特征、空间特征,其中两个模型提取流的帧特征,另一个模型确定帧特征的权重。

优选地,S3中根据定位结果得到基于微表情分析的抑郁情绪识别结果,包括:

将定位到的微表情的开始帧、中间帧、结束帧输入关于微表情的抑郁情绪识别模型,结合对应的人机智能语音交互情境得到基于微表情分析的抑郁情绪识别结果。

(三)有益效果

与现有技术相比,本发明所提供的一种基于多模态人工智能技术的儿童抑郁情绪识别方法,在被测儿童面对摄像头进行人机智能语音交互的过程中,通过被测儿童在交流过程中所表达的意思、使用的语音以及显露的微表情,来对儿童出现的抑郁情绪进行准确捕捉,整个识别过程非常简单,并且无需投入大量的人力物力资源。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的流程示意图;

图2为本发明中得到基于文本特征向量的抑郁情绪识别结果的流程示意图;

图3为本发明中得到基于语音特征向量的抑郁情绪识别结果的流程示意图;

图4为本发明中得到基于微表情分析的抑郁情绪识别结果的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种基于多模态人工智能技术的儿童抑郁情绪识别方法,如图1所示,①获取被测儿童在人机智能语音交互环境下的语音数据及面部视频数据。

本申请技术方案中,可以通过人机智能语音交互设备与儿童进行人机智能语音交互,人机智能语音交互设备中存储有研究专家针对识别儿童抑郁情绪进行设计的问答语句,并且还能够将被测儿童回答的语音数据转换为文本信息。

②将语音数据转换为文本信息,提取文本信息、语音数据对应的文本特征向量、语音特征向量,并基于文本特征向量、语音特征向量分别得到抑郁情绪识别结果。

如图1和图2所示,将语音数据转换为文本信息,提取文本信息对应的文本特征向量,包括:

利用Bert模型,将按照时间顺序排列的若干个被测儿童回答语句转换为文本嵌入模型,得到按照时间顺序排列的若干个文本特征向量。

基于文本特征向量得到抑郁情绪识别结果,包括:

利用训练集对长短期记忆神经网络LSTM进行模型训练,得到关于文本的抑郁情绪识别模型;

将文本特征向量输入关于文本的抑郁情绪识别模型,得到基于文本特征向量的抑郁情绪识别结果。

如图1和图3所示,提取语音数据对应的语音特征向量,并基于语音特征向量得到抑郁情绪识别结果,包括:

对语音数据进行特征提取、特征选择,并对选择后的特征进行重新组合,得到语音数据对应的语音特征向量;

利用随机森林算法对语音特征向量进行识别,得到基于语音特征向量的抑郁情绪识别结果。

其中,对语音数据进行特征提取、特征选择,并对选择后的特征进行重新组合,得到语音数据对应的语音特征向量,包括:

通过分帧加窗处理对语音数据进行特征提取,根据决策树对提取的特征进行特征选择;

对时域特征进行离散化处理,对离散化后的时域特征以共同出现的方式进行重新组合,统计一帧语音数据内特征出现的频数来生成对应的语音特征向量(语音特征向量中每个特征值代表各时域特征的特定离散值在一帧语音数据内共同出现的频数)。

其中,通过分帧加窗处理对语音数据进行特征提取后,得到时域特征和频域特征,时域特征包括短时能量、能量熵和过零率,频域特征包括谱熵和基频。

如图1和图4所示,③在面部视频数据中提取微表情区域,并在面部视频数据中对微表情进行定位,根据定位结果得到基于微表情分析的抑郁情绪识别结果。

在面部视频数据中提取微表情区域,并在面部视频数据中对微表情进行定位,包括:

利用人脸识别模型对面部视频数据进行人脸识别,并对人脸区域进行划分,得到微表情区域;

利用训练集对双流神经网络进行模型训练,得到微表情定位模型;

对微表情区域提取光流信息,将光流信息与微表情区域一同输入微表情定位模型,对微表情的开始帧、中间帧、结束帧进行定位。

根据定位结果得到基于微表情分析的抑郁情绪识别结果,包括:

将定位到的微表情的开始帧、中间帧、结束帧输入关于微表情的抑郁情绪识别模型,结合对应的人机智能语音交互情境得到基于微表情分析的抑郁情绪识别结果。

其中,对人脸区域进行划分,得到微表情区域,包括:

将人脸区域划分为眉毛、眼睛、鼻子、嘴巴、下巴、左面颊和右面颊,得到七个微表情区域。

其中,双流神经网络为时空级联的双流神经网络,双流神经网络采用三个基于注意力机制的CNN+BLSTM模型提取微表情区域和光流信息的时间特征、空间特征,其中两个模型提取流的帧特征,另一个模型确定帧特征的权重。

本申请技术方案中,关于微表情的抑郁情绪识别模型输出的结果包括悲伤、中性和愉快,由于抑郁症患者通常会隐藏自己的悲伤情绪,因此在人机智能语音交互情境偏向负面的情况下,相较于普通儿童,具有抑郁情绪的儿童在该负面情境下更可能表现出中性,甚至愉快的微表情。

如图1所示,④通过对基于文本特征向量、语音特征向量、微表情分析得到的抑郁情绪识别结果进行综合评价,得到被测儿童的最终抑郁情绪识别结果。

通过预先设定基于文本特征向量、语音特征向量、微表情分析得到的抑郁情绪识别结果分别对应的权重参数,来进行综合评价,能够得到更加准确的抑郁情绪识别结果,从而能够准确捕捉被测儿童出现的抑郁情绪。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号