首页> 中国专利> 基于音视频多模态特征融合的人格画像生成方法和系统

基于音视频多模态特征融合的人格画像生成方法和系统

摘要

本发明提供一种基于音视频多模态特征融合的人格画像生成方法、系统、存储介质和电子设备,涉及人格预测技术领域。本发明包括预处理受试者的音视频数据,获取面部运动单元、头部姿态、眼睛注视角度组成的组合序列特征,去除掉背景的面部图像特征和帧间运动差分特征;以及预处理音频数据,获取音频模态特征;将组合序列特征、面部图像特征、帧间运动差分特征和音频模态特征,分别输入对应预先构建好的学习网络中,获取第一、第二、第三和第四模态人格预测信息并融合,利用融合信息预测大五人格分值,生成受试者的人格画像。利用无接触的音视频特征多模态融合评估实现了用户人格画像的去量表化测量,可以准确地描绘出受试者的人格画像。

著录项

  • 公开/公告号CN114841399A

    专利类型发明专利

  • 公开/公告日2022-08-02

    原文格式PDF

  • 申请/专利权人 合肥工业大学;

    申请/专利号CN202210293508.X

  • 申请日2022-03-24

  • 分类号G06Q10/04(2012.01);G06Q10/06(2012.01);G06V40/16(2022.01);G10L25/24(2013.01);G06K9/62(2022.01);G06N3/02(2006.01);G06V40/18(2022.01);G06V40/20(2022.01);

  • 代理机构北京久诚知识产权代理事务所(特殊普通合伙) 11542;

  • 代理人王云海

  • 地址 230009 安徽省合肥市包河区屯溪路193号

  • 入库时间 2023-06-19 16:12:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-19

    实质审查的生效 IPC(主分类):G06Q10/04 专利申请号:202210293508X 申请日:20220324

    实质审查的生效

  • 2022-08-02

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及人格预测技术领域,具体涉及一种基于音视频多模态特征融合的人格画像生成方法、系统、存储介质和电子设备。

背景技术

外向性、友好性、责任心、神经性、开放性,这五种人格特征被统称为“大五人格特征”;大五人格预测多用于电商平台,人力资源招聘过程。

在测量上,通常的方法多以量表为主,如BFI-2(大五人格问卷第二版本)量表,通过量表评测的方式来获取人格预测的结果,可以有助于人们更加清晰的认识自己。

但是,上述通过量表评测的方式较为繁琐,评估效率低下。

发明内容

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种基于音视频多模态特征融合的人格画像生成方法、系统、存储介质和电子设备,解决了量表评测的方式较为繁琐的技术问题。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:

一种基于音视频多模态特征融合的人格画像生成方法,包括:

S1、获取受试者的音视频数据;

S2、预处理视频数据,获取面部运动单元、头部姿态、眼睛注视角度组成的组合序列特征,去除掉背景的面部图像特征和帧间运动差分特征;以及预处理音频数据,获取音频模态特征;

S3、将所述组合序列特征、面部图像特征、帧间运动差分特征和音频模态特征,分别输入对应预先构建好的学习网络中,获取第一、第二、第三和第四模态人格预测信息;

S4、融合所述第一、第二、第三和第四模态人格预测信息,利用融合信息预测大五人格分值,进而生成所述受试者的人格画像。

优选的,所述S2中预处理视频数据包括:将每一个视频按照时间顺序等分为N段,在N段序列帧中各自随机抽取出一帧,在按照时间序列组合成一个新的帧序列。

优选的,所述S2中组合序列特征的获取过程包括:

针对所述新的序列帧的每一帧,获取面部运动单元18维序列,归一化后的左右眼在x,y,z眼睛注视方向序列,以及头部姿态在欧拉角roll,pitch,yaw维度序列,将这三种序列进行顺序排序组合成一个27维的序列,最终获取N*27维度的组合序列特征。

优选的,所述S2中帧间运动差分特征的获取过程包括:

步骤一:针对所述N段序列帧中每一段,取中间帧前后的15帧,且均提取完全去除背景后的面部图像,组成了N段31帧的序列;

步骤二:针对所述N段31帧的序列中每一段,以第1帧为基础,之后的30帧都点对点减去第1帧的像素值;

步骤三:将减去后得到的30帧点对点像素值叠加,得到新的一帧;

步骤四:将所述新的一帧的所有像素点的像素值进行从大到小排序,选取排序后前百分之三十数量的像素点,将其对应的像素值置为1,其余位置的像素点置0;

步骤五:将步骤三获取的N个图像帧按照时间序列排序,组合成一个全新的图像帧序列,作为该视频数据的所述帧间运动差分特征。

优选的,所述S2中采用音频分析工具包librosa,提取所述音频数据中的梅尔频率倒谱系数音频模态特征。

优选的,所述S3中:

将所述组合序列特征输入预先构建好的LSTM学习网络,获取所述第一模态人格预测信息;

优选的,将所述面部图像特征输入预先构建好的包含TSM模块的基于resnet50的学习网络,获取所述第二模态人格预测信息;

优选的,将所述帧间运动差分特征输入预先构建好的包含TSM模块的基于resnet50的学习网络,获取所述第三模态人格预测信息;

优选的,将所述音频模态特征输入预先构建好的GRU学习网络,获取所述第四模态人格预测信息。

优选的,所述S4具体包括:将所述第一、第二、第三和第四模态人格预测信息进行拼接,将融合的拼接信息通过一个线性回归器利用回归出大五人格的分值,进而生成所述受试者的人格画像。

一种基于音视频多模态特征融合的人格画像生成系统,包括:

获取模块,用于获取受试者的音视频数据;

预处理模块,用于预处理视频数据,获取面部运动单元、头部姿态、眼睛注视角度组成的组合序列特征,去除掉背景的面部图像特征和帧间运动差分特征;以及预处理音频数据,获取音频模态特征;

学习模块,用于将所述组合序列特征、面部图像特征、帧间运动差分特征和音频模态特征,分别输入对应预先构建好的学习网络中,获取第一、第二、第三和第四模态人格预测信息;

融合模块,用于融合所述第一、第二、第三和第四模态人格预测信息,利用融合信息预测大五人格分值,进而生成所述受试者的人格画像。

一种存储介质,其存储有用于基于音视频多模态特征融合的人格画像生成的计算机程序,其中,所述计算机程序使得计算机执行如上所述的人格画像生成方法。

一种电子设备,包括:

一个或多个处理器;

存储器;以及

一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的人格画像生成方法。

(三)有益效果

本发明提供了一种基于音视频多模态特征融合的人格画像生成方法、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:

本发明包括获取受试者的音视频数据;预处理视频数据,获取面部运动单元、头部姿态、眼睛注视角度组成的组合序列特征,去除掉背景的面部图像特征和帧间运动差分特征;以及预处理音频数据,获取音频模态特征;将所述组合序列特征、面部图像特征、帧间运动差分特征和音频模态特征,分别输入对应预先构建好的学习网络中,获取第一、第二、第三和第四模态人格预测信息;融合所述第一、第二、第三和第四模态人格预测信息,利用融合信息预测大五人格分值,进而生成所述受试者的人格画像。利用无接触的音视频特征多模态融合评估实现了用户人格画像的去量表化测量,可以准确地描绘出受试者的人格画像,与传统的心理学量表方法相比更加便捷,拥有更好的推广性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为发明实施例提供的一种基于音视频多模态特征融合的人格画像生成方法的流程示意图;

图2发明实施例提供的一种多模态融合流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本申请实施例通过提供一种基于音视频多模态特征融合的人格画像生成方法、系统、存储介质和电子设备,解决了量表评测的方式较为繁琐的技术问题,实现用户人格画像的去量表化测量。

本申请实施例中的技术方案为解决上述技术问题,总体思路如下:

本发明包括获取受试者的音视频数据;预处理视频数据,获取面部运动单元、头部姿态、眼睛注视角度组成的组合序列特征,去除掉背景的面部图像特征和帧间运动差分特征;以及预处理音频数据,获取音频模态特征;将所述组合序列特征、面部图像特征、帧间运动差分特征和音频模态特征,分别输入对应预先构建好的学习网络中,获取第一、第二、第三和第四模态人格预测信息;融合所述第一、第二、第三和第四模态人格预测信息,利用融合信息预测大五人格分值,进而生成所述受试者的人格画像。利用无接触的音视频特征多模态融合评估实现了用户人格画像的去量表化测量,可以准确地描绘出受试者的人格画像,与传统的心理学量表方法相比更加便捷,拥有更好的推广性。

为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例:

第一方面,如图1所示,本发明实施例提供了一种基于音视频多模态特征融合的人格画像生成方法,包括:

S1、获取受试者的音视频数据;

S2、预处理视频数据,获取面部运动单元、头部姿态、眼睛注视角度组成的组合序列特征,去除掉背景的面部图像特征和帧间运动差分特征;以及预处理音频数据,获取音频模态特征;

S3、将所述组合序列特征、面部图像特征、帧间运动差分特征和音频模态特征,分别输入对应预先构建好的学习网络中,获取第一、第二、第三和第四模态人格预测信息;

S4、融合所述第一、第二、第三和第四模态人格预测信息,利用融合信息预测大五人格分值,进而生成所述受试者的人格画像。

本发明实施例利用无接触的音视频特征多模态融合评估实现了用户人格画像的去量表化测量,可以准确地描绘出受试者的人格画像,与传统的心理学量表方法相比更加便捷,拥有更好的推广性。

下面将结合具体内容及附图2详细说明上述技术方案的各个步骤:

首先需要说明的是,本发明实施例涉及的基于音视频多模态特征融合模型在训练阶段,选用的数据集包括两部分。一部分为三甲医院的门诊部招募自愿参与测评的成人参与者300人,男性和女性各150人;以及在学校中招募18岁以上的参与者100人,其中男性50人、女性50人。所有参与者在18-40岁、40-60岁、60岁这三个年龄段均匀分布。另一部分为直接选用ChaLearnLAP2016第一印象挑战赛数据集。

首先在ChaLearnLAP2016第一印象挑战赛数据集上利用图2所示结构进行了模型的训练,准确率(acc)达到了目标阈值后停止训练。但是由于该数据集中包含了相当多外国人的视频,对于国人的人格特征可能不能很好的适用,因此得到了基础模型后,继续采用上述采集到的数据集进行了迁移训练,得到了同时适用于国内外受试者人格分析的模型。

S1、获取受试者的音视频数据;

本步骤中采集不小于15秒的用户上半身音视频数据,视频的清晰度要求大于等于720p,帧率为30fps,面部需要清晰可见,不能够佩戴口罩以及被其他物体遮挡。因此,需要一台摄像机记录视频信息,摄像机的视频分辨率为720p以上,帧率为30帧,面部不可被遮挡,不能戴口罩(佩戴眼镜不影响测试结果,环境光照强度>300lux,尽可能请在无频闪或低频闪的环境下进行视频的录制,且面部的光照需要尽可能的均匀,无过多的阴影遮挡。

S2、预处理视频数据,获取面部运动单元、头部姿态、眼睛注视角度组成的组合序列特征,去除掉背景的面部图像特征和帧间运动差分特征;以及预处理音频数据,获取音频模态特征。

关于视频数据:

所述预处理视频数据包括:将每一个视频按照时间顺序等分为N段,在N段序列帧中各自随机抽取出一帧,在按照时间序列组合成一个新的帧序列。

其中,组合序列特征的获取过程包括:

针对所述新的序列帧的每一帧,获取面部运动单元(AU)18维序列,归一化后的左右眼在x,y,z眼睛注视方向序列,以及头部姿态在欧拉角roll,pitch,yaw维度序列,将这三种序列进行顺序排序组合成一个27维的序列,最终获取N*27维度的组合序列特征。

所述去除掉背景的面部图像特征获取过程中:要求将面部图像完全去除掉背景。

所述帧间运动差分特征的获取过程包括:

步骤一:针对所述N段序列帧中每一段,取中间帧前后的15帧,且均提取完全去除背景后的面部图像,组成了N段31帧的序列;

步骤二:针对所述N段31帧的序列中每一段,以第1帧为基础,之后的30帧都点对点减去第1帧的像素值;

步骤三:将减去后得到的30帧点对点像素值叠加,得到新的一帧;

步骤四:将所述新的一帧的所有像素点的像素值进行从大到小排序,选取排序后前百分之三十数量的像素点,将其对应的像素值置为1,其余位置的像素点置0;

步骤五:将步骤三获取的N个图像帧按照时间序列排序,组合成一个全新的图像帧序列,作为该视频数据的所述帧间运动差分特征。

本发明实施例中选用将每一个视频按照时间顺序等分为8段,即对应组合序列特征为8*27维、去除掉背景的面部图像特征和帧间运动差分特征均为8帧的序列;以及利用开源工具包openface提取面部运动单元、头部姿态、眼睛注视角度以及去除背景的面部特征图像。

关于音频数据:

本步骤采用python的音频分析工具包librosa,提取所述音频数据中的梅尔频率倒谱系数(mfcc)音频模态特征。

S3、将所述组合序列特征、面部图像特征、帧间运动差分特征和音频模态特征,分别输入对应预先构建好的学习网络中,获取第一、第二、第三和第四模态人格预测信息。

如图2所示,本步骤中将所述组合序列特征输入预先构建好的LSTM学习网络,获取所述第一模态人格预测信息;将所述面部图像特征输入预先构建好的包含TSM(TemporalShift Module)模块的基于resnet50的学习网络,获取所述第二模态人格预测信息;将所述帧间运动差分特征输入预先构建好的包含TSM模块的基于resnet50的学习网络,获取所述第三模态人格预测信息;以及将所述音频模态特征输入预先构建好的GRU学习网络,获取所述第四模态人格预测信息。

S4、融合所述第一、第二、第三和第四模态人格预测信息,利用融合信息预测大五人格分值,进而生成所述受试者的人格画像;具体包括:

将所述第一、第二、第三和第四模态人格预测信息进行拼接,将融合的拼接信息通过一个线性回归器利用回归出大五人格的分值,进而生成所述受试者的人格画像。

第二方面,本发明实施例提供了一种基于音视频多模态特征融合的人格画像生成系统,包括:

获取模块,用于获取受试者的音视频数据;

预处理模块,用于预处理视频数据,获取面部运动单元、头部姿态、眼睛注视角度组成的组合序列特征,去除掉背景的面部图像特征和帧间运动差分特征;以及预处理音频数据,获取音频模态特征;

学习模块,用于将所述组合序列特征、面部图像特征、帧间运动差分特征和音频模态特征,分别输入对应预先构建好的学习网络中,获取第一、第二、第三和第四模态人格预测信息;

融合模块,用于融合所述第一、第二、第三和第四模态人格预测信息,利用融合信息预测大五人格分值,进而生成所述受试者的人格画像。

第三方面,本发明实施例提供了一种存储介质,其存储有用于基于音视频多模态特征融合的人格画像生成的计算机程序,其中,所述计算机程序使得计算机执行如上所述的人格画像生成方法。

第四方面,本发明实施例提供了一种电子设备,包括:

一个或多个处理器;

存储器;以及

一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的人格画像生成方法。

综上所述,与现有技术相比,具备以下有益效果:

本发明实施例利用无接触的音视频特征多模态融合评估实现了用户人格画像的去量表化测量,可以准确地描绘出受试者的人格画像,与传统的心理学量表方法相比更加便捷,拥有更好的推广性。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号