公开/公告号CN115116112A
专利类型发明专利
公开/公告日2022-09-27
原文格式PDF
申请/专利权人 西南大学;
申请/专利号CN202210740101.7
申请日2022-06-28
分类号G06V40/16(2022.01);G06V20/40(2022.01);G06V10/82(2022.01);G06N3/04(2006.01);G06N20/00(2019.01);
代理机构重庆市信立达专利代理事务所(普通合伙) 50230;
代理人朱月明
地址 400715 重庆市北碚区天生路2号
入库时间 2023-06-19 17:07:46
法律状态公告日
法律状态信息
法律状态
2023-01-13
实质审查的生效 IPC(主分类):G06V40/16 专利申请号:2022107401017 申请日:20220628
实质审查的生效
2022-09-27
公开
发明专利申请公布
技术领域
本发明属于微表情技术领域,尤其涉及一种微表情放大到宏表情的方法、系统、设备及介质。
背景技术
目前,微表情识别自成为计算机视觉领域的重要任务以来,近几年识别率达到了瓶颈。有研究者发现,微表情放大有助于微表情识别任务,通过放大微表情面部特征,有利于特征提取。近年来,线性欧拉视频放大算法和基于相位的视频放大方法往往被应用于微表情放大任务。自深度学习放大方法被提出以来,它也被应用于了微表情放大任务,相比于前两种方法它取得了更好的效果。但是这些方法绝大多数情况都只是对微表情图片进行预处理,而且放大结果无论是从视觉效果还是准确度提升上,都十分有限。当前基于深度学习的视频放大方法并不是针对于微表情放大任务提出的,它可以调整放大倍数然后乘以两帧的差值进行放大。但是这样的线性放大并不适用于微表情这样的非线性放大任务,而且人为调整放大倍数对于微表情放大任务而言往往会造成放大图像严重扭曲失真。因此,这样的方法只能对微表情进行小倍数放大预处理,取得的放大效果有限。综上所述,如何基于深度学习完成微表情非线性放大的同时又保证图片不失真,成为微表情领域的一个重要问题。
通过上述分析,现有技术存在的问题及缺陷为:现有技术中线性放大并不适用于微表情的非线性放大任务,而且人为调整放大倍数对于微表情放大任务而言往往会造成放大图像严重扭曲失真。
发明内容
针对现有技术存在的问题,本发明提供了一种微表情放大到宏表情的方法、系统、设备及介质。
本发明是这样实现的,一种微表情放大到宏表情的方法,所述微表情放大到宏表情的方法包括:
从宏表情序列中提取初帧和中间帧,来模拟微表情的面部运动,把宏表情的中间帧作为微表情的顶帧;选择一个极佳的图像迁移模型FOMM,图像迁移模型FOMM包括运动估计模块和图像生成模块;FOMM网络以源图像和驱动帧为输入,使源图像中的对象根据驱动帧中的动作生成新的图像;FOMM网络根据给定宏表情序列数据集进行训练,使得网络掌握宏表情变化特征;给定宏表情序列中初帧作为源图像,其他帧作为驱动帧;数据集包括MMI和CK+宏表情数据集;运动放大模块被加入到运动估计模块和图像生成模块之间,以实现基于图像迁移的微表情放大功能。
进一步,所述微表情放大到宏表情的方法具体过程为:
步骤一,基于给定的预训练的运动估计模块,将宏表情序列的初帧和中间帧以及初帧和顶帧作为输入,分别输出微表情特征图以及宏表情特征图;
步骤二,在宏表情特征图的指导下,微表情特征图被输入到运动放大模块中训练如何变化为宏表情特征图;生成的宏表情特征图被输入到预训练的图像生成模块,生成最终的放大的图像;
步骤三,预训练的运动估计模块和预训练的图像生成模块之间加入运动放大模块,以实现基于图像迁移的微表情放大功能。
进一步,所述步骤三中,预训练的运动估计模块和预训练的图像生成模块之间加入运动放大模块,以实现基于图像迁移的微表情放大功能具体过程为:
运动放大模块为编码器-解码器结构,前半部分是特征提取,后半部分是上采样,运动放大模块用于多尺度特征融合的跳过连接;从微表情到宏表情的放大过程跨度过大,引入双重注意力机制。
进一步,所述从微表情到宏表情的放大过程跨度过大,引入双重注意力机制具体过程为:
通过注意力模块将某个位置的响应计算为来自不同空间位置的所有特征的加权和,从而连接特征图任意两个位置的长期依赖关系和非线性变换信息,获取更好的放大效果。
进一步,所述获取更好的放大效果具体过程为:
注意力模块中特征图作为输入被送入到三个不同的卷积层并且生成了新维度的特征图;三个不同的卷积层分别为value_conv、query_conv和key_conv;query_conv和key_conv两个卷积层输出的两个特征图经过重塑、相乘以及使用softmax对权重进行归一化后得到注意力图;注意力图与value_conv卷积层输出的特征图通过一系列数学运算最终输出新的特征图。
进一步,所述上采样设置有尺度分别为128×128和64×64的两个上采样层,在两个上采样层后面添加注意力模块。
本发明的另一目的在于提供一种实施所述微表情放大到宏表情的方法的微表情放大到宏表情的系统,所述微表情放大到宏表情的系统包括:
预训练的运动估计模块,将宏表情序列的初帧和中间帧以及初帧和顶帧作为输入,分别输出微表情特征图以及宏表情特征图;
预训练的图像生成模块,将生成的宏表情特征图变换成最终的放大的图像;
运动放大模块,通过编码器-解码器结构进行特征提取和上采样,并且用于多尺度特征融合的跳过连接。
进一步,所述运动放大模块设置有注意力模块,注意力模块将某个位置的响应计算为来自不同空间位置的所有特征的加权和,从而连接特征图任意两个位置的长期依赖关系和非线性变换信息,获取更好的放大效果。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
步骤一,基于给定的预训练的运动估计模块,将宏表情序列的初帧和中间帧以及初帧和顶帧作为输入,分别输出微表情特征图以及宏表情特征图;
步骤二,在宏表情特征图的指导下,微表情特征图被输入到运动放大模块中训练如何变化为宏表情特征图;生成的宏表情特征图被输入到预训练的图像生成模块,生成最终的放大的图像;
步骤三,预训练的运动估计模块和预训练的图像生成模块之间加入运动放大模块,以实现基于图像迁移的微表情放大功能。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
步骤一,基于给定的预训练的运动估计模块,将宏表情序列的初帧和中间帧以及初帧和顶帧作为输入,分别输出微表情特征图以及宏表情特征图;
步骤二,在宏表情特征图的指导下,微表情特征图被输入到运动放大模块中训练如何变化为宏表情特征图;生成的宏表情特征图被输入到预训练的图像生成模块,生成最终的放大的图像;
步骤三,预训练的运动估计模块和预训练的图像生成模块之间加入运动放大模块,以实现基于图像迁移的微表情放大功能。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
微表情为低幅度的不完全的宏表情,具有与宏表情相似的面部运动倾向;同时,由于微表情数据集没有足够的样本,综上原因本发明将宏表情数据集应用于微表情放大任务。
附图说明
图1是本发明实施例提供的微表情放大到宏表情的方法流程图;
图2是本发明实施例提供的微表情放大到宏表情的系统结构示意图;
图3是本发明实施例提供的深度迁移学习的微表情放大到宏表情的原理图;
图4是本发明实施例提供的输入微表情的初帧和顶帧,输出一张放大图像示意图;
图5是本发明实施例提供的在CASME II、SAMM和SMIC三个微表情数据集进行测试后的部分样本展示示意图;
图5中:图a、微表情的顶帧;图b、放大图片;
图中:1、预训练的运动估计模块;2、预训练的图像生成模块;3、运动放大模块;4、注意力模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
如图1所示,本发明实施例提供的微表情放大到宏表情的方法包括:
S101:基于给定的预训练的运动估计模块,将宏表情序列的初帧和中间帧以及初帧和顶帧作为输入,分别输出微表情特征图以及宏表情特征图。
S102:在宏表情特征图的指导下,微表情特征图被输入到运动放大模块中训练如何变化为宏表情特征图;生成的宏表情特征图被输入到预训练的图像生成模块,生成最终的放大的图像。
S103:在预训练的运动估计模块和预训练的图像生成模块之间加入运动放大模块,以实现基于图像迁移的微表情放大功能。
本发明实施例提供的S103中,运动放大模块类似于U-Net,是编码器-解码器结构,前半部分是特征提取,后半部分是上采样,该模块还具有用于多尺度特征融合的跳过连接。考虑到从微表情到宏表情的放大过程跨度过大,引入双重注意力机制,注意力模块可以把某个位置的响应计算为来自不同空间位置的所有特征的加权和,从而连接特征图任意两个位置的长期依赖关系和非线性变换信息,以此来获取更好的放大效果。在尺度分别为128×128和64×64的两个上采样层后面添加了注意力模块。
所述注意力模块中特征图作为输入被送入到三个不同的卷积层(value_conv、query_conv和key_conv)并且生成了新维度的特征图。其中,query_conv和key_conv两个卷积层输出的两个特征图经过重塑、相乘以及使用softmax对权重进行归一化后得到注意力图。注意力图与value_conv卷积层输出的特征图做一系列数学运算最终输出新的特征图。
如图2所示,本发明实施例提供的微表情放大到宏表情的系统包括:
预训练的运动估计模块1,将宏表情序列的初帧和中间帧以及初帧和顶帧作为输入,分别输出微表情特征图以及宏表情特征图。
预训练的图像生成模块2,将生成的宏表情特征图变换成最终的放大的图像。
运动放大模块3,通过编码器-解码器结构进行特征提取和上采样,并且用于多尺度特征融合的跳过连接。
注意力模块4,将某个位置的响应计算为来自不同空间位置的所有特征的加权和,从而连接特征图任意两个位置的长期依赖关系和非线性变换信息,获取更好的放大效果。
二、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。
在视觉效果上,微表情的放大效果逼近宏表情。如图5所示,本发明在CASME II、SAMM和SMIC三个微表情数据集进行测试后的部分样本展示。其中,图5中图a的顶帧为微表情的顶帧,图5中图b为放大图片。从视觉效果而言,放大后的图片逼近宏表情。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
机译: 表情输入设备,表情显示设备,表情输入方法,表情显示方法,存储表情输入控制程序的记录介质以及存储表情显示控制程序的记录介质
机译: 表情输入设备,表情显示设备,表情输入方法,表情显示方法,存储表情输入控制程序的记录介质以及存储表情显示控制程序的记录介质
机译: 表情输入设备,表情显示设备,表情输入方法,表情显示方法,存储表情输入控制程序的记录介质以及存储表情显示控制程序的记录介质