公开/公告号CN113851145A
专利类型发明专利
公开/公告日2021-12-28
原文格式PDF
申请/专利权人 厦门大学;
申请/专利号CN202111111485.8
申请日2021-09-23
分类号G10L21/10(20130101);G10L21/18(20130101);G10L15/26(20060101);G10L15/02(20060101);G10L15/16(20060101);G10L25/24(20130101);G10L25/30(20130101);G06K9/00(20060101);G06N3/04(20060101);
代理机构35200 厦门南强之路专利事务所(普通合伙);
代理人马应森;戴深峻
地址 361005 福建省厦门市思明区思明南路422号
入库时间 2023-06-19 13:26:15
技术领域
本发明涉及动作合成技术领域,尤其是涉及一种联合语音和语义关键动作的虚拟人动作序列合成方法。
背景技术
传统的虚拟人体态合成方法通常利用神经网络的方法从语音或文本中直接生成人体姿态,主要存在两方面问题:一方面,生成的动作可编辑性差且变化有限;另一方面,生成过程往往是模式间的映射,而没有显式约束动作和内容语义的一致性。
论文Ginosar S,Bar A,Kohavi G,et al.Learning individual styles ofconversational gesture[C]//Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2019:3497-3506.中通过输入一段语音音频,使用对抗生成网络生成人体手势序列,并相应地合成对应手势地人体纹理序列,但生成的动作没有可编辑性,且纹理缺陷和不连续性较明显。
发明内容
本发明目的在于针对传统虚拟人合成技术合成的虚拟人动作与语音语义缺乏一致性关联的问题,提供一种联合语音和语义关键动作的虚拟人动作序列合成方法。
本发明包括以下步骤:
1)人工选取并录制关键动作目标视频,构建关键动作池;
2)对输入语音流提取语音特征序列;
3)对语音识别模块输入语音特征序列,输出对应的文本序列;
4)对口型推理模块输入语音特征序列,输出口型特征点序列;
5)对人脸纹理匹配模块输入口型特征点变化轨迹序列,输出人脸纹理图像序列;
6)对关键动作选取模块输入文本序列及语音音频流,输出关键动作序列;
7)对背景帧选取模块输入语音音频流、文本序列、关键动作序列,输出背景帧序列;
8)对前景背景混合模块输入人脸纹理图像序列和背景帧序列,输出虚拟人动作和语音语义一致的虚拟人说话视频。
在步骤1)中,所述关键动作指挥手等与语义具有强关联的动作,事先选取虚拟人可合成的关键动作种类,并针对每种关键动作录制一段视频,用于在前景背景混合模块中作为背景使用;关键动作目标视频的集合即为关键动作池;特别地,一段保持人体姿态处于自然位置但不做动作的视频也必须包含其中,编号为0,以供关键动作选取模块选择不做关键动作时选取;其他关键动作视频要求开始和结尾处人体姿态均与前者所保持的人体姿态相差不大;其他关键动作视频编号不做要求,可区分即可。
在步骤2)中,所述语音特征为人耳听觉相关特征,如梅尔频率倒谱系数。
在步骤3)中,所述语音识别模块为语音识别网络。
在步骤4)中,所述口型推理模块为LSTM网络。
在步骤5)中,所述人脸纹理匹配模块用于对口型特征点序列中的每一个口型匹配一个人脸纹理图像,该图像口型与对应的口型特征点相一致;匹配口型特征点序列中的一个口型具体步骤如下:
(1)对关键动作池所有视频进行人脸检测和人脸特征点对齐,提取人脸纹理图像集合F={f
(2)对待口型特征点p选取集合P中与之最为相似的M个口型特征点,并其选取对应的人脸纹理图像,得到M个候选人脸纹理图像F′={f′
(3)计算人脸纹理图像集合F′的中位数即作为与口型特征点ρ匹配的人脸纹理图像;
在步骤6)中,所述关键动作选取模块用于从语音信息和文本信息提取语义信息,进而对文本序列的每个句子指定对应的关键动作;具体包括以下步骤:
(1)对输入的文本序列L按标点符号进行子串分割,得到L=(L
(2)对输入的语音音频流按照响度识别出每个句子的结束点,然后分离出每个文本子串L
(3)将每个音频流片段A
(4)将每个文本子串L
(5)将HA
(6)将H
(7)用步骤(6)得到的每个one-hot编码KL
在步骤6)之后可人工矫正或编辑关键动作序列K=(K
在步骤7)中,所述背景帧选取模块用于选取与步骤6)得到的关键动作序列一致,且头部姿态与语音停顿节奏一致的背景帧序列;优选的,背景帧选取模块使用动态规划算法求解帧序列,该动态归划算法综合考虑关键动作转换出的平滑度和头部运动速度与语音停顿的匹配程度,通过迭代的方法求取最优的背景帧序列。
在步骤8)中,所述前景背景混合模块采用Laplacian pyramid blending图像混合算法,将步骤5)得到的人脸纹理图像序列与步骤7)得到的背景帧序列混合在一起,得到与语音语义一致的虚拟人动作序列。
本发明通过采集数据构筑关键动作池,进一步利用语音、文本的语义信息从关键动作池中选取关键动作,进而指导后续的动作视频生成。在自动选取关键动作的基础上,本发明还支持人工编辑动作序列,从而提高生成动作的可交互性和多样性;综上所述,本发明结合文本、语音语义信息进行关键动作选取,显式地利用语义约束动作,提高虚拟人动作与语音语义的一致性。
附图说明
图1为本发明的整体流程图。
图2为本发明的关键动作选取模块流程图。
图3为本发明的背景帧选取模块流程图。
具体实施方式
以下实施例将结合附图对本发明作进一步解说。
参考图1~3,本发明实施例以虚拟人手势的合成为例展示本发明联合语音和语义关键动作的虚拟人动作序列合成方法,但本发明可生成的动作范围并不局限于此,任何虚拟人动作序列均可使用本发明所述方法合成。具体步骤如下:
1)人工选取并录制关键姿态目标视频,构建关键姿态池。
2)对输入语音流提取语音特征序列。
3)对语音识别模块输入语音特征序列,输出对应的文本序列。
4)对口型推理模块输入语音特征序列,输出口型特征点序列。
5)对人脸纹理匹配模块输入嘴型特征点变化轨迹序列,输出人脸纹理图像序列。
6)对关键动作选取模块输入文本序列及语音音频流,输出关键姿态序列。
7)对背景帧选取模块输入语音音频流、文本序列、关键姿态序列,输出背景帧序列。
8)对前景背景混合模块输入人脸纹理图像序列和背景帧序列,输出虚拟人姿态和语音语义一致的虚拟人说话视频。
联合语音和语义关键动作的虚拟人动作序列合成方法:
传统的虚拟人体态合成方法通常利用神经网络的方法从语音或文本中直接生成人体姿态,主要存在两方面问题:一方面,生成的动作可编辑性差且变化有限;另一方面,生成过程往往是模式间的映射,而没有显式约束动作和内容语义的一致性。
基于此,本发明提出联合语音和语义关键动作的虚拟人动作序列合成方法。通过采集数据构筑关键动作池,进一步利用语音、文本的语义信息从关键动作池中选取关键动作,进而指导后续的动作视频生成。在自动选取关键动作的基础上,本发明还支持人工编辑动作序列,从而提高生成动作的可交互性和多样性;综上所述,本发明结合语音、文本语义信息进行关键动作选取,显式地利用语义约束动作,提高动作与语义的一致性。
步骤6)和步骤7)为本发明的关键模块,控制着与语音语义一致的关键动作序列的生成。以下详细介绍关键动作选取模块和背景帧选取模块的具体实施例。其他步骤按发明内容所述进行即可完成具体实施例。
关键动作选取模块:
(1)对于输入的文本L,按标点符号进行子串分割,以L=“大家好,我是虚拟主播,很高兴认识大家”为例,得到L
(2)对每个文本子串L
(3)将每个音频流片段A
(4)将每个文本子串L
(5)将HA
(6)将H
(7)用步骤(6)得到的每个one-hot编码KL
背景帧选取模块:
本实施例以句子“大家好,我是虚拟主播,很高兴认识大家”为例,具体展示背景帧选取模块如何选取背景帧序列。参见图3,具体步骤如下:
(1)对输入的文本序列L按标点符号进行子串分割,得到L=(L
(2)对输入的语音音频流按照响度识别出每个句子的结束点,然后分离出每个文本子串L
(3)将每个音频流片段A
(4)将每个文本子串L
(5)将HA
(6)将H
(7)用步骤(6)得到的每个one-hot编码KL
优选的,步骤6)之后可人工矫正或编辑关键动作序列K=(K
步骤7)所述背景帧选取模块用于选取与步骤6)得到的关键动作序列一致,且头部姿态与语音停顿节奏一致的背景帧序列。不失一般性,假定算法输出视频帧率与人工实现录制的虚拟人关键动作视频相同,背景帧选取模块具体步骤如下:
(1)计算每个文本子串L
(2)记输出视频背景帧序列为B=(b
(3)对任意两个关键动作之间的输出背景帧序列,即关键动作K
(4)任意两个关键动作之间的输出背景帧序列以关键动作池中0号视频帧填补。设待填补背景帧为S=(s
(5)使用人脸特征点对齐算法计算目标视频在每帧处人脸头部运动速度V=(v
(6)记填补过程中将目标视频第m帧作为待填补背景帧的第n帧代价为F(n,m,0)。记填补过程中将目标视频第m帧重复作为待填补背景帧的第n+1帧代价为F(n+1,m,1)。则代价函数F的递推公式为:
F(n,m,0)=min(F(n-1,m-1,0),F(n-1,m-1,1))-a
F(n,m,1)=F(n-1,m,0)+αv
F(0,m,0)=-a
F(n,0,0)=∞if n>0
F(n,m,0)=∞if n=0 or m=0
(7)最优背景帧序列由min
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
机译: 基于部分语义的语音控制成功地进行早期提示的渐进式语音分析。用于可视化和动作控制的实时渐进式语义分析。
机译: 一种用于提供能够识别用户语音命令和用户动作手势的电子设备的用户界面(UI)的方法,以及能够识别用户语音命令和用户动作手势的电子设备
机译: 在虚拟环境中结合虚拟人物的动作使用语音生物识别