首页> 中国专利> 数字对象的动画生成方法、装置、电子设备及存储介质

数字对象的动画生成方法、装置、电子设备及存储介质

摘要

本公开提供了数字对象的动画生成方法、装置、电子设备及存储介质,涉及计算机技术领域,具体涉及人工智能、深度学习和视频技术等技术领域。一种具体实现方案为:获取目标文本对应的语音特征信息;获取所述语音特征信息对应的动态参数,所述动态参数用于表征动作变化;根据所述动态参数,对预设的数字对象进行驱动处理,以生成所述数字对象的动画。

著录项

  • 公开/公告号CN114898018A

    专利类型发明专利

  • 公开/公告日2022-08-12

    原文格式PDF

  • 申请/专利权人 北京百度网讯科技有限公司;

    申请/专利号CN202210570560.5

  • 发明设计人 郭紫垣;

    申请日2022-05-24

  • 分类号G06T13/00(2011.01);G10L13/08(2013.01);G10L15/06(2013.01);

  • 代理机构北京鸿德海业知识产权代理有限公司 11412;

  • 代理人贺晨笛

  • 地址 100085 北京市海淀区上地十街10号百度大厦2层

  • 入库时间 2023-06-19 16:22:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-30

    实质审查的生效 IPC(主分类):G06T13/00 专利申请号:2022105705605 申请日:20220524

    实质审查的生效

说明书

技术领域

本公开涉及计算机技术领域,尤其涉及人工智能、深度学习和视频技术等技术领域,具体涉及一种数字对象的动画生成方法、装置、电子设备及存储介质。

背景技术

数字高精形象的生成,如数字人等数字对象的生成,一直是学术界的研究热点,并有着广泛的工业应用。

目前,相关技术通常是利用专业采集设备构建数字人的形象和动作,再将预先构建的形象和动作与所输入的角色信息相互结合,生成相应的数字人。

发明内容

本公开提供了数字对象的动画生成方法、装置、电子设备及存储介质。

根据本公开的一方面,提供了一种数字对象的动画生成方法,包括:

获取目标文本对应的语音特征信息;

获取所述语音特征信息对应的动态参数,所述动态参数用于表征动作变化;

根据所述动态参数,对预设的数字对象进行驱动处理,以生成所述数字对象的动画。

根据本公开的另一方面,提供了另一种模型的训练方法,包括:

获取样本数据,所述样本数据包括样本语音特征信息和所述样本语音特征信息对应的样本动态参数;

将所述样本语音特征信息作为输入、所述样本动态参数作为标签,对预设模型进行训练,以获得数字对象动态识别模型,所述数字对象动态识别模型用于识别语音特征信息对应的动态参数,所述动态参数用于表征动作变化。

根据本公开的再一方面,提供了一种数字对象的动画生成装置,包括:

第一获取单元,用于获取目标文本对应的语音特征信息;

第二获取单元,用于获取所述语音特征信息对应的动态参数,所述动态参数用于表征动作变化;

驱动处理单元,用于根据所述动态参数,对预设的数字对象进行驱动处理,以生成所述数字对象的动画。

根据本公开的又一方面,提供了另一种模型的训练装置,包括:

获取单元,用于获取样本数据,所述样本数据包括样本语音特征信息和所述样本语音特征信息对应的样本动态参数;

训练单元,用于将所述样本语音特征信息作为输入、所述样本动态参数作为标签,对预设模型进行训练,以获得数字对象动态识别模型,所述数字对象动态识别模型用于识别语音特征信息对应的动态参数,所述动态参数用于表征动作变化。

根据本公开的又一方面,提供了一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。

由上述技术方案可知,一方面,本公开实施例通过获取目标文本对应的语音特征信息,进而可以获取所述语音特征信息对应的动态参数,所述动态参数用于表征动作变化,使得能够根据所述动态参数,对预设的数字对象进行驱动处理,以生成所述数字对象的动画,由于可以通过输入的文本获得用于驱动数字对象的动态参数,利用该动态参数可以实时驱动数字对象动态播报该文本,可以生成更加生动和更加接近真实效果的数字对象动画,从而提升数字对象的真实度和自然度。

由上述技术方案可知,另一方面,本公开实施例通过获取样本数据,所述样本数据包括样本语音特征信息和所述样本语音特征信息的样本动态参数,进而可以将所述样本语音特征信息作为输入、所述样本动态参数作为标签,对预设模型进行训练,以获得数字对象动态识别模型,所述数字对象动态识别模型用于识别语音特征信息对应的动态参数,所述动态参数用于表征动作变化,由于通过利用样本语音特征信息和样本动态参数,训练得到该数字对象动态识别模型,便于模型更有针对性地学习到语音特征信息和动态参数的关系信息,减少了学习的信息损失,从而保障了模型的识别性能和准确性。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是根据本公开第一实施例的示意图;

图2是根据本公开第二实施例的示意图;

图3是根据本公开第三实施例的示意图;

图4是根据本公开第三实施例的技术原理的示意图;

图5A和图5B是根据本公开第三实施例的录制的视频的示意图;

图6是根据本公开第三实施例的面部重建的示意图;

图7是根据本公开第三实施例的姿态重建的示意图;

图8是根据本公开第三实施例的发音单元的示意图;

图9是根据本公开第三实施例的数字对象动态识别模型的示意图;

图10是根据本公开第三实施例所生成的数字对象的示意图;

图11是根据本公开第四实施例的示意图;

图12是根据本公开第五实施例的示意图;

图13是用来实现本公开实施例的数字对象的动画生成方法或模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。

需要说明的是,本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(TabletComputer)等智能设备;显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。

另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

真人数字高精形象,即数字人是通过计算机图形学等技术(Computer Graphic,CG)创造出的与人类形象接近的数字化形象,并赋予其特定的人物身份设定。而且也可以基于该技术生成除了人以外的对象的数字化形象。随着数字人理论和技术日益成熟,其应用范围不断扩大。最为常见的应用领域包括虚拟主播、虚拟客服、虚拟助理、虚拟教师、虚拟偶像以及其他互动游戏和娱乐等。

目前,通常是先基于相机阵列等专业采集设备构建数字人的形象和动作,再将预先构建的形象和动作与所输入的角色信息相互结合,生成相应的数字人。

但是,相关的数字人生成技术,需要依赖昂贵的采集设备、高配的电脑硬件、复杂繁重的解算流程,导致方案的普用性较低。而且,由于数字人的动画是基于语音和预先配置的该语音的动作动画所生成的,一定程度上无法有效地同步完成数字人动作的驱动,数字人整体自然度和真实度较低。

因此,亟需提供一种数字对象的动画生成方法,能够实现生成动态还原度更高的数字对象动画,从而提升数字对象动画的真实度和自然度。

图1是根据本公开第一实施例的示意图,如图1所示。

101、获取目标文本对应的语音特征信息。

102、获取所述语音特征信息对应的动态参数,所述动态参数用于表征动作变化。

103、根据所述动态参数,对预设的数字对象进行驱动处理,以生成所述数字对象的动画。

需要说明的是,数字对象可以包括但不限于数字人和其他数字形象,数字人可以包括但不限于仿真型虚拟数字人和卡通虚拟数字人等。此外,基于人物图形维度,数字人还可以包括二维(2-dimension,2D)数字人和三维(3-dimension,3D)数字人。

需要说明的是,101~103的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,例如,网络侧的动画生成平台中的处理引擎或者分布式系统等,本实施例对此不进行特别限定。

可以理解的是,所述应用可以是安装在本地终端上的本地程序(nativeApp),或者还可以是本地终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。

这样,可以通过获取目标文本对应的语音特征信息,进而可以获取所述语音特征信息对应的动态参数,所述动态参数用于表征动作变化,使得能够根据所述动态参数,对预设的数字对象进行驱动处理,以生成所述数字对象的动画,由于可以通过输入的文本获得用于驱动数字对象的动态参数,利用该动态参数可以实时驱动数字对象动态播报该文本,可以生成更加生动和更加接近真实效果的数字对象动画,从而提升数字对象的真实度和自然度。

可选地,在本实施例的一个可能的实现方式中,在102中,具体可以将所述语音特征信息输入预设的数字对象动态识别模型,以获得所述语音特征信息对应的动态参数。

在该实现方式中,预设的数字对象动态识别模型可以是预先训练的数字对象动态识别模型。

在该实现方式的一个具体实现过程中,首先,可以获取样本数据,所述样本数据包括样本语音特征信息和所述样本语音特征信息的样本动态参数。其次,根据所述样本数据,对待训练的数字对象动态识别模型进行训练,以获得所述数字对象动态识别模型,所述数字对象动态识别模型用于表征待识别的语音特征信息和动态参数的对应关系。

在该实现方式中,所述数字对象动态识别模型可以包括所述第一子模型、所述第二子模型和所述第三子模型。

具体地,所述第一子模型可以是语音特征识别模型。所述第二子模型可以是表情识别模型,即唇动模型。所述第三子模型可以是姿态识别模型、即人体姿态模型。

进一步地,所述第一子模型的网络结构可以包括共振峰分析网络(FormantAnalysis Network)、发音网络(Articulation Network)和意识注意网络(AwareAttention network)。可以理解的是,第一子模型的网络结构的顺序可以是从共振峰分析网络到发音网络再到意识注意网络。

所述第二子模型的网络结构可以包括意识注意网络(Aware Attentionnetwork)、面部全连接层(Face Fully Connected Layer)、和面部输出层(Face OutputLayer)。可以理解的是,第二子模型的网络结构的顺序可以是从意识注意网络到面部全连接层再到面部输出层。

所述第三子模型的网络结构可以包括意识注意网络(Aware Attentionnetwork)、面部输出层(Face Output Layer)、身体全连接层(Body Fully ConnectedLayer)、和身体输出层(Body Output Layer)。可以理解的是,第三子模型的网络结构的顺序可以是从意识注意网络+面部输出层到身体全连接层再到身体输出层。

这样,在本实现方式中,可以通过将语音特征信息输入预设的数字对象动态识别模型,识别得到语音特征信息的动态参数,可以提高所获得的动态参数的准确性,以便于后续可以根据该动态参数,对预设的数字对象进行驱动处理,生成更加生动和更加接近真实效果的数字对象的动画,从而进一步地提升数字对象的真实度和自然度。

可选地,在本实施例的一个可能的实现方式中,在102中,还可以获取所述语音特征信息对应的语义特征信息,进而可以根据所述语义特征信息,获得所述动态参数。

在该实现方式中,所述动态参数可以包括躯体动作参数和嘴部动作参数。所述躯体动作参数用于表征躯体动作变化,所述嘴部动作参数用于表征嘴部动作变化。

在该实现方式的一个具体实现过程中,具体可以根据所述语义特征信息,获得所述嘴部动作参数,进而可以根据所述语义特征信息和所述嘴部动作参数,获得所述躯体动作参数。

具体地,首先,可以对所述语音特征信息进行语义特征提取处理,以获得所述语音特征信息的语义特征信息。其次,可以对所述语义特征信息进行口型识别处理,以获得所述嘴部动作参数。再次,可以对所述语义特征信息和所述嘴部动作参数进行姿态识别处理,以获得所述躯体动作参数躯体动作参数。

在该实现方式中,所述躯体动作参数可以用于表征逐帧动画的躯体动作变化,例如半身动作变化和全身动作变化。所述嘴部动作参数,即口型参数可以用于表征逐帧动画的口型变化,即面部表情变化、嘴部动作变化。

在该实现方式中,可以利用预设的数字对象动态识别模型对所述语音特征信息进行识别处理,得到所述语音特征信息对应的躯体动作参数和嘴部动作参数。

在该实现方式的另一个具体实现过程中,所述数字对象动态识别模型可以包括所述第一子模型、所述第二子模型和所述第三子模型。

在该具体实现过程中,首先,可以利用第一子模型对所述语音特征信息进行语义特征提取处理,以获得所述语音特征信息的语义特征信息。其次,可以利用第二子模型对所述语义特征信息进行口型识别处理,以获得所述嘴部动作参数。再次,可以利用第三子模型对所述语义特征信息和所述嘴部动作参数进行姿态识别处理,以获得所述躯体动作参数。

这里,所述第一子模型可以是语音特征识别模型。所述第二子模型可以是表情识别模型。所述第三子模型可以是姿态识别模型。

具体地,将所述语音特征信息输入数字对象动态识别模型时,首先,语音特征信息可以经过语音特征识别模型,得到语义特征信息。然后,将语义特征信息输入表情识别模型,以输出嘴部动作参数。再次,将语义特征信息和嘴部动作参数输入姿态识别模型,以输出躯体动作参数。最后,将嘴部动作参数和躯体动作参数作为数字对象动态识别模型的识别结果输出。

这样,在本实现方式中,可以通过对语音特征信息进行语义特征提取处理,得到语义特征信息,再对语义特征信息进行口型识别处理,得到嘴部动作参数,并对语义特征信息和嘴部动作参数进行姿态识别处理,得到躯体动作参数。由此,可以获得的准确性更高地嘴部动作参数和躯体动作参数,以便于后续可以根据嘴部动作参数和躯体动作参数,对预设的数字对象进行驱动处理,生成更加生动和更加接近真实效果的数字对象的动画,从而进一步地提升数字对象的真实度和自然度。

需要说明的是,本实现方式中所提供的获得嘴部动作参数和躯体动作参数的具体实现过程,可以结合前述实现方式中所提供的获得动态参数的多种具体实现过程,来实现本实施例的数字对象的动画生成方法。详细的描述可以参见前述实现方式中的相关内容,此处不再赘述。

可以理解的是,除了可以利用数字对象动态识别模型获得语音特征信息对应的动态参数以外,还可以利用特征规则匹配的方法或者其他现有的方法获得语音特征信息对应的动态参数,在此不再赘述。

可选地,在本实施例的一个可能的实现方式中,在103中,具体可以获取预设的动画引擎中的数字对象,进而可以根据所述动态参数和所述数字对象模板,获得所述数字对象的动态画面,使得能够对所述动态画面进行渲染处理,以生成所述数字对象的动画。

在该实现方式中,预设的数字对象,即数字对象形象模板,可以包括但不限于预设的动画引擎中的数字对象形象模板、利用建模和动画软件所预先制作的数字对象形象模板以及预先对真实对象进行扫描重建所获得的数字对象形象模板等。

在该实现方式中,预设的动画引擎可以包括但不限于虚幻引擎(Unreal Engine,UE)、Unity、以及其他的可以生成动画的引擎或者工具。

在该实现方式的一个具体实现过程中,获取预设的动画引擎中的数字对象,进而可以根据所述动态参数和所述数字对象,获得所述数字对象的动态画面,使得能够利用动画引擎,对所述动态画面进行渲染处理,以生成所述数字对象的动画。

在该实现方式的另一个具体实现过程中,首先,可以根据所述动态参数,利用预设的驱动工具或动画引擎,对预设的数字对象进行驱动处理,以获得所述数字对象的动态画面。然后,利用动画引擎,对所述动态画面进行渲染处理,以生成所述数字对象的动画。

在该实现方式的再一个具体实现过程中,所述动态参数包括嘴部动作参数和躯体动作参数。首先,可以根据嘴部动作参数和躯体动作参数与预设的数字对象,获得所述数字对象的动态画面。然后,利用动画引擎,对所述动态画面进行渲染处理,以生成所述数字对象的动画。

该实现过程的一种情况,在根据嘴部动作参数和躯体动作参数与预设的数字对象,获得所述数字对象的动态画面之前,可以根据嘴部动作参数的标识和躯体动作参数的标识,对嘴部动作参数和躯体动作参数进行对齐处理,以获得对齐后的嘴部动作参数和躯体动作参数。

这里,嘴部动作参数的标识可以是用于表征嘴部动作参数所属的画面帧,即可以是用于表征该嘴部动作参数用于形成某一帧画面。躯体动作参数的标识可以是用于表征躯体动作参数所属的画面帧,即可以是用于表征该躯体动作参数用于形成某一帧画面。

具体地,根据嘴部动作参数的标识和躯体动作参数的标识,对嘴部动作参数和躯体动作参数进行帧对齐处理,以获得帧对齐后的嘴部动作参数和躯体动作参数。

这样,在本实现方式中,可以通过根据动态参数和预设的动画引擎中的数字对象,获得数字对象的动态画面,再对数字对象的动态画面进行渲染处理,获得更加生动和逼真传神的数字对象的动画,从而进一步地提升数字对象的真实度和自然度。

需要说明的是,本实现方式中所提供的生成所述数字对象的动画的具体实现过程,可以结合前述实现方式中所提供的获得动态参数的多种具体实现过程,来实现本实施例的数字对象的动画生成方法。详细的描述可以参见前述实现方式中的相关内容,此处不再赘述。

可选地,在本实施例的一个可能的实现方式中,在101中,具体可以获取所述目标文本,进而可以对所述目标文本进行语音转换处理,以获得所述目标文本对应的语音,使得能够对所述语音进行特征提取处理,以获得所述语音特征信息。

在本实现方式中,目标文本可以是用于驱动所述数字对象进行播报的文字内容。

在该实现方式的一个具体实现过程中,在对所述文本进行语音转换处理之前,可以根据所述文本中的标点符号,例如逗号或句号,对所述文本进行划分处理,得到包括多个文字段的文本。

在该实现方式的另一个具体实现过程中,可以利用从文本到语音(Text ToSpeech,TTS)模型,对所述文本进行语音转换处理,以获得所述文本对应的语音。

具体地,可以将所述文本的多个文字段输入TTS模型,输出所述文本对应的语音。

例如,所述文本对应的语音可以是机器音。所述文本对应的语音的格式可以是流式音频。

在该实现方式的再一个具体实现过程中,对所述语音进行取MFCC(Mel FrequencyCepstrum Coefficient,梅尔频率倒谱系数)特征提取处理,以获得所述语音特征信息。

这里,该MFCC特征可以最大保留语音的音频的高低频细节,并可以对单音色音频进行实时且高效的编码。

可以理解的是,除了可以提取语音的MFCC特征,也可以提取语音的其他声学特征,例如能量特征、PLP(Perceptual Linear Prediction,感知线性预测)特征、PITCH特征等。

在该实现方式的再一个具体实现过程中,可以根据预设的窗口长度,对文本对应的语音进行划分处理,在对划分处理结果进行取MFCC特征提取处理,得到所述语音特征信息,以将所述语音特征信息输入预设的数字对象动态识别模型。

示例性的,预设的窗口长度可以385毫秒(ms)的窗口。每满385ms的窗口可以组成一个用于输入数字对象动态识别模型的语音特征信息的音频输入帧。

这样,在本实现方式中,可以通过对目标文本进行语音转换处理,以及对文本对应的语音进行特征提取处理,得到语音特征信息,可以获得识别效果更好的语音特征信息,从而提升对语音特征信息识别的准确性。而且,对该语音特征信息进行识别处理后,可以得到更加准确地动态参数,以便于后续可以根据该动态参数,对预设的数字对象进行驱动处理,生成更加生动和逼真的数字对象的动画,从而进一步地提升数字对象的真实度和自然度。

需要说明的是,本实现方式中所提供的获取目标文本的语音特征信息的具体实现过程,可以结合前述实现方式中所提供的多种具体实现过程,来实现本实施例的数字对象的动画生成方法。详细的描述可以参见前述实现方式中的相关内容,此处不再赘述。

本实施例中,通过获取目标文本的语音特征信息,进而可以对所述语音特征信息进行识别处理,以获得所述语音特征信息对应的动态参数,使得能够根据所述动态参数,对预设的数字对象进行驱动处理,以生成所述数字对象的动画,由于可以通过输入的文本获得用于驱动数字对象的动态参数,利用该动态参数可以实时驱动数字对象动态播报该文本,可以生成更加生动和更加接近真实效果的数字对象动画,从而提升数字对象的真实度和自然度。

另外,采用本实施例所提供的技术方案,可以通过将语音特征信息输入预设的数字对象动态识别模型,识别得到语音特征信息的动态参数,可以提高所获得的动态参数的准确性,以便于后续可以根据该动态参数,对预设的数字对象进行驱动处理,生成更加生动和更加接近真实效果的数字对象的动画,从而进一步地提升数字对象的真实度和自然度。

另外,采用本实施例所提供的技术方案,可以通过对语音特征信息进行语义特征提取处理,得到语义特征信息,再对语义特征信息进行口型识别处理,得到嘴部动作参数,并对语义特征信息和嘴部动作参数进行姿态识别处理,得到躯体动作参数。由此,可以获得的准确性更高地嘴部动作参数和躯体动作参数,以便于后续可以根据嘴部动作参数和躯体动作参数,对预设的数字对象进行驱动处理,生成更加生动和更加接近真实效果的数字对象的动画,从而进一步地提升数字对象的真实度和自然度。

另外,采用本实施例所提供的技术方案,可以通过根据动态参数和预设的动画引擎中的数字对象,获得数字对象的动态画面,再对数字对象的动态画面进行渲染处理,获得更加生动和逼真传神的数字对象的动画,从而进一步地提升数字对象的真实度和自然度。

另外,采用本实施例所提供的技术方案,可以通过对目标文本进行语音转换处理,以及对文本对应的语音进行特征提取处理,得到语音特征信息,可以获得识别效果更好的语音特征信息,从而提升对语音特征信息识别的准确性。而且,对该语音特征信息进行识别处理后,可以得到更加准确地动态参数,以便于后续可以根据该动态参数,对预设的数字对象进行驱动处理,生成更加生动和逼真的数字对象的动画,从而进一步地提升数字对象的真实度和自然度。

图2是根据本公开第二实施例的示意图,如图2所示。

201、获取样本数据,所述样本数据包括样本语音特征信息和所述样本语音特征信息对应的样本动态参数。

202、将所述样本语音特征信息作为输入、所述样本动态参数作为标签,对预设模型进行训练,以获得数字对象动态识别模型,所述数字对象动态识别模型用于识别语音特征信息对应的动态参数,所述动态参数用于表征动作变化。

需要说明的是,样本动态参数可以作为所述样本语音特征信息的标签数据。

需要说明的是,201~202的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,例如,网络侧的动画生成平台中的处理引擎或者分布式系统等,本实施例对此不进行特别限定。

可以理解的是,所述应用可以是安装在本地终端上的本地程序(nativeApp),或者还可以是本地终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。

这样,可以通过获取样本数据,所述样本数据包括样本语音特征信息和所述样本语音特征信息的样本动态参数,进而可以将所述样本语音特征信息作为输入、所述样本动态参数作为标签,对预设模型进行训练,以获得数字对象动态识别模型,所述数字对象动态识别模型用于识别语音特征信息对应的动态参数,所述动态参数用于表征动作变化,由于通过利用样本语音特征信息和样本动态参数,训练得到该数字对象动态识别模型,便于模型更有针对性地学习到语音特征信息和动态参数的关系信息,减少了学习的信息损失,从而保障了模型的识别性能和准确性。

可选地,在本实施例的一个可能的实现方式中,在202中,所述样本动态参数可以包括样本躯体动作参数和样本嘴部动作参数。预设模型,即待训练的数字对象动态识别模型可以包括第一子模型、第二子模型和第三子模型。

在该实现方式的一个具体实现过程中,首先,具体可以将所述样本语音特征信息输入所述预设模型中的第一子模型,以获得第一输出结果,所述第一子模型用于表征语音特征信息与语义特征信息的对应关系,其次,可以将所述第一输出结果和所述样本嘴部动作参数输入所述预设模型中的第二子模型,以获得第二输出结果,所述第二子模型用于表征语义特征信息与嘴部动作参数的对应关系,再次,可以将所述第一输出结果、所述第二输出结果和所述样本躯体动作参数输入所述预设模型中的第三子模型,以获得第三输出结果,所述第三子模型用于表征语义特征信息、嘴部动作参数与躯体动作参数的对应关系。最后,可以根据所述第一输出结果、所述第二输出结果和所述第三输出结果,对所述预设模型进行更新训练,以获得所述数字对象动态识别模型。

具体地,所述第一输出结果可以是与样本语音特征信息对应的语义特征信息,即参考语义特征信息。

所述第二输出结果可以是与参考语义特征信息对应的嘴部动作参数,即参考嘴部动作参数。

在该实现方式的一个具体实现过程中,预设模型,即待训练的数字对象动态识别模型可以是基于深度神经网络的模型。所述第一子模型可以是语音特征识别模型,即语音特征网络。所述第二子模型可以是表情识别模型,即唇动模型或唇动网络。所述第三子模型可以是姿态识别模型、即人体姿态模型或人体姿态网络。

可以的理解是,该参考嘴部动作参数可以是待训练的数字对象动态识别模型的输出结果之一。第三子模型输出的第三输出结果是与参考语义特征信息和参考口型对应的躯体动作参数,即参考躯体动作参数。该参考躯体动作参数也可以是待训练的数字对象动态识别模型的输出结果之一。

在该实现方式的另一个具体实现过程中,可以根据参考嘴部动作参数和参考躯体动作参数,对待训练的数字对象动态识别模型的参数进行调整,并进行更新训练,直到满足预设的终止条件,以获得该数字对象动态识别模型。

具体地,预设的终止条件可以包括但不限于模型的损失函数到达预设阈值,模型训练次数达到预设的次数阈值等。

可以理解的是,预设模型训练的过程中,每个子模型既可以是单独计算损失函数,也可以是计算该预设模型整体的联动的损失函数,此处可以不做具体限定。

在该实现方式的另一个具体实现过程中,首先,具体可以根据所述样本语音特征信息,训练所述待训练的数字对象动态识别模型中的第一子模型,以获得第一输出结果,所述第一子模型用于表征语音特征信息与语义特征信息的对应关系。其次,可以根据所述第一输出结果和所述样本嘴部动作参数,训练所述待训练的数字对象动态识别模型中的第二子模型,以获得第二输出结果,所述第二子模型用于表征语义特征信息与嘴部动作参数的对应关系。再次,可以根据所述第一输出结果、所述第二输出结果和所述样本躯体动作参数,训练所述待训练的数字对象动态识别模型中的第三子模型,所述第三子模型用于表征语义特征信息、嘴部动作参数与躯体动作参数的对应关系。最后,根据训练完成的所述第一子模型、所述第二子模型和所述第三子模型,获得所述数字对象动态识别模型。

这样,在本实现方式中,可以通过根据样本语音特征信息、样本躯体动作参数和样本嘴部动作参数,对具有三个子模型的预设模型进行训练,可以学习到更加全面地信息,获得识别效果更好地数字对象动态识别模型,从而进一步地提升了模型的识别性能和准确性。

而且,将第一子模型的输出与第二子模型的输出联合作为第三子模型的输入,可以使得模型学习到不同语音场景下,语音、口型以及姿态的匹配信息,也进一步地提升了模型的识别性能和准确性。

可选地,在本实施例的一个可能的实现方式中,在201中,具体可以对目标视频数据进行动态参数检测处理,以获得初始动态参数,对所述目标视频数据中的语音数据进行音色转换处理,以获得特定音色的语音数据,进而可以对所述特定音色的语音数据进行语音特征提取处理,以获得所述样本语音特征信息,还可以根据所述目标视频数据中的语音数据和所述特定音色的语音数据,对所述初始动态参数进行调整处理,以获得所述样本动态参数。

在该实现方式的一个具体实现过程中,可以录制真实对象朗读预设的文本的视频,以获取目标视频数据,即视频数据。

在该具体实现过程中,可以利用普通的具有拍摄功能的设备进行视频的录制。所述视频数据可以包括动态画面和语音数据。该动态画面包括但不限于真实对象的半身画面和全身画面。

可以理解的是,除了可以通过现场录制相关视频的方式获取所述视频数据以外,也可以直接获取已存储的相关视频数据。

在该实现方式的另一个具体实现过程中,所述动态参数可以包括躯体动作参数和嘴部动作参数。首先,具体可以对视频数据进行躯体的姿态检测处理和面部的口型检测处理。然后,根据姿态检测结果和预设的参数化躯体模型,获得躯体动作参数,并根据口型检测结果和预设的参数化面部模型,获得嘴部动作参数。

该具体实现过程的一种情况,可以对视频数据逐帧进行躯体的位置检测处理,根据躯体的位置检测结果,获得姿态检测结果。

在该具体实现过程中,姿态检测结果可以包括每一帧画面中人体的位置数据。

在该具体实现过程中,预设的参数化躯体模型可以是3D参数化躯体模型。

具体地,根据姿态检测结果和3D参数化躯体模型,可以进行3D姿态重建,得到对应的躯体动作参数,即姿态参数。

可选地,可以将姿态检测结果输入3D参数化躯体模型,输出对应的躯体动作参数。

这里,该躯体动作参数,即pose参数,可以包括关节参数和其他可以用于表征躯体动作的参数。

该具体实现过程的另一种情况,对视频数据逐帧进行面部的位置检测处理,根据面部的位置检测结果,获得口型检测结果。

在该具体实现过程中,口型检测结果可以包括每一帧画面中面部的位置数据。该面部的位置数据可以包括口的位置数据和口周围的面部区域的位置数据。

在该具体实现过程中,预设的参数化面部模型可以是3D参数化面部模型。

具体地,根据口型检测结果和3D参数化面部模型,可以进行3D面部重建,得到对应的嘴部动作参数,即口型参数。

可选地,可以将口型检测结果输入3D参数化面部模型,输出对应的嘴部动作参数。

这里,该嘴部动作参数,即融合形状(blend shape)参数,可以包括用于表征口型变化和表情变化的参数。

在该实现方式的再一个具体实现过程中,具体可以利用预设的TTS模型,对所述视频数据中的语音数据进行音色转换处理,以获得特定音色的语音数据,进而可以根据语音数据和特定音色的语音数据,对所述动态参数进行调整处理,以获得所述样本动态参数。

在该具体实现过程中,所述视频数据中的语音数据可以包括真人声音的语音数据,即原音。所述特定音色的语音数据可以包括机器音的语音数据,即机器音。

需要说明的是,数字对象通常是利用机器音进行语音播报的,所以可以先将录制的真人原音转换为机器音。

在该具体实现过程中,首先,可以利用预设的TTS模型,将语音数据转换为特定音色的语音数据。

其次,可以利用预设的语音识别模型,分别对语音数据和特定音色的语音数据进行识别处理,获得语音数据中每一个发音单元的发音时长和特定音色的语音数据中每一个发音单元的发音时长。

具体地,语音数据中每一个发音单元的发音时长可以是第一发音时长。特定音色的语音数据中每一个发音单元的发音时长可以是第二发音时长。每一个发音单元可以包括字和停顿区。

再次,计算第一发音时长和第二发音时长的比值,根据计算结果对所述动态参数进行调整处理,以获得所述样本动态参数。

具体地,若所述比值大于1,可以对所述动态参数进行压缩处理。

或者,若所述比值小于1,可以对所述动态参数进行拉伸处理。

再或者,若所述比值等于1,可以不对所述动态参数进行调整处理。

可选地,可以利用线性插值算法,对所述动态参数进行拉伸处理。可以利用采样算法,对所述动态参数进行拉伸压缩处理。

可以理解的是,语音数据和动态参数都是基于同一视频数据的,语音数据和动态参数具有对应关系,所以可以根据语音数据和特定音色的语音数据,对动态参数进行调整处理,得到特定音色的语音数据对应的动态参数,进而可以利用调整后的动态参数,形成新的动画。

可以理解的是,该特定音色可以包括机器音和其他除了真人声音以外的音色,本公开不做具体限定。

在该实现方式的再一个具体实现过程中,具体可以对所述特定音色的语音数据进行MFCC特征提取处理,以获得所述样本语音特征信息。

在该具体实现过程中,可以根据预设的窗口长度,对特定音色的语音数据进行划分处理,对划分处理结果进行MFCC特征提取处理,并可以将提取到的MFCC语音特征信息作为所述样本语音特征信息。

示例性的,预设的窗口长度可以是385ms的语音窗口。根据该预设的窗口长度,把特定音色的语音数据分成64个语音片段,对每个的语音片段提取长度为32个MFCC分量长度,组成64乘以32维的MFCC语音特征信息,将该MFCC语音特征信息作为样本语音特征信息。

这里,该MFCC特征可以最大保留语音的音频的高低频细节。并且该MFCC特征可以对单音色音频进行实时且高效的编码,其训练和测试效果也较好。

可以理解的是,除了可以提取语音的MFCC特征,也可以提取语音的其他声学特征,例如能量特征、PLP(Perceptual Linear Prediction,感知线性预测)特征、PITCH特征等。

这样,在本实现方式中,可以通过对所获取的视频数据进行多个预处理操作,获得更加有效地样本语音特征信息和样本动态参数,以便于后续可以根据样本语音特征信息和样本动态参数,训练出识别效果更好的数字对象动态识别模型,从而进一步地提升了模型的识别性能和准确性。

需要说明的是,本实现方式中所提供的获取样本数据的具体实现过程,可以结合前述实现方式中所提供的获得数字对象动态识别模型多种具体实现过程,来实现本实施例的数字对象的动画生成方法。详细的描述可以参见前述实现方式中的相关内容,此处不再赘述。

本实施例中,可以通过获取样本数据,所述样本数据包括样本语音特征信息和所述样本语音特征信息的样本动态参数,进而可以根据所述样本数据,对待训练的数字对象动态识别模型进行训练,以获得所述数字对象动态识别模型,所述数字对象动态识别模型用于表征待识别的语音特征信息和动态参数的对应关系,由于通过利用样本语音特征信息和样本动态参数,训练得到该数字对象动态识别模型,便于模型更有针对性地学习到语音特征信息和动态参数的匹配信息,减少了学习的信息损失,从而保障了模型的识别性能和准确性。

另外,采用本实施例所提供的技术方案,可以通过根据样本语音特征信息、样本躯体动作参数和样本嘴部动作参数,对具有三个子模型的待训练的数字对象动态识别模型进行训练,可以学习到更加全面地信息,获得识别效果更好地数字对象动态识别模型,从而进一步地提升了模型的识别性能和准确性。

而且,将第一子模型的输出与第二子模型的输出联合作为第三子模型的输入,可以使得模型学习到不同语音场景下,语音、口型以及姿态的匹配信息,也进一步地提升了模型的识别性能和准确性。

另外,采用本实施例所提供的技术方案,可以通过对所获取的视频数据进行多个预处理操作,获得更加有效地样本语音特征信息和样本动态参数,以便于后续可以根据样本语音特征信息和样本动态参数,训练出识别效果更好的数字对象动态识别模型,从而进一步地提升了模型的识别性能和准确性。

图3是根据本公开第三实施例的示意图,如图3所示。

在本实施例中,该技术方案的应用场景可以是利用文本驱动数字人的半身动画。图4是根据本公开第三实施例的技术原理的示意图。如图4所示,首先可以进行视频录制,以获得视频数据和语音数据,对视频数据和语音数据分别进行数据处理和动画转换,获得用于模型训练的语音特征信息与语音特征信息对应的动态参数,该动态参数包括躯体动作参数和嘴部动作参数。然后,利用语音特征信息与语音特征信息对应的躯体动作参数和嘴部动作参数,进行预设的数字对象动态识别模型的模型训练。最后,利用该训练好的预设的数字对象动态识别模型进行模型推理,以及实现UE4数字人驱动。该数字对象动态识别模型可以包括数字人动态识别模型。

为了更好地说明本实施例的方案,现结合该应用场景进行如下的详细说明。

301、获取视频数据。

在本实施例中,可以预先录制相关的视频,以获取视频数据。

具体地,可以使用具有普通摄像头的设备录制模特半身视频。模特在朗读预设的文本,例如内置的文本话术时,其上半身会自然地产生与朗诵的文本内容相应的动作。

这里,该内置的文本话术可以是包含各种发音音节的中文语句。该内置的文本话术的数量可以是120条中文语句。上半身动作可以是与文本内容和文本内容表征的情绪相关的手臂与手势以及头部,例如点头、摇头等,自然运动。如图5A和图5B所示。图5A和图5B是根据本公开第三实施例的录制的视频的示意图。

可以理解的是,在录制视频画面的同时可以同步记录模特声音信息。

302、对视频数据进行动态参数检测处理,以获得动态参数。

在本实施例中,一方面,首先,可以对视频数据逐帧进行面部的位置检测处理,根据面部的位置检测结果,获得口型检测结果。然后,根据口型检测结果和3D参数化面部模型,可以进行3D面部重建,得到对应的嘴部动作参数。如图6所示。

另一方面,首先,可以对视频数据逐帧进行人体的位置检测处理,根据人体的位置检测结果,获得姿态检测结果。然后根据姿态检测结果和3D参数化人体模型,可以进行3D姿态重建,得到对应的躯体动作参数。如图7所示。

在本实施例中,该躯体动作参数,即姿态参数或pose系数,可以用来表达视频逐帧的半身运动。

该嘴部动作参数,即blend shape系数,可以用来表达视频逐帧的口型变化。

303、对视频数据中的语音数据进行音色转换处理,以获得特定音色的语音数据。

304、根据语音数据和特定音色的语音数据,对动态参数进行调整处理,以获得样本动态参数。

305、对特定音色的语音数据进行语音特征提取处理,以获得样本语音特征信息。

在本实施例中,视频数据中的语音数据可以是真人声音的语音数据,即原音。特定音色的语音数据可以是机器音的语音数据,即机器音。

在步骤303中,首先,可以利用预设的TTS模型,将原音为机器音。然后,利用预设的语音识别模型,分别对原音和机器音进行识别处理,获得原音中每一个发音单元的发音时长和机器音中每一个发音单元的发音时长。如图8所示。每一个发音单元可以包括字和停顿区,如“你”、“好”、“停顿区”和“呀”。

这里,该预设的语音识别模型可以包括但不限于自动语音识别(AutomaticSpeech Recognition,ASR)模型,以及其他基于VOSK工具的语音识别模型。

进一步地,在步骤304中,可以计算原音中每一个发音单元的发音时长和机器音中每一个发音单元的发音时长的比值。根据该比值,可以相应的拉伸或压缩人体的pose系数和人脸blend shape系数,以形成新的动画。

具体地,对人体的pose系数和人脸blend shape系数的拉伸和压缩操作可以通过线性插值或者采样的方式进行。

在步骤305中,可以对特定音色的语音数据进行MFCC特征提取处理,以获得样本语音特征信息。

这里,利用该MFCC特征的原因是其能最大保留音频的高低频细节,相对于真人音频,机器音音色统一,整体频率变化也较小。而且,MFCC特征可以对单音色音频进行实时且高效的编码,其训练和测试效果也较好。

在本实施例中,对于特定音色的语音数据,可以使用每一个大小为385ms的语音窗口,把特定音色的语音数据分成64个语音片段,并对每个的语音片段提取长度为32个分量(MFCC分量长度),组成64*32维的MFCC语音特征信息。将MFCC语音特征信息作为输入数字对象动态识别模型的样本语音特征信息。

在本实施例中,结合MFCC语音特征信息与pose系数和blend shape系数,可以组成语音特征和pose系数/blend shape系数的数据对(pair),即样本数据。该样本数据可以用于步骤306中的模型训练。

可以理解的是,通过步骤303至305,可以对视频进行动画转换,即将真人视频转换为基于机器音的动画,并获得用于模型训练的样本数据。

306、根据样本语音特征信息和样本动态参数,对待训练的数字对象动态识别模型进行训练,以获得数字对象动态识别模型。

在本实施例中,该数字对象动态识别模型可以是基于深度神经网络的模型。如图9所示。

该基于深度神经网络的模型可以包括由语音特征网络、唇动网络和人体姿态网络三个子网络,即三个子模型。

具体地,该语音特征网络的网络结构可以为Formant Analysis Network→Articulation Network→Aware Attention network

具体地,该唇动网络的网络结构可以为Aware Attention network→Face FullyConnected Layer→Face Output Layer。

具体地,该人体姿态网络的网络结构可以为Aware Attention network+FaceOutput Layer→Body Fully Connected Layer→Body Output Layer。

在本实施例中,首先,具体可以将样本语音特征信息,输入语音特征网络,以对语音特征网络进行训练,并输出语义特征信息。其次,可以将语义特征信息和样本嘴部动作参数,输入唇动网络,以对唇动网络进行训练,以输出嘴部动作参数。再次,可以将语义特征信息、嘴部动作参数和样本躯体动作参数,输入人体姿态网络,以对人体姿态网络进行训练,并输出躯体动作参数。最后,可以根据输出的嘴部动作参数和输出的躯体动作参数,对待训练的数字对象动态识别模型进行更新训练,直至满足训练终止条件,获得数字对象动态识别模型。

需要说的是,唇动网络的输出结果可以用来表征语音中的节奏信息,相较于语音特征网络的输出结果更能高效表现爆破音等特征。通常,在爆破音和急促音情况下,上半身动作也会有明显的节奏与幅度。因此,语音特征网络的输出结果与唇动网络的输出结果进行融合处理,联合作为人体姿态网络的输入,可以有效地提升爆破音和急促音与上半身动作的匹配度。

307、获取待处理的文本。

308、对文本进行语音转换处理,以获得文本对应的语音。

309、对语音进行特征提取处理,以获得语音特征信息。

310、将语音特征信息输入预设的数字对象动态识别模型,以获得语音特征信息对应的躯体动作参数和嘴部动作参数。

311、根据躯体动作参数和嘴部动作参数,对预设的数字人进行驱动处理,以生成数字人的动画。

在本实施例中,首先,可以将待处理的文本,即长文本按照逗号或句号的位置进行分段,多个文字段。对于每一段文字段,可以利用TTS模型生成对应的机器音并流式返回机器音的音频。该流式的机器音的音频每满385ms的窗口可以组成一个音频输入帧,并提取每个音频输入帧的MFCC语音特征信息。

然后,将MFCC语音特征信息输入预设的数字对象动态识别模型,输出对应的躯体动作参数和嘴部动作参数。

再次,对躯体动作参数和嘴部动作参数进行帧对齐处理,并合并对齐处理后的躯体动作参数和嘴部动作参数,进而可以利用合并结果实时驱动UE4数字人像。如图10所示,通过UE4可以生成并导出渲染后的数字人半身动作和讲话的视频动画。

在本实施例中,可以通过获取样本数据,所述样本数据包括样本语音特征信息和所述样本语音特征信息的样本动态参数,进而可以根据所述样本数据,对待训练的数字对象动态识别模型进行训练,以获得所述数字对象动态识别模型,所述数字对象动态识别模型用于表征待识别的语音特征信息和动态参数的对应关系,由于通过利用样本语音特征信息和样本动态参数,训练得到该数字对象动态识别模型,便于模型更有针对性地学习到语音特征信息和动态参数的关系信息,减少了学习的信息损失,从而保障了模型的识别性能和准确性。

而且,可以通过获取待处理的文本的语音特征信息,进而可以对所述语音特征信息进行识别处理,以获得所述语音特征信息对应的动态参数,使得能够根据所述动态参数,对预设的数字人进行驱动处理,以生成所述数字人的动画,由于可以通过输入的文本获得用于驱动数字人的动态参数,利用该动态参数可以实时驱动数字人动态播报该文本,可以生成更加生动和更加接近真人效果的数字人动画,从而提升数字人的真实度和自然度。

另外,采用本实施例所提供的技术方案,可以通过给定一段文本信息便驱动数字人产生合理自然的半身动作以及口型效果,即用文本驱动能力低成本生成数字人半身动作与讲话的视频动画,该方案能够直接应用于直播场景,而且利用模型获得文本信息对应的动态参数便可驱动数字人,无需使用复杂的人体动作和面部口型捕捉设备,例如相机阵列的设备等,极大的降低了前期设备投入成本以及后期动画修改的人力成本。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本公开所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

图11是根据本公开第四实施例的示意图,如图11所示。本实施例的数字对象的动画生成装置1100可以包括第一获取单元1101、第二获取单元1102和驱动处理单元1103。其中,第一获取单元1101,用于获取目标文本对应的语音特征信息;第二获取单元1102,用于获取所述语音特征信息对应的动态参数,所述动态参数用于表征动作变化;驱动处理单元1103,用于根据所述动态参数,对预设的数字对象进行驱动处理,以生成所述数字对象的动画。

需要说明的是,本实施例的数字对象的动画生成装置的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,本实施例对此不进行特别限定。

可以理解的是,所述应用可以是安装在本地终端上的本地程序(nativeApp),或者还可以是本地终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。

可选地,在本实施例的一个可能的实现方式中,所述第二获取单元1102,具体可以用于将所述语音特征信息输入预设的数字对象动态识别模型,以获得所述语音特征信息对应的动态参数。

可选地,在本实施例的一个可能的实现方式中,所述第二获取单元1102,还可以用于获取所述语音特征信息对应的语义特征信息,根据所述语义特征信息,获得所述动态参数。

可选地,在本实施例的一个可能的实现方式中,所述动态参数包括躯体动作参数和嘴部动作参数,所述第二获取单元1102,具体可以用于根据所述语义特征信息,获得所述嘴部动作参数,根据所述语义特征信息和所述嘴部动作参数,获得所述躯体动作参数。

可选地,在本实施例的一个可能的实现方式中,所述第一获取单元1101,具体可以用于获取所述目标文本,对所述目标文本进行语音转换处理,以获得所述目标文本对应的语音,对所述语音进行特征提取处理,以获得所述语音特征信息。

可选地,在本实施例的一个可能的实现方式中,所述动态参数包括躯体动作参数和嘴部动作参数,所述第二获取单元1102,还可以用于对所述语音特征信息进行语义特征提取处理,以获得所述语音特征信息的语义特征信息,对所述语义特征信息进行口型识别处理,以获得所述嘴部动作参数,以及对所述语义特征信息和所述嘴部动作参数进行姿态识别处理,以获得所述躯体动作参数。

可选地,在本实施例的一个可能的实现方式中,所述驱动处理单元1103,具体可以用于获取预设的动画引擎中的所述数字对象,根据所述动态参数和所述数字对象,获得所述数字对象的动态画面;以及对所述动态画面进行渲染处理,以生成所述数字对象的动画。

可选地,在本实施例的一个可能的实现方式中,所述获取单元1101,具体可以用于获取待处理的所述文本;对所述文本进行语音转换处理,以获得所述文本对应的语音;以及对所述语音进行特征提取处理,以获得所述语音特征信息。

本实施例中,通过第一获取单元获取目标文本的语音特征信息,进而可以由第二获取单元对所述语音特征信息进行识别处理,以获得所述语音特征信息对应的动态参数,使得驱动处理单元能够根据所述动态参数,对预设的数字对象进行驱动处理,以生成所述数字对象的动画由于可以通过输入的文本获得用于驱动数字对象的动态参数,利用该动态参数可以实时驱动数字对象动态播报该文本,可以生成更加生动和更加接近真实效果的数字对象动画,从而提升数字对象的真实度和自然度。

本实施例中,通过获取目标文本的语音特征信息,进而可以对所述语音特征信息进行识别处理,以获得所述语音特征信息对应的动态参数,使得能够根据所述动态参数,对预设的数字对象进行驱动处理,以生成所述数字对象的动画,由于可以通过输入的文本获得用于驱动数字对象的动态参数,利用该动态参数可以实时驱动数字对象动态播报该文本,可以生成更加生动和更加接近真实效果的数字对象动画,从而提升数字对象的真实度和自然度。

另外,采用本实施例所提供的技术方案,可以通过将语音特征信息输入预设的数字对象动态识别模型,识别得到语音特征信息的动态参数,可以提高所获得的动态参数的准确性,以便于后续可以根据该动态参数,对预设的数字对象进行驱动处理,生成更加生动和更加接近真实效果的数字对象的动画,从而进一步地提升数字对象的真实度和自然度。

另外,采用本实施例所提供的技术方案,可以通过对语音特征信息进行语义特征提取处理,得到语义特征信息,再对语义特征信息进行口型识别处理,得到嘴部动作参数,并对语义特征信息和嘴部动作参数进行姿态识别处理,得到躯体动作参数。由此,可以获得的准确性更高地嘴部动作参数和躯体动作参数,以便于后续可以根据嘴部动作参数和躯体动作参数,对预设的数字对象进行驱动处理,生成更加生动和更加接近真实效果的数字对象的动画,从而进一步地提升数字对象的真实度和自然度。

另外,采用本实施例所提供的技术方案,可以通过根据动态参数和预设的动画引擎中的数字对象,获得数字对象的动态画面,再对数字对象的动态画面进行渲染处理,获得更加生动和逼真传神的数字对象的动画,从而进一步地提升数字对象的真实度和自然度。

另外,采用本实施例所提供的技术方案,可以通过对目标文本进行语音转换处理,以及对文本对应的语音进行特征提取处理,得到语音特征信息,可以获得识别效果更好的语音特征信息,从而提升对语音特征信息识别的准确性。而且,对该语音特征信息进行识别处理后,可以得到更加准确地动态参数,以便于后续可以根据该动态参数,对预设的数字对象进行驱动处理,生成更加生动和逼真的数字对象的动画,从而进一步地提升数字对象的真实度和自然度。

图12是根据本公开第五实施例的示意图,如图12所示。本实施例的模型的训练装置1200可以包括获取单元1201和训练单元1202。其中,获取单元1201,用于获取样本数据,所述样本数据包括样本语音特征信息和所述样本语音特征信息的样本动态参数;训练单元1202,用于将所述样本语音特征信息作为输入、所述样本动态参数作为标签,对预设模型进行训练,以获得数字对象动态识别模型,所述数字对象动态识别模型用于识别语音特征信息对应的动态参数,所述动态参数用于表征动作变化。

需要说明的是,本实施例的模型的训练装置的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,例如,网络侧的动画生成平台中的处理引擎或者分布式系统等,本实施例对此不进行特别限定。

可以理解的是,所述应用可以是安装在本地终端上的本地程序(nativeApp),或者还可以是本地终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。

可选地,在本实施例的一个可能的实现方式中,所述样本动态参数包括样本躯体动作参数和样本嘴部动作参数,所述训练单元1202,具体可有用于将所述样本语音特征信息输入所述预设模型中的第一子模型,以获得第一输出结果,所述第一子模型用于表征语音特征信息与语义特征信息的对应关系;将所述第一输出结果和所述样本嘴部动作参数输入所述预设模型中的第二子模型,以获得第二输出结果,所述第二子模型用于表征语义特征信息与嘴部动作参数的对应关系;将所述第一输出结果、所述第二输出结果和所述样本躯体动作参数输入所述预设模型中的第三子模型,以获得第三输出结果,所述第三子模型用于表征语义特征信息、嘴部动作参数与躯体动作参数的对应关系;以及根据所述第一输出结果、所述第二输出结果和所述第三输出结果,对所述预设模型进行更新训练,以获得所述数字对象动态识别模型。

可选地,在本实施例的一个可能的实现方式中,所述获取单元1201,具体可以用于对所获取的目标视频数据进行动态参数检测处理,以获得初始动态参数,对所述目标视频数据中的语音数据进行音色转换处理,以获得特定音色的语音数据,对所述特定音色的语音数据进行语音特征提取处理,以获得所述样本语音特征信息,以及根据所述目标视频数据中的语音数据和所述特定音色的语音数据,对所述初始动态参数进行调整处理,以获得所述样本动态参数。

本实施例中,可以通过获取单元获取样本数据,所述样本数据包括样本语音特征信息和所述样本语音特征信息的样本动态参数,进而可以由训练单元将所述样本语音特征信息作为输入、所述样本动态参数作为标签,对预设模型进行训练,以获得数字对象动态识别模型,所述数字对象动态识别模型用于识别语音特征信息对应的动态参数,所述动态参数用于表征动作变化,由于通过利用样本语音特征信息和样本动态参数,训练得到该数字对象动态识别模型,便于模型更有针对性地学习到语音特征信息和动态参数的关系信息,减少了学习的信息损失,从而保障了模型的识别性能和准确性。

另外,采用本实施例所提供的技术方案,可以通过根据样本语音特征信息、样本躯体动作参数和样本嘴部动作参数,对具有三个子模型的待训练的数字对象动态识别模型进行训练,可以学习到更加全面地信息,获得识别效果更好地数字对象动态识别模型,从而进一步地提升了模型的识别性能和准确性。而且,将第一子模型的输出与第二子模型的输出联合作为第三子模型的输入,可以使得模型学习到不同语音场景下,语音、口型以及姿态的匹配信息,也进一步地提升了模型的识别性能和准确性。

另外,采用本实施例所提供的技术方案,可以通过对所获取的视频数据进行多个预处理操作,获得更加有效地样本语音特征信息和样本动态参数,以便于后续可以根据样本语音特征信息和样本动态参数,训练出识别效果更好的数字对象动态识别模型,从而进一步地提升了模型的识别性能和准确性。

本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示,电子设备1300包括计算单元1301,其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序,来执行各种适当的动作和处理。在RAM 1303中,还可存储电子设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

电子设备1300中的多个部件连接至I/O接口1305,包括:输入单元1306,例如键盘、鼠标等;输出单元1307,例如各种类型的显示器、扬声器等;存储单元1308,例如磁盘、光盘等;以及通信单元1309,例如网卡、调制解调器、无线通信收发机等。通信单元1309允许电子设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理,例如数字对象的动画生成方法、模型的训练方法。例如,在一些实施例中,数字对象的动画生成方法、模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到电子设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时,可以执行上文描述的数字对象的动画生成方法、模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数字对象的动画生成方法、模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号