首页> 中国专利> 基于深度对抗网络的视频-动画风格迁移方法

基于深度对抗网络的视频-动画风格迁移方法

摘要

本发明公开了一种基于深度对抗网络的视频‑动画风格迁移方法。使用本发明能够从无配对、仅含风格标签的训练数据中学习,能迁移从未见过的新风格。本发明采用生成‑对抗网络,通过内容编码器和风格编码器实现动作片段的动作内容和动作风格解耦,通过解码器进行动作内容、风格匹配,并利用判别器对匹配结果的风格(包括真实性)、动作内容进行判断,进而完成风格迁移。该方法能在无配对的数据上训练,且风格编码器具有一般性,能够迁移全新的风格,此外,该方法能绕过三维重建,直接从二维视频中提取风格,迁移到三维动作上,大大拓展了动作风格迁移的应用范围。

著录项

  • 公开/公告号CN112164130A

    专利类型发明专利

  • 公开/公告日2021-01-01

    原文格式PDF

  • 申请/专利权人 北京电影学院;

    申请/专利号CN202010929306.0

  • 申请日2020-09-07

  • 分类号G06T13/40(20110101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11120 北京理工大学专利中心;

  • 代理人代丽

  • 地址 100088 北京市海淀区西土城路4号

  • 入库时间 2023-06-19 09:23:00

说明书

技术领域

本发明涉及动画制作技术领域,具体涉及一种基于深度对抗网络的视频-动画风格迁移方法。

背景技术

动作的风格可以理解为一系列体现发出动作者情绪与特征的动作要素的集合,常见风格包括“得意的”、“沮丧的”、“像老人的”等等。动作风格迁移狭义上指的是使用动作片段S的动作风格与动作片段C的动作内容生成一段新的动作,广义上也包含根据动作片段C的内容,生成指定风格类别、内容相同的动作等。现有的动作风格迁移技术分为两大类别:一类使用预定义的特征(如运动模型的物理参数)提取、迁移风格,但人工定义的特征无法完全刻画复杂的风格;另一类使用数据驱动的方法,基于带标注的三维风格动作数据集训练神经网络等机器学习模型,如Holden等训练了一个动作自编码器(Daniel Holden,JunSaito,and Taku Komura.2016.A deep learning framework for character motionsynthesis and editing.ACM Transactions on Graphics(TOG)35,4(2016), 138.),包含编码器E与解码器D;对于动作内容输入C与动作风格输入S,该方案使用优化方法,在自编码器的隐空间中寻找一个隐变量H,最小化 s||G(E(S))-G(H)||

Holden等虽然使用深度神经网络刻画动作,但它用Gram矩阵描述风格,同样是一种对特征的人工定义,在实际应用中并不能完全分离动作的风格与内容,迁移效果不佳。并且,使用数据驱动的方法大多依赖于成对的动作数据,即需要内容(运动轨迹、步伐等)完全相同;仅有风格不同的动作,采集此类数据成本很高。同时,它们大多也只能对训练集中出现过的风格进行迁移,无法迁移来自动作片段的全新风格。此外,所有现有技术均只能从三维动作捕捉 (Mocap)数据中提取风格,无法利用二维视频中的风格信息。

发明内容

有鉴于此,本发明提供了一种基于深度对抗网络的视频-动画风格迁移方法,能够从无配对、仅含风格标签的训练数据中学习,能迁移从未见过的新风格。此外,该方法能绕过三维重建,直接从二维视频中提取风格,迁移到三维动作上,大大拓展了动作风格迁移的应用范围。

本发明的基于深度对抗网络的视频-动画风格迁移方法,包括如下步骤:

步骤1,构建生成-对抗网络;其中,生成-对抗网络包括生成器和判别器,生成器包括内容编码器E

内容编码器E

风格编码器E

解码器F包含AdaIN层、残差卷积层、上采样层和无激活函数的卷积层,对内容向量z

判别器判别动作片段m

步骤2,分别以“-L

其中,L

L

L

L

α

步骤3,将待迁移风格的内容动作片段和拟采用风格的风格动作片段输入训练好的生成器,实现风格迁移。

较佳的,动作片段采用一个二维矩阵m

较佳的,α

较佳的,

其中,E表示期望;M为训练集,D

较佳的,

其中,E表示期望;M为训练集,F(E

较佳的,

其中,E表示期望,M为训练集,n

较佳的,

其中,E表示期望,n

有益效果:

本发明将生成-对抗网络框架应用于动作风格迁移问题,可适用于没有成对训练数据的情况;结合对抗损失与内容一致性损失,训练风格编码器与内容编码器,达到风格、动作的解耦合。其中风格编码器能够编码训练阶段未见过的风格,使网络能在测试阶段迁移全新的风格;此外,本发明还使用一对二维-三维风格编码器将二维、三维动作映射到同一个风格向量空间,首次实现了从视频中提取风格信息。最后,本发明首次利用自适应实例归一化层操纵动作的风格信息。

附图说明

图1为本发明网络结构框图。

图2为本发明效果图。

图3为Holden的风格向量t-SNE投影与本发明的风格向量t-SNE投影对比图。

图4为给定内容动作、风格动作输入,Holden的输出与本发明输出的对比。

具体实施方式

下面结合附图并举实施例,对本发明进行详细描述。

本发明提供了一种基于深度对抗网络的视频-动画风格迁移方法,采用生成 -对抗网络(Generative Adversarial Network,GAN),通过内容编码器和风格编码器实现动作片段的动作内容和动作风格解耦,通过解码器进行动作内容、风格匹配,并利用判别器对匹配结果的风格(包括真实性)、动作内容进行判断,进而完成风格迁移。该方法能在无配对的数据上训练,且风格编码器具有一般性,能够迁移全新的风格,并且能够从二维视频中提取风格信息。

(1)网络构建

如图1所示,本发明采用的生成-对抗网络,由生成器和判别器组成。

生成器G以内容为m、风格为s的内容动作片段m

其中,内容编码器E

风格编码器E

解码器F包含一系列残差层、一维时序卷积层与自适应实例归一化 (AdaptiveInstance Normalization,以下简写为AdaIN)层。其中,AdaIN层可参见 Xun Huang andSerge Belongie.2017.Arbitrary style transfer in real-time with adaptiveinstance normalization.In Proc.ICCV.1501–1510。解码器F对内容向量 z

结合以上,输入为内容动作片段m

判别器D以单个动作片段为输入,对于每个训练风格类独立判断输入动作是否是属于该类的真实动作。其结构参照Ming-Yu Liu,Xun Huang,Arun Mallya,Tero Karras,Timo Aila,Jaakko Lehtinen,and Jan Kautz.2019.Few-shot unsupervised image-to-image translation.arXiv preprint arXiv:1905.01723(2019)。本发明的判别器依次包含卷积层、两个残差卷积层、一个步长为2的池化层、两个残差卷积层、一个步长为2的池化层、两个残差卷积层和一个卷积层。交替使用卷积层、残差层和池化层对输入进行逐步下采样。单个动作片段可以采用来自数据集的真实MoCap数据,或者来自生成器的输出m

(2)网络训练

使用包含风格标签的动作训练上述构建的生成-对抗网络。

本发明用动作的骨架信息与一个二维矩阵m

训练与损失函数:

本发明的生成-对抗网络采用由对抗损失函数(Multi-Style Adversarial Loss)L

其中,对抗损失函数(Multi-Style Adversarial Loss)L

其中,公式中M指训练集,D

内容一致性损失函数(Content Consistency Loss)L

二维-三维共享嵌入损失函数(Joint Embedding Loss)L

风格三元组损失函数(Style Triplet Loss)L

其中,n

在训练阶段,分别以-L

图2为本发明效果图,图2中,第一行对应内容动作输入;第二行对应来自三维动作、二维动作和二维视频的风格动作输入;第三行是我们的迁移结果:内容与第一行一致,风格与第二行一致。

本发明与现有技术相比,具有如下特点:

(1)现有技术需要成对训练数据,主要原因是采用监督学习的方式,对于生成的迁移结果,需要提供标准答案。本发明采用生成-对抗网络,用判别器和内容一致性损失分别约束迁移结果的风格(包括真实性)和内容与输入匹配,从而能在无配对的数据上训练。

(2)现有技术无法迁移训练阶段未见过的风格,主要原因是没有建立适用于所有风格的编码器,只对固定、离散的风格建模。本发明训练了一个一般化的风格编码器,能够泛化到新风格上,从而能够在测试阶段迁移全新的风格。

(3)Holden采用隐向量的Gram矩阵作为动作的风格描述,但其实际上并不能提取相同风格动作的共同点,也无法解耦动作中的内容信息。如图3所示,分别将Holden(DanielHolden,Jun Saito,and Taku Komura.2016.A deep learning framework for charactermotion synthesis and editing.ACM Transactions on Graphics(TOG)35, 4(2016),138.)中描述风格的Gram矩阵(图3(a))与用本发明的风格编码器得到的风格向量(图3(b))用t-SNE投影到平面,用输入动作的风格标签进行着色,本发明的风格向量有着很好的聚类结构,但Holden的风格描述并没有体现出与风格有关的结构。

如图4所示,从左到右依次是内容动作输入、风格动作输入,Holden的输出与本发明的输出。这里,风格输入为一个原地踢腿动作,Holden迁移该动作的风格时,未能剥离其中“留在原地”这一内容,导致其输出动作的内容介于向前跳跃与原地不动之间,不符合动作风格迁移的要求。

(4)现有技术均不能从视频中提取风格信息。本发明利用已有的三维训练数据及其投影,训练了一对二维-三维风格编码器,将二维、三维动作映射到同一个风格向量空间,实现从视频到三维动作的风格迁移。

综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号