首页> 中国专利> 用于由原始人物图像生成新的人物图像的方法及装置

用于由原始人物图像生成新的人物图像的方法及装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及人工智能领域。具体涉及一种用于由原始人物图像生成新的人物图像的方法，包括：提供第一原始人物图像；获取第一原始人物图像的姿态关键点；将第一原始人物图像分割成前景图像和背景图像；将前景图像及姿态关键点数据输入前景特征提取模型以提取外观特征向量和姿态特征向量，将背景图像输入背景特征提取模型以提取背景特征向量；和将外观特征向量、姿态特征向量和背景特征向量输入合成模型以合成重建图像。方法还包括：将第一和第二原始人物图像输入给经训练的神经网络模型以合成新人物图像，新的人物图像具有第一原始人物图像中的人物外观及第二原始人物图像中的背景和人物姿态。还涉及一种用于由原始人物图像生成新的人物图像的装置。

著录项

公开/公告号CN112241708A

专利类型发明专利
公开/公告日2021-01-19

原文格式PDF
申请/专利权人戴姆勒股份公司;
展开▼

申请/专利号CN202011120139.1
发明设计人王宝锋;张武强;方志杰;郭子杰;
展开▼

申请日2020-10-19
分类号G06K9/00(20060101);G06K9/46(20060101);G06K9/62(20060101);G06T7/194(20170101);G06T3/00(20060101);G06T5/30(20060101);G06N3/04(20060101);
代理机构11376 北京永新同创知识产权代理有限公司;
代理人慕弦
地址德国斯图加特
入库时间 2023-06-19 09:36:59

说明书

技术领域

本发明涉及一种用于由原始人物图像生成新的人物图像的方法。本发明还涉及一种用于由原始人物图像生成新的人物图像的装置。

背景技术

近年来，随着深度学习与神经网络等人工智能的发展，以对抗式生成网络(Generative Adavsiral Network,GAN)、变分自编码(Variational Autoencoder,VAE)为代表的生成式模型取得了长足的进步，并广泛应用于图像、语音等数据的生成。

在图像生成领域中，人物图像生成方法也正成为研究的热点。然而，目前的人物生成式网络/算法通常将包含人物的图像以矩形块(bounding box或patch)的形式裁剪出来，然后输入到网络中进行训练，且在训练中往往只关注于前景(即人物)图像区域的恢复和重建能力，而忽略了对背景图像的重建。由于没有对背景和前景解耦，这种方法一方面背景重建能力较差，生成的图像背景较为模糊，无法辨识具体场景；另一方面由于网络算力被背景像素分散，前景图像的复原能力尤其是细节等高频信息也无法达到最佳。此外，由于数据输入形式无法对背景进行有效控制，因此基于这种方法的生成图像往往只能局限于人物尺寸大小，且前景背景的语义一致性不佳，无法生成具有全场景信息的图像，严重限制了生成式模型的应用场景的泛化能力。

此外，在影音娱乐领域，例如在影视制作和电子游戏制作行业中，存在人物“外观迁移”的需求，也即将图像A中的人物外观变换成图像B中的人物的外观而不改变图像A中的人物姿态和背景。但是，现有的生成式网络难以实现真实且自然的“外观迁移”。

因此，期待提供一种能实现人物图像中的姿态、前景和背景的可控化并能生成姿态、前景及背景三者良好地融合的人物图像生成方法。

发明内容

本发明的目的通过提供一种用于由原始人物图像生成新的人物图像的方法来实现，所述方法至少包括以下步骤：

i)提供第一原始人物图像；

ii)获取第一原始人物图像中的人物的姿态关键点数据；

iii)将第一原始人物图像分割成前景图像和背景图像；

iv)将前景图像及所述姿态关键点数据输入前景特征向量提取模型以提取人物外观特征向量

v)将人物外观特征向量

根据本发明的另一方面，本发明的目的还通过一种用于由原始人物图像生成新的人物图像的方法来实现，所述方法至少包括以下步骤：

i’)提供第一原始人物图像和不同于第一原始人物图像的第二原始人物图像；

ii’)获取第一原始人物图像和第二原始人物图像中各自的人物的姿态关键点数据；

iii’)将第一原始人物图像和第二原始人物图像分别分割成前景图像和背景图像；

iv’)将第一原始人物图像的前景图像和第二原始人物图像的姿态关键点数据输入前景特征向量提取模型以提取人物外观特征向量

v’)将人物外观特征向量

根据本发明的一可选实施例，前景特征向量提取模型配置成用于重建或生成前景图像的前景生成式网络，所提取的人物外观特征向量

根据本发明的一可选实施例，背景特征向量提取模型配置成用于重建背景图像的背景生成式网络，所提取的背景特征向量

根据本发明的一可选实施例，采用以下生成式网络中的任一种来构建前景或背景生成式网络模型：生成式对抗神经网络，变分自编码及其衍生模型。

根据本发明的一可选实施例，采用以下方式执行步骤iii)或iii’)：

a)基于姿态关键点数据生成人物掩模；

b)利用人物掩模对第一、第二原始人物图像进行图像分割，以生成只包含人物的前景图像和只包含背景的背景图像。

根据本发明的一可选实施例，采用以下方式执行步骤a)：

-基于真实人体骨骼结构将姿态关键点相互连接以生成骨架二值图像；

-对骨架二值图像进行膨胀和/或腐蚀处理；以及

-对经膨胀和/或腐蚀的骨架二值图像中的孤立的零值空洞区域进行填充，以便生出人物掩模。

根据本发明的又一方面，本发明的目的还通过一种用于由原始人物图像生成新的人物图像的方法来实现，所述方法包括：将第一原始人物图像或者第一和第二原始人物图像输入给由前景生成式网络模型、背景生成式网络模型和合成网络模型组成的经训练的神经网络模型以合成新的人物图像；所述神经网络模型是采用以下方式来训练的：

i”)提供包含人物的训练图像；

ii”)获取训练图像中的人物的姿态关键点数据；

iii”)将训练图像分割成前景图像和背景图像；

iv”)将前景图像及姿态关键点数据输入前景生成式网络模型以训练前景生成式网络模型，将背景图像输入背景生成式网络模型以训练背景生成式网络模型；以及

v”)将前景生成式网络模型中从前景图像和姿态关键点数据抽取的作为降维特征的人物外观特征向量

根据本发明的一可选实施例，独立地、交互地或关联地训练前景生成式网络模型、背景生成式网络模型和合成网络模型。

根据本发明的更一方面，本发明的目的还通过一种用于由原始人物图像生成新的人物图像的装置来实现，所述装置包括处理器和与处理器通信连接的计算机可读存储装置，计算机可读存储装置中存储有计算机程序，当所述计算机程序被处理器执行时，用于实施本文所描述的方法。

根据本发明的又一方面，本发明的目的还通过一种用于由原始人物图像生成新的人物图像的装置来实现，所述装置配置成用于实施本文所描述的方法并包括：

姿态关键点识别装置，其配置成用于确定输入的原始人物图像中的人物的姿态关键点数据；

人物掩模生成模型，其配置成用于生成人物掩模；

前背景分割模型，其配置成用于将输入的原始人物图像分割成前景图像和背景图像；

前景特征向量提取模型，其配置成用于从前景图像和姿态关键点数据提取人物外观特征向量

背景特征向量提取模型，其配置成用于从背景图像提取背景特征向量

图像合成模型，其配置成用于由人物外观特征向量

根据本发明，实现了：在训练过程中，通过对前景背景进行解耦，然后通过两个独立生成网络对前景背景进行学习，并通过合成网络将前景背景进行融合，从而完成整幅图像生成模型的混合训练。

本发明提出了一种基于生成网络和前景、背景混合训练的行人图像生成方法，通过对行人及背景在不同阶段进行解耦和融合的混合训练从而有效提高生成人物图像前景和背景的图像质量以及前景和背景的语义一致性，并大大提高生成式模型应用场景的泛化能力。

从说明书、附图和权利要求书中，本发明主题的其他优点和有利实施例是显而易见的。

附图说明

本发明的更多特征及优点可以通过下述参考附图的具体实施例的详细说明来进一步阐述。所述附图为：

图1示出根据本发明的一示例性实施例的用于由原始人物图像生成新的人物图像的装置100的示意性结构框图；

图2示出根据本发明的一示例性实施例的姿态关键点的示意图；

图3示出了根据本发明的一示例性实施例的图像分割过程的流程图；

图4示出根据本发明的一示例性实施例的用于由原始人物图像生成新的人物图像的神经网络模型的示意性结构框图；

图5示出根据本发明的一示例性实施例的用于训练神经网络模型的模型训练方法200的流程图；

图6示出根据本发明的一示例性实施例的图像分割步骤的流程图；

图7示出根据本发明的一示例性实施例的人物掩模生成步骤的流程图；

图8示出根据本发明的一示例性实施例的用于由两幅原始人物图像合成新的人物图像的方法的流程图；以及

图9示出根据本发明的一示例性实施例的用于重建原始人物图像的方法的流程图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案以及有益的技术效果更加清楚明白，以下将结合附图以及多个示例性实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，而不是用于限定本发明的保护范围。在附图中，相同或类似的附图标记指代相同或等价的部件。

图1示出根据本发明的一示例性实施例的用于由原始人物图像生成新的人物图像的装置100的示意性结构框图。装置100包括处理器10和与处理器10通信连接的计算机可读存储装置20。计算机可读存储装置20中存储有计算机程序，当所述计算机程序被处理器10执行时，用于实施将在下文予以详细解释的用于生成人物图像的方法。

根据一示例性实施例，与处理器10通信连接的显示装置30被提供。借助于显示装置30，用户可以查看将被装置100处理的原始人物图像和由装置100生成的新的人物图像。

根据一示例性实施例，与处理器10通信连接的输入装置40被提供。借助于输入装置40，用户可以选择或输入将被装置100处理的原始人物图像。输入装置40例如可以包括：键盘、鼠标和/或触控屏。

根据一示例性实施例，与处理器10通信连接的摄像装置50被提供。借助于摄像装置50，用户可以拍摄人物图像以作为将被装置100处理的原始人物图像。摄像装置50例如是车载摄像装置。

根据一示例性实施例，由多个人物图像构成的人物图像集被提供。原始人物图像集可以存储在计算机可读存储装置20或与处理器10通信连接的另外的存储装置中。

图4示出根据本发明的一示例性实施例的用于由原始人物图像生成新的人物图像的神经网络模型400的示意性结构框图。

神经网络模型400主要包括：姿态关键点识别模型410，其配置成用于识别输入的原始人物图像中的人体姿态关键点；人物掩模生成模型420，其配置成用于生成恰好遮盖输入的原始人物图像中的完整人物的人物掩模I

在一示例中，前景特征向量提取模型440、背景特征向量提取模型450和图像合成模型460配置为适当形式的神经网络模型、例如生成式网络模型，尤其分别配置成通过将在下文中参考图5所详细描述的模型训练方法200所训练的前景生成式网络模型、背景生成式网络模型和合成网络模型。

在一示例中，当输入的原始人物图像带有标注的姿态关键点信息时，姿态关键点识别模型可以被省去。

图5示出根据本发明的一示例性实施例的用于训练用于由原始人物图像生成新的人物图像的神经网络模型400的模型训练方法200的流程图。

根据模型训练方法200，在步骤S210中，提供原始人物图像。示例性地，原始人物图像可以是上文提到的原始人物图像集中的任一幅图像。替代地，原始人物图像是用户借助摄像装置50、例如车载摄像装置所拍摄的人物、例如行人图像或者是从视频流中截取的一帧人物图像。

接下来，在步骤S220中，获取原始人物图像中的人物的姿态关键点(key points)数据。姿态关键点通常包括但不局限于：左右眼睛，左右耳朵，鼻子，嘴巴，颈部，左右肩膀，左右胯，左右手肘，左右手腕，左右膝盖，左右脚踝等，如图2中的多个白斑点50所示。

在一示例中，可以通过对图像进行人工标注的方式来获取姿态关键点数据。在另一示例中，可以通过将原始人物图像输入姿态关键点识别模型410来计算姿态关键点数据。姿态关键点识别模型可以采用人物检测算法、例如Open Pose、Pifpaf、HR-Net等来构建。

根据本发明的一示例性实施例，可以对原始人物图像集中的每幅图像执行姿态关键点的提前标注。在这种情况下，在步骤S210中提供原始人物图像的同时也一并提供了该原始人物图像中的人物的姿态关键点数据。

附加地或替代地，经标注后的原始人物图像集可以分为训练子集data

然后，在步骤S230中，基于步骤S220中获取的姿态关键点数据例如借助于人物掩模生成模型420和前背景分割模型430来分割原始人物图像的前景和背景以获得前景图像和背景图像。

根据一示例性实施例，步骤S220进而包括(参见图6)：

在步骤S221中，基于姿态关键点数据生成人物掩模I

然后，在步骤S222中，利用人物掩模I

为此，可参见图3，图3示出了根据本发明的一示例性实施例的图像分割过程，其中，原始人物图像31借助于生成的人物掩模32被分割成背景图像33和前景图像34。

进一步而言，示例性地，步骤S221进而可以包括(参见图7)：

在步骤S2211中，基于真实人体骨骼结构将所获取的姿态关键点相互连接以生成人物骨架二值图像；

在步骤S2212中，对骨架二值图像进行闭运算(closing operation)，即先膨胀(dilation)后腐蚀(erosion)处理；以及

在步骤S2213中，对经膨胀和腐蚀的骨架二值图像进行填充处理(fill holes)，以填充骨架二值图像中孤立的零值空洞区域，从而获得人物掩模I

在一示例中，膨胀和/或腐蚀算子的尺度可以根据人体骨架尺寸来确定。

替代地，也可以采用现有技术中已知的其它适当的方法、比如人工语义分割标注(也即通过人工将原始人物图像中包含人物的像素标注出来)或图像预处理来生成人物掩模。

根据一示例性实施例，所获取的前景图像和背景图像可以与原始人物图像具有相同的尺寸，只是前景图像中的背景区域为零值，而背景图像中的前景区域为零值，如图3所示。

接下来，在步骤S240中，将步骤S230中获取的前景图像以及步骤S220中获取的姿态关键点数据输入前景生成式网络模型以训练前景生成式网络模型，其中，前景生成式网络模型配置成用于实现前景人物的重建与生成。前景生成式网络模型对应于或包括在前描述的前景特征向量提取模型440。

总的来说，可以采用以下方程来描述前景生成式网络模型：

其中，x

根据一示例性实施例，采用以下生成式网络中的任一种来构建前景生成式网络模型：生成式对抗神经网络，变分自编码及其衍生模型。

根据一示例性实施例，前景生成式网络模型的生成器包含编码(encode)和解码(decode)的过程。在训练和生成过程中，生成器将数据x

根据本发明的一示例性实施例，前景生成式网络模型的损失函数

其中，Div(·)表示特征向量散度，L(·)表示L1或L2范数损失，GAN(·)表示GAN损失，λ

根据一示例性实施例，在将前景图像输入生成器之前，首先对前景图像实施图像预处理并进而将经预处理的前景图像输入生成器以实施编码和解码过程。示例性地，所述图像预处理包括：基于姿态关键点数据对前景图像实施人物肢体裁剪、旋转、和/或归一化等一系列图像预处理操作。对于图像预处理操作的特征和细节，本发明不作具体的限定。

在步骤S250中，将步骤S230中获取的背景图像输入背景生成式网络模型以训练背景生成式网络模型，其中，背景生成式网络模型配置成用于实现背景的重建。背景生成式网络模型可以对应于或包括在前描述的背景特征向量提取模型450。

与前景生成式网络模型不同的是，背景生成式网络模型关注于背景的重建，不需要对背景所包含内容进行更改和迁移。

总的来说，可以采用以下方程来描述背景生成式网络模型：

其中，x

根据一示例性实施例，采用以下生成式网络中的任一种来构建背景生成式网络模型：生成式对抗神经网络，变分自编码及其衍生模型。

不失一般性的，同前景生成式网络模型相似，背景生成式网络模型的生成器也包含编码和解码的过程。在训练和生成过程中，生成器首先将输入的背景图像数据x

根据本发明的一示例性实施例，背景生成式网络模型的损失函数

其中，Φ表示视觉特征向量提取器，其可以是VGG、Resnet等网络或其中几层，也可以是原始图像像素本身；L表示用来度量两个视觉特征向量的相似性的相似度方程，其可以是已知的L1距离方程和/或L2距离方程。

根据一示例性实施例，可以直接将步骤S230中获取的背景图像输入背景生成式网络模型的生成器以实施编码和解码过程。替代地，也可以在将背景图像输入背景生成式网络模型的生成器之前，首先对背景图像进行区域规划或裁剪以获得的一系列图像块(patch)的组合并进而将所获得的图像块的组合输入生成器以实施编码和解码过程。

然后，在步骤S260中，将步骤S240中获得的编码器瓶颈层的人物外观特征向量

总的来说，可以采用以下方程来描述合成网络模型：

其中，

进一步地，在合成网络模型的训练过程中，为引导模型G

根据本发明的一示例，合成网络模型的损失函数

其中，Φ表示视觉特征向量提取器，其可以是VGG、Resnet等网络或其中几层，也可以是原始图像像素本身；L表示用来度量两个视觉特征向量的相似性的相似度方程，其可以是L1距离方程和/或L2距离方程等。

在根据本发明的模型训练方法中，可以独立、交互地或联合地训练用于生成或重建前景图像的前景生成式网络模型、用于重建背景图像的背景生成式网络模型和合成网络模型。特别地，可以采用任意适当的顺序或者任意适当的交互或联合方式来实施这三个网络模型的训练。

图8示出根据本发明的一示例性实施例的用于由两幅原始人物图像合成新的人物图像的方法300的流程图。该方法300可以通过将待合成的两幅原始人物图像输入经过上文结合图5所解释的模型训练方法200所训练的神经网络模型400来实施。

在方法300中，在步骤S310中，提供第一原始人物图像。

然后，在步骤S320中，例如通过将第一原始人物图像输入姿态关键点识别模型410来获取第一原始人物图像中的姿态关键点数据。

在步骤S330中，基于步骤S320中所获取的姿态关键点数据例如借助于人物掩模生成模型420和前背景分割模型430来将第一原始人物图像分割成前景图像和背景图像。

在另一方面，在步骤S340中，提供不同于第一原始人物图像的第二原始人物图像。

接下来，在步骤S350中，例如通过将第二原始人物图像输入姿态关键点识别模型410来获取第二原始人物图像中的姿态关键点数据。

在步骤S360中，基于步骤S350中所获取的姿态关键点数据例如借助于人物掩模生成模型420和前背景分割模型430来将第二原始人物图像分割成前景图像和背景图像。

然后，在步骤S370中，例如通过将步骤S330中获取的第一原始人物图像的前景图像和步骤S350中获取的第二原始人物图像中的姿态关键点数据输入前景特征向量提取模型440来从第一原始人物图像的前景图像和第二原始人物图像的姿态关键点数据提取作为降维后的特征(例如编码器瓶颈层的特征)的人物外观特征向量

在另一方面，在步骤S380中，例如通过将步骤S360中获取的第二原始人物图像的背景图像输入背景特征向量提取模型450来从第二原始人物图像的背景图像提取作为降维后的特征(例如编码器瓶颈层的特征)的背景特征向量

接下来，在步骤S390中，例如通过将步骤S370中提取的人物外观特征向量

因而，方法300实质上可以理解成一种将一幅人物图像中的人物的外观变换成另一幅人物图像中的人物外观而保持其背景和人物姿态不变的方法。该方法300可以用于多种场合，比如数据增强或者影音娱乐领域。

图9示出根据本发明的一示例性实施例的用于重建原始人物图像的方法500的流程图。该方法500可以通过将待重建的一幅原始人物图像输入经过上文结合图5所解释的模型训练方法200所训练的神经网络模型400来实施。

在方法500中，在步骤S510中，提供原始人物图像。

然后，在步骤S520中，例如通过将原始人物图像输入姿态关键点识别模型410来获取原始人物图像中的姿态关键点数据。

在步骤S530中，基于步骤S520中所获取的姿态关键点数据例如借助于人物掩模生成模型420和前背景分割模型430来将原始人物图像分割成前景图像和背景图像。

然后，在步骤S540中，例如通过将步骤S530中获取的前景图像和步骤S520中获取的姿态关键点数据输入前景特征向量提取模型440来从前景图像和姿态关键点数据提取作为降维后的特征(例如编码器瓶颈层的特征)的人物外观特征向量

在另一方面，在步骤S550中，例如通过将步骤S530中获取的背景图像输入背景特征向量提取模型450来从背景图像提取作为降维后的特征(例如编码器瓶颈层的特征)的背景特征向量

接下来，在步骤S560中，例如通过将步骤S540中提取的人物外观特征向量

该方法500可以用于多种场合，比如数据增强或者是影音娱乐领域。

根据本发明，由于采用了前景、背景和合成三个网络模型，因此生成的图像不但具有逼真的前景和背景，而且前景与背景过渡自然，具有显著增强的场景语义一致性。

尽管一些实施例已经被说明，但是这些实施例仅仅是以示例的方式予以呈现，而没有旨在限定本发明的范围。所附的权利要求和它们的等价形式旨在覆盖落在本发明范围和精神内的所有改型、替代和改变。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于由原始人物图像生成新的人物图像的方法及装置 [P] . 中国专利： CN112241708A . 2021-01-19
2. 用于由原图像生成新的人物图像的方法及装置 [P] . 中国专利： CN112232227A . 2021-01-15
3. Character image generating device, character image generation program and character image generating method [P] . 日本专利： JP4461965B2 . 2010-05-12

机译：人物图像生成装置，人物图像生成程序和人物图像生成方法
4. Method and circuit arrangement for the realization of the type of figures mimicry and choreographing rate equivalent to the type of figures mimicry and choreographing type artificial figures Fig. vital in animation of types of fig. mobile artificially. [P] . ES2067581T3 . 1995-04-01

机译：用于实现人物模仿和编排速率的方法和电路装置，其等效于人物模仿和编排类型的人造人物。人为移动。
5. Game e.g. single-player card game, executing device, has openings for partially receiving game figures and for presetting play positions for setting game figures, where one opening is passage for passing game figures through cover [P] . 德国专利： DE102007009612A1 . 2008-08-28

机译：游戏例如单人纸牌游戏执行装置具有用于部分接收游戏人物并预设用于设置游戏人物的游戏位置的开口，其中一个开口是用于使游戏人物穿过掩体的通道