首页> 中国专利> 一种基于特征融合的风格迁移方法、装置及其相关组件

一种基于特征融合的风格迁移方法、装置及其相关组件

摘要

本发明公开了一种基于特征融合的风格迁移方法、装置及其相关组件。该方法包括:通过预训练好的内容编码器对内容图像进行特征提取,得到目标内容特征;通过预训练好的风格编码器对风格图像进行特征提取,得到目标风格特征;将所述目标内容特征与所述目标风格特征进行特征融合并输入至解码器进行解码,得到目标风格迁移图像并输出。该方法输出的目标风格迁移图像具有更加丰富和准确的内容细节以及风格颜色。

著录项

  • 公开/公告号CN113808011A

    专利类型发明专利

  • 公开/公告日2021-12-17

    原文格式PDF

  • 申请/专利权人 深圳万兴软件有限公司;

    申请/专利号CN202111159752.9

  • 发明设计人 张文雷;

    申请日2021-09-30

  • 分类号G06T3/00(20060101);G06K9/62(20060101);

  • 代理机构44242 深圳市精英专利事务所;

  • 代理人李燕娥

  • 地址 518000 广东省深圳市南山区粤海街道软件产业基地5栋D座1001

  • 入库时间 2023-06-19 13:45:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-01-04

    实质审查的生效 IPC(主分类):G06T 3/00 专利申请号:2021111597529 申请日:20210930

    实质审查的生效

说明书

技术领域

本发明涉及图像生成领域,尤其涉及一种基于特征融合的风格迁移方法、装置及其相关组件。

背景技术

目前风格迁移是指将图像或视频渲染成具有艺术风格的画作。通常来说,风格迁移的输入有两个:内容图和风格图,输出则为风格化后的结果图。目前风格迁移功能已经进入工业界用于商用,并能够产生相应较高价值。

目前已有的风格迁移算法大多基于编码-解码结构,图像风格迁移算法相关代表应用有Prisma、Art show、大画家、威力导演等,其中Prisma和大画家更是以该算法作为产品唯一的亮点,提供诸多付费风格。这些风格迁移算法大多是基于通用的编码-解码结构,利用编码器同步提取内容特征和风格特征,将两种特征直接输入解码器进行解码,同时从颜色、内容、平滑度等角度设计相关损失函数以监督网络获得风格化结果。

现有风格迁移方法通过编码解码结构虽然能够产生对应风格结果,但仍然存在以下不足:内容图在经过编码器多层卷积后,损失了较多低层级特征,导致效果图主观上较为模糊、细节不足,效果不能令人满意;风格图往往只经过编码器后就与内容特征直接输入解码器,造成风格迁移结果在颜色和纹理上始终与原始风格图具有较为明显的差异,无法使结果具有较强的风格辨识度。

发明内容

本发明的目的是提供一种基于特征融合的风格迁移方法、装置及其相关组件,旨在解决现有风格迁移方法输出结果风格化程度低、色彩差别大、细节损失较多问题。

为解决上述技术问题,本发明的目的是通过以下技术方案实现的:提供一种基于特征融合的风格迁移方法,其包括:

通过预训练好的内容编码器对内容图像进行特征提取,得到目标内容特征;

通过预训练好的风格编码器对风格图像进行特征提取,得到目标风格特征;

将所述目标内容特征与所述目标风格特征进行特征融合并输入至解码器进行解码,得到目标风格迁移图像并输出。

另外,本发明要解决的技术问题是还在于提供一种基于特征融合的风格迁移装置,其包括:

内容特征提取单元,用于通过预训练好的内容编码器对内容图像进行特征提取,得到目标内容特征;

风格特征提取单元,用于通过预训练好的风格编码器对风格图像进行特征提取,得到目标风格特征;

解码输出单元,用于将所述目标内容特征与所述目标风格特征进行特征融合并输入至解码器进行解码,得到目标风格迁移图像并输出。

另外,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于特征融合的风格迁移方法。

另外,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于特征融合的风格迁移方法。

本发明实施例公开了一种基于特征融合的风格迁移方法、装置及其相关组件,其中,方法包括:通过预训练好的内容编码器对内容图像进行特征提取,得到目标内容特征;通过预训练好的风格编码器对风格图像进行特征提取,得到目标风格特征;将所述目标内容特征与所述目标风格特征进行特征融合并输入至解码器进行解码,得到目标风格迁移图像并输出。该方法输出的目标风格迁移图像具有更加丰富和准确的内容细节以及风格颜色。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于特征融合的风格迁移方法的流程示意图;

图2为本发明实施例提供的基于特征融合的风格迁移方法的试验效果图;

图3为本发明实施例提供的基于特征融合的风格迁移方法的网络框架图;

图4为本发明实施例提供的第一残差卷积模块的流程示意图;

图5为本发明实施例提供的基于特征融合的风格迁移装置的示意性框图;

图6为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

目前已有的风格迁移算法大多基于编码-解码结构,往往存在输出结果风格化程度低、色彩差别大、细节损失较多的问题,可能较大程度上影响风格化效果,因此本申请实施例提供一种基于特征融合的风格迁移方法。

请参阅图1,图1为本发明实施例提供的基于特征融合的风格迁移方法的流程示意图;

如图1所示,该方法包括步骤S101~S103。

S101、通过预训练好的内容编码器对内容图像进行特征提取,得到目标内容特征;

S102、通过预训练好的风格编码器对风格图像进行特征提取,得到目标风格特征;

S103、将所述目标内容特征与所述目标风格特征进行特征融合并输入至解码器进行解码,得到目标风格迁移图像并输出。

在本实施例中,先通过内容编码器和风格编码器分别将目标内容特征和目标风格特征提取出来,然后将目标内容特征和目标风格特征进行融合,再将融合后的特征输入至解码器进行解码,输出目标风格迁移图像,本申请实施例提供的基于特征融合的风格迁移方法输出的目标风格迁移图像保留有较多的细节信息,且颜色更加准确和丰富。

请参阅图2,为了佐证本申请实施例方法的实际效果,现提供一张原始内容图像a,一张原始风格图像b,然后使用现有技术中无特征融合步骤的迁移方法生产目标风格迁移图像c,再使用本申请实施例中的基于特征融合的风格迁移方法得到目标风格迁移图像d,将生成的目标风格迁移图像c和d对比,可以明显的看出目标风格迁移图像c的内容较为模糊,且颜色与原始风格图像b有较为明显的差异,而目标风格迁移图像d迁移结果细节信息较多,且颜色更加准确和丰富,因此本申请提供的方法实用性和适用性较好。

请参阅图3,具体一实施例中,所述步骤S101包括:

S201、将所述内容图像压缩成统一的格式并输入至第一内容卷积层,得到卷积后的低级卷积内容特征;

S202、对所述低级卷积内容特征进行激活和池化,得到低级内容特征;

S203、将所述低级内容特征输入至第二内容卷积层,得到卷积后的中级卷积内容特征;

S204、对所述中级卷积内容特征进行激活和池化,得到中级内容特征;

S205、将所述中级内容特征输入至第三内容卷积层,得到卷积后的高级卷积内容特征;

S206、利用激活函数将所述高级卷积内容特征激活,得到目标内容特征并输出。

在本实施例中,将所述内容图像统一压缩成(224,224,3)的格式;同时,第一内容卷积层数目为(3,64,3),其中,(3,64,3)表示第一内容卷积层输入通道数是3,输出通道数是64,内核大小为3×3;第二内容卷积层数目为(64,128,3);第三内容卷积层的数目为(128,256,3);其中,在本实施例中,所述步骤S202、步骤S204和步骤S206均利用ReLU函数对低级卷积内容特征、中级卷积内容特征以及高级卷积内容特征进行激活,且均利用最大池化方式对低级卷积内容特征、中级卷积内容特征以及高级卷积内容特征进行池化处理,通过本申请的内容编码器能够对内容图像提取到较多的细节信息,且需要的计算量较少。

具体一实施例中,所述步骤S102包括:

S301、将所述风格图像压缩成统一的格式并输入至第一风格卷积层,得到卷积后的低级卷积风格特征;

S302、对所述低级卷积风格特征进行激活和池化,得到低级风格特征;

S303、将所述低级风格特征输入至第二风格卷积层,得到卷积后的中级卷积风格特征;

S304、对所述中级卷积风格特征进行激活和池化,得到中级风格特征;

S305、将所述中级风格特征输入至第三风格卷积层,得到卷积后的高级卷积风格特征;

S306、利用激活函数将所述高级卷积风格特征激活,得到目标风格特征并输出。

在本实施例中,将所述风格图像统一压缩成(224,224,3)的格式;同时,第一风格卷积层数目为(3,64,3),其中,(3,64,3)表示第一风格卷积层输入通道数是3,输出通道数是64,内核大小为3×3;第二风格卷积层数目为(64,128,3);第三风格卷积层的数目为(128,256,3);其中,在本实施例中,所述步骤S302、步骤S304和步骤S306均利用ReLU函数对低级卷积风格特征、中级卷积风格特征以及高级卷积风格特征进行激活,且均利用最大池化方式对低级卷积风格特征、中级卷积风格特征以及高级卷积风格特征进行池化处理,通过本申请的风格编码器能够对风格图像提取到较多的细节信息,且需要的计算量较少。

请参阅图3,具体一实施例中,所述步骤S103包括:

S401、将所述目标内容特征与所述目标风格特征进行融合,得到融合后的目标特征;

S402、将所述目标特征进行正则化处理并输入至第一残差卷积模块进行解码,得到第一解码特征;

S403、将所述第一解码特征进行正则化处理并输入至第二残差卷积模块进行解码,得到第二解码特征;

S404、将所述第二解码特征进行正则化处理并输入至第三残差卷积模块进行解码,得到目标风格迁移图像并输出。

在本实施例中,先将目标内容特征与目标风格特征进行融合,得到融合后的目标特征,通过这种方式,一方面减少目标特征的复杂度,使得解码器对目标特征的解码过程更快;另一方面,能够使得目标特征具有较多的细节信息,且其颜色更加准确和丰富。在本实施例中,先使用AdaIN正则化层对目标特征进行正则化处理,一方面防止出现过拟合问题,另一方面可以限制解码器的复杂度,使得解码器在复杂度和性能达到平衡;再用3个残差卷积模块进行解码,使得解码器获得更加高效的性能。

请参阅图4,具体一实施例中,所述步骤S402包括:

S501、将所述目标特征进行正则化处理,得到第一正则化特征;

S502、对所述第一正则化特征进行上采样,得到第一中间特征;

S503、将所述第一中间特征输入至第一残差卷积层,得到第一中间卷积特征;

S504、对所述第一中间卷积特征进行激活并标准化处理,得到第一中间处理特征;

S505、将所述第一中间处理特征输入至第二残差卷积层,得到第二中间卷积特征;

S506、对所述第二中间卷积特征进行激活并标准化处理,得到第二中间处理特征;

S507、将所述第一中间特征输入至第三残差卷积层,得到第三中间卷积特征;

S508、将所述第二中间处理特征与所述第三中间卷积特征进行相加,得到第一解码特征。

在本实施例中,先将目标特征进行正则化处理,避免出现过拟合问题,然后对第一正则化特征进行上采样操作,进而调整第一正则化特征的尺寸,再将第一正则化特征利用ReLU激活函数进行激活以及通过实例标准化处理,以获得更强的表征能力;再通过第二残差卷积层对标准化处理后的第二中间卷积特征进行卷积,最后将得到的第二中间处理特征与第三中间卷积特征进行相加,得到第一解码特征,第一残差卷积层、第二残差卷积层用于加深解码器的深度,利用未经标准化处理的第三中间卷积特征进行残差特征补充。

具体一实施例中,所述步骤S403包括:

S601、将所述高级内容特征和高级风格特征进行相加后与所述第一解码特征进行相乘,得到第一残差特征;

S602、将所述第一残差特征进行正则化处理,得到第二正则化特征;

S603、对所述第二正则化特征进行上采样,得到第二中间特征;

S604、将所述第二中间特征输入至第四残差卷积层,得到第四中间卷积特征;

S605、对所述第四中间卷积特征进行激活并标准化处理,得到第三中间处理特征;

S606、将所述第三中间处理特征输入至第五残差卷积层,得到第五中间卷积特征;

S607、对所述第五中间卷积特征进行激活并标准化处理,得到第四中间处理特征;

S608、将所述第二中间特征输入至第六残差卷积层,得到第六中间卷积特征;

S609、将所述第四中间处理特征与所述第六中间卷积特征进行相加,得到第二解码特征。

在本实施例中,第二残差卷积模块和第一残差卷积模块的结构一致,对高级内容特征和高级风格特征进行相加后与第一解码特征进行相乘,得到第一残差特征,也就是说,先利用高级内容特征和高级风格特征中的信息对第一解码特征做微调以及纠正,以解决特征在解码器不断解码后不断丢失原始信息的问题,同时,对第一解码特征表征能力进行增强,使得输出的第二解码特征具有更多的细节信息,且使得颜色的正确率提高。需要说明的是,所述步骤S601即附图3中第一残差卷积模块和第二残差卷积模块之间的“向量加-向量乘”。

具体一实施例中,所述步骤S404包括:

S701、将所述中级内容特征和中级风格特征进行相加后与所述第二解码特征进行相乘,得到第二残差特征;

S702、将所述第二残差特征进行正则化处理,得到第三正则化特征;

S703、对所述第三正则化特征进行上采样,得到第三中间特征;

S704、将所述第三中间特征输入至第七残差卷积层,得到第七中间卷积特征;

S705、对所述第七中间卷积特征进行激活并标准化处理,得到第五中间处理特征;

S706、将所述第五中间处理特征输入至第八残差卷积层,得到第八中间卷积特征;

S707、对所述第八中间卷积特征进行激活并标准化处理,得到第六中间处理特征;

S708、将所述第六中间特征输入至第九残差卷积层,得到第九中间卷积特征;

S709、将所述第六中间处理特征与所述第九中间卷积特征进行相加,得到第三解码特征;

S710、将所述低级内容特征和低级风格特征进行相加后与所述第三解码特征进行相乘,得到目标风格迁移图像并输出。

在本实施例中,第三残差卷积模块和第二残差卷积模块、第二残差卷积模块的结构一致,通过中级内容特征和中级风格特征进行相加后与所述第二解码特征进行相乘,得到第二残差特征,进一步利用中级内容特征和中级风格特征中的信息对第二解码特征的信息进行微调和纠正;在输出第三解码特征后,将低级内容特征和低级风格特征进行相加后与第三解码特征进行相乘,进一步利用低级内容特征和低级风格特征对第三解码特征的现象进行微调和纠正,在本实施例中,充分利用编码过程中产生的不同阶级特征信息对每一残差卷积模块输出的结果进行调整,使得最后输出的目标风格迁移图像内容细节和风格颜色更加丰富和准确,进而得到更好的风格迁移结果。

在设计的时候,可以采用通道融合、权重融合等其他特征融合方式将内容特征和风格特征与相应的解码特征融合,故本实施例不再赘述。

本发明实施例还提供一种基于特征融合的风格迁移装置,该基于特征融合的风格迁移装置用于执行前述基于特征融合的风格迁移方法的任一实施例。具体地,请参阅图5,图5是本发明实施例提供的基于特征融合的风格迁移装置的示意性框图。

如图5所示,基于特征融合的风格迁移装置800,包括:

内容特征提取单元801,用于通过预训练好的内容编码器对内容图像进行特征提取,得到目标内容特征;

风格特征提取单元802,用于通过预训练好的风格编码器对风格图像进行特征提取,得到目标风格特征;

解码输出单元803,用于将所述目标内容特征与所述目标风格特征进行特征融合并输入至解码器进行解码,得到目标风格迁移图像并输出。

该装置输出的目标风格迁移图像具有更加丰富和准确的内容细节以及风格颜色。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

上述基于特征融合的风格迁移装置可以实现为计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6,图6是本发明实施例提供的计算机设备的示意性框图。该计算机设备1100是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。

参阅图6,该计算机设备1100包括通过系统总线1101连接的处理器1102、存储器和网络接口1105,其中,存储器可以包括非易失性存储介质1103和内存储器1104。

该非易失性存储介质1103可存储操作系统11031和计算机程序11032。该计算机程序11032被执行时,可使得处理器1102执行基于特征融合的风格迁移方法。

该处理器1102用于提供计算和控制能力,支撑整个计算机设备1100的运行。

该内存储器1104为非易失性存储介质1103中的计算机程序11032的运行提供环境,该计算机程序11032被处理器1102执行时,可使得处理器1102执行基于特征融合的风格迁移方法。

该网络接口1105用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备1100的限定,具体的计算机设备1100可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

本领域技术人员可以理解,图6中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图6所示实施例一致,在此不再赘述。

应当理解,在本发明实施例中,处理器1102可以是中央处理单元(CentralProcessing Unit,CPU),该处理器1102还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例的基于特征融合的风格迁移方法。

所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号