公开/公告号CN113822236A
专利类型发明专利
公开/公告日2021-12-21
原文格式PDF
申请/专利权人 杭州云栖智慧视通科技有限公司;
申请/专利号CN202111381735.X
申请日2021-11-22
分类号G06K9/00(20060101);G06K9/46(20060101);G06N3/08(20060101);G06T7/11(20170101);G06T7/90(20170101);
代理机构12217 天津市尚仪知识产权代理事务所(普通合伙);
代理人邓琳
地址 310000 浙江省杭州市西湖区转塘街道转塘科技经济区块16号2幢401室
入库时间 2023-06-19 13:46:35
技术领域
本发明涉及行人检索技术,具体来说,涉及一种基于人体语义部件的上衣颜色替换方法。
背景技术
近年来行人检索技术在安防领域已经得到广泛的应用,其主要技术是视频跟踪技术把行人检测和推入进底库,然后在进行行人的检索。但是在行人检索的过程中,由于不同位置、不同区域以及不同时间段的摄像头采集的行人图像会带来诸如,光照、姿态、摄像头角度、目标大小以及换装等问题,其中由于光照、姿态、摄像头角度以及大小目标等问题可以通过阈适应的方法得到一定的缓解,而换装问题给行人检索带来巨大的困难。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种基于人体语义部件的上衣颜色替换方法,以克服现有相关技术所存在的上述技术问题。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种基于人体语义部件的上衣颜色替换方法,包括以下步骤:
S1、输入图片,首先通过语义分割模型对行人图片进行部件提取;
S2、将上述提取的部件分割成多个身体部分和衣物部分;
S3、其中,对于衣物部分通过颜色分类器分出多个颜色阈;
S4、然后多颜色阈行人数据进行计算GAN生成模型;
具体包括以下步骤:
S41、首先将输入图片通过1x1卷积实现通道的变换,将3通道的图像变为64通道的特征图以供下面模块(ResBlk1-5内容编码模块与ResBlkx5风格编码模块)的使用;
S42、将步骤S41中的输出特征图输入到content编码器与style编码其中进行编码,分别得到content feature与 style class;
S43、将步骤S42得content feature结果结合style class进行上采样,同时将ResBlk-10得结果通过上采样后作为行人语义分割模型得一个输入,与此同时将输入图片作为行人语义分割模型得另一个输入,在训练期间把解码得风格图片得语义分割结果与输入图片得结果进行计算损失,来约束GAN模型;
S44、将解码后得风格图像与行人语义分割约束得图像通过1x1卷积输出到原有的3个通道图像,得到输出结果;
S5、将上述GAN训练结果进行后处理操作;
S6、经过后处理操作后的图片,全部输出为结果。
可选的,所述步骤S1中,获取特征的方法,使用ResNet18与通道注意力CAM结合的方法来获取行人语义部件的信息,所述步骤S4中所述GAN训练的同时通过人体语义部件进行约束,以得到固定位置的阈迁移。
可选的,所述后处理操作主要后处理包括高斯模糊和边界羽化中的一种或多种。
可选的,所述计算GAN生成模型中,生成的行人语义部件与实际约束语义部件的损失,该部分主要有2个损失函数,一个是用来约束GAN生成模型生成语义部件的损失函数dice loss和与标签语义部件的欧氏距离L2距离。
可选的,所述损失函数dice loss为:
其中,X、Y分别表示GAN模型生成行人是产生的语义部件和语义部件标签。
可选的,所述L2距离为:
其中,X、Y分别表示GAN模型生成行人是产生的语义部件和语义部件标签。
可选的,所述生成的行人语义部件与实际约束语义部件的损失:
其中
可选的,在输入特征为A的情况下,所述CAM注意力机制流程如下:
S11、分别对A做reshape(C×N)和reshape与transpose(N×C);
S12、将得到的两个特征图相乘,再通过softmax得到channel attention map X(C×C);
S13、接着把X的转置(C×C)与reshape的A(C×N)做矩阵乘法,再乘以尺度系数β,再reshape为原来形状,最后与A相加得到最后的输出E;
S14、其中β初始化为0,并逐渐的学习得到更大的权重。
本发明的有益效果为:本申请采用一种基于语义部件与GAN来生成不同颜色的上衣颜色的图像来增强模型对于上衣颜色的鲁棒性,进而提升模型对于换装行人检索的性能。该方法是一种数据生成的方法,可以倍数级别扩增数据集,在使用时无需重新设计模型更不会带来额外的参数推模型推理负担。在不重新设计模型的基础上通过数据方法来增强模型对于上衣颜色的鲁棒性,进而提升模型对于换装行人检索的性能。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于人体语义部件的上衣颜色替换方法的流程图;
图2是根据本发明实施例的部件参考图;
图3是根据本发明实施例的GAN模型架构图;
图4是GAN换装数据集加入后实验结果参考表。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明的实施例,提供了一种基于人体语义部件的上衣颜色替换方法,包括以下步骤:
S1、输入图片,首先通过语义分割模型对行人图片进行部件提取;
S2、将上述提取的部件分割成多个身体部分和衣物部分;
S3、其中,对于衣物部分通过颜色分类器分出多个颜色阈;
S4、然后多颜色阈行人数据进行计算GAN生成模型;
具体包括以下步骤:
S41、首先将输入图片通过1x1卷积实现通道的变换,将3通道的图像变为64通道的特征图以供下面模块(ResBlk1-5内容编码模块与ResBlkx5风格编码模块)的使用;
S42、将步骤S41中的输出特征图输入到content编码器与style编码其中进行编码,分别得到content feature与 style class;
S43、将步骤S42得content feature结果结合style class进行上采样,同时将ResBlk-10得结果通过上采样后作为行人语义分割模型得一个输入,与此同时将输入图片作为行人语义分割模型得另一个输入,在训练期间把解码得风格图片得语义分割结果与输入图片得结果进行计算损失,来约束GAN模型;
S44、将解码后得风格图像与行人语义分割约束得图像通过1x1卷积输出到原有的3个通道图像,得到输出结果;
S5、将上述GAN训练结果进行后处理操作;
S6、经过后处理操作后的图片,全部输出为结果。
其中,所述GAN训练的同时通过人体语义部件进行约束,以得到固定位置的阈迁移。
所述后处理操作主要后处理包括高斯模糊和边界羽化中的一种或多种。
所述计算GAN生成模型中,生成的行人语义部件与实际约束语义部件的损失,该部分主要有2个损失函数,一个是用来约束GAN生成模型生成语义部件的损失函数dice loss和与标签语义部件的欧氏距离L2距离。
所述损失函数dice loss为:
其中,X、Y分别表示GAN模型生成行人是产生的语义部件和语义部件标签。
所述L2距离为:
其中,X、Y分别表示GAN模型生成行人是产生的语义部件和语义部件标签。
所述生成的行人语义部件与实际约束语义部件的损失即总损失:
其中
其中CAM注意力机制流程如下(图3,假设输入特征为A):
S11、分别对A做reshape(C×N)和reshape与transpose(N×C);
S12、将得到的两个特征图相乘,再通过softmax得到channel attention map X(C×C);
S13、接着把X的转置(C×C)与reshape的A(C×N)做矩阵乘法,再乘以尺度系数β,再reshape为原来形状,最后与A相加得到最后的输出E;
S14、其中β初始化为0,并逐渐的学习得到更大的权重。
为了方便理解本申请上述方法,提供如下实施例:
如图2-图3所示,以公开数据集Market-1501行人为例,把其划分为7个颜色阈值。根据本发明的实施例,包括以下步骤:
步骤S101、输入7个阈的图片,通过训练好的语义分割模型得到行人的语义部件,获取特征的方法,使用ResNet18与通道注意力CAM结合的方法来获取行人语义部件的信息,部件如图2所示。
步骤S102、计算GAN生成模型生成的行人语义部件与实际约束语义部件的损失,该部分主要有2个损失函数,一个是用来约束GAN生成模型生成语义部件的损失函数diceloss和与标签语义部件的欧氏距离L2距离:
dice loss函数:
L2距离:
总损失:
式(1)和式(2)中的X、Y分别表示GAN模型生成行人是产生的语义部件和语义部件标签。而式(3)中的
步骤S103、推理时去除语义分支直接进行推理并进行后处理操作,主要后处理包括高斯模糊、边界羽化等操作;
步骤S104、经过后处理操作后的图片,全部输出为结果。
综上所述,借助于本发明的上述技术方案,采用一种基于语义部件与GAN来生成不同颜色的上衣颜色的图像来增强模型对于上衣颜色的鲁棒性,进而提升模型对于换装行人检索的性能。该方法是一种数据生成的方法,可以倍数级别扩增数据集,在使用时无需重新设计模型更不会带来额外的参数推模型推理负担。在不重新设计模型的基础上通过数据方法来增强模型对于上衣颜色的鲁棒性,进而提升模型对于换装行人检索的性能。
最后,如图4所示,通过GAN换装数据集加入后实验结果,从结果可以看出,在换装测试集上,增加GAN数据集后,mAP和CMC均有明显的提升。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
机译: (54)标题:一种扩展商务智能系统的形式和功能的基于内容的方法(57)摘要:商务智能(BI)系统具有通过以下方式将其功能扩展到项目生命周期之外的能力:具体内容。复杂的多维查询被解释为原子子表达式的树,这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板,该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层,使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。
机译: 一种基于语义相似度的电子文档自动迭代聚类的方法,一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质
机译: 裁切成一定形状的织物,以将其应用于手机的外部部件-一种强力或风琴的作用是用该系统生产的家具当前的颜色替换这些乐器。i抛光,电镀和上漆