法律状态公告日
法律状态信息
法律状态
2020-06-16
授权
授权
2018-05-15
实质审查的生效 IPC(主分类):G06K9/00 申请日:20171025
实质审查的生效
2018-04-20
公开
公开
技术领域
本发明涉及一种图像识别技术,尤其是涉及一种结合直接度量和间接度量的行人再识别方法。
背景技术
行人再识别是计算机视觉中的核心技术,现如今很多计算机视觉中的高层应用都依赖于准确的行人识别结果,如目标跟踪、智能视频监控等。然而,由于图像存在光照变化、视角变化、遮挡等问题,因此行人再识别一直是计算机视觉中最具有挑战性的任务之一。作为多种视觉应用的基础和富有挑战性的任务,行人再识别技术在计算机视觉领域一直广受关注,如何更好地对行人进行再识别,国内外相关机构进行了深入地研究。
度量学习的主要任务是学习一个线性或非线性的映射,将行人高维表观特征映射到目标空间进行度量,使得同一行人的距离更小,不同行人的距离更大。KOSTINGER M,HIRZER M,WOHLHART P,et al.Large scale metric learning from equivalenceconstraints[C]//Computer Vision and Pattern Recognition(CVPR),2012:2288-2295.(马丁-克斯汀格,马丁-海瑞泽尔,保罗-沃海哈瑞特,等价约束中的大尺度度量学习[C].计算机视觉与模式识别大会,2012,2288-2295),其提出了保持最简单、最直接度量学习算法,其将两个高斯分布的对数似然比检验作为度量学习算法。Chen D,Yuan Z,Hua G,etal.Similarity learning on an explicit polynomial kernel feature map forperson re-identification[C]//Conference on Computer Vision and PatternRecognition,2015:1565-1573(陈大鹏,袁泽建,华刚,基于多项式核特征映射的相似性学习的行人再识别[C].计算机视觉与模式识别大会,2015,1565-1573),其将内核特征图作为相似性度量学习算法,能够匹配行人图像中某个块与另一行人图像中所有块,也能度量相同位置块的相似性。Carr,Peter.Person re-identification using deformable patchmetric learning[C]//IEEE Winter Conference on Applications of ComputerVision,2016:1278-1287.(卡尔,彼得,基于弹性块度量学习的行人再识别[C].IEEE,计算机视觉的应用研讨会,2016,1278-1287),其提出弹性模型,在对探测图像与目标图像中的块进行匹配时,允许错位匹配,且块错位的范围可以调节,有效地解决了不同摄像机下行人图像的视角和姿态的变化问题。Zhang Y,Li B,Lu H,et al.Sample-specific svmlearning for person re-identification[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition.2016:1278-1287(张影,李宝华,卢湖川,基于明确样本的SVM训练的行人再识别[C].计算机视觉与模式识别,2016,1278-1287),其考虑到已有度量学习都是计算探测图像与目标图像的相似性,而忽略了探测图像与目标图像自身的差异性,因此提出将图像自身的差异性也作为度量学习的一部分,学习得到的度量对于每幅图像都有较高的适应性。上述的度量学习算法,直接利用了探测图像与目标图像自身包含的判别信息来计算探测图像与目标图像之间的相似性,而忽略了与探测图像和目标图像相关的其它图像的判别信息对于计算两者之间相似性的重要性。
Li W,Zhao R,Wang X.Human reidentification with transferred metriclearning[C]//Asian Conference on Computer Vision.Springer Berlin Heidelberg,2012:31-44(李伟,赵瑞,王小刚,基于转移度量学习的行人再识别[C].计算机视觉亚洲会议,2012,31-44),其在转移框架下,利用目标图像的k近邻(k-Nearest Neighbor,KNN)及其ground truth下对应的探测图像来训练度量,减少了因摄像头变化导致的识别错误。ZhongZ,Zheng L,Cao D,et al.Re-ranking Person Re-identification with k-reciprocalEncoding[J].Conference on Computer Vision and Pattern Recognition,2017(钟准,郑亮,曹东林,使用k相互编码的行人再识别重排序[C].计算机视觉与模式识别,2017),其将探测图像和目标图像各自的k相互近邻的重合数作为两者的相似性,充分利用近邻图像的判别信息来度量探测图像和目标图像的相似性。间接度量方式能够很好地利用与探测图像和目标图像相关的其它图像的识别信息来度量两者之间的相似性,但是却忽略了图像自身的识别信息,从而降低了识别效果。
基于以上原因,有必要研究一种结合直接度量和间接度量的行人再识别技术,要求该技术能够充分利用两幅图像所有的信息进行判别,不仅要充分利用两幅图像自身的判别信息,同时还要充分利用与两幅图像相关的其它图像的判别信息进行识别,以提高识别率。
发明内容
本发明所要解决的技术问题是提供一种结合直接度量和间接度量的行人再识别方法,其不仅充分利用了两幅图像自身的判别信息,而且还充分利用了与两幅图像相关的其它图像的判别信息,从而大幅提高了行人识别精度。
本发明解决上述技术问题所采用的技术方案为:一种结合直接度量和间接度量的行人再识别方法,其特征在于包括以下步骤:
①选取一个包含训练集和测试集的行人图像库,训练集包含有针对多个不同行人的行人图像,测试集也包含有针对多个不同行人的行人图像;其中,行人图像的尺寸大小为M×N像素;
设定训练集中包含的行人图像的总幅数为num;然后根据训练集中的num幅行人图像,将训练集分为第一待识别图像库和第一目标图像库,具体过程为:在训练集中,针对每个行人对应的多幅行人图像,从中任意挑选,以两幅行人图像作为一组组对,若每对行人图像来自不同摄像头,则将该对行人图像中的一幅行人图像归入第一待识别图像库、另一幅行人图像归入第一目标图像库;若该对行人图像来自同一摄像头,则丢弃该对行人图像;再设定第一待识别图像库中包含的行人图像的总幅数为total1,设定第一目标图像库中包含的行人图像的总幅数也为total1;其中,num和total1均为正整数,total1≥100,num≥2total1;
设定测试集中的第二待识别图像库中包含的行人图像的总幅数为total2,设定测试集中的第二目标图像库中包含的行人图像的总幅数为total2';其中,total2和total2'均为正整数,total2≥1,total2'≥10;
提取第一待识别图像库和第一目标图像库及第二待识别图像库和第二目标图像库各自中的每幅行人图像的特征向量;其中,特征向量的维数为
②采用结构为
③采用BP算法构建映射矩阵求解最优化模型,描述为:
④计算第一待识别图像库中的每幅行人图像与第一目标图像库中的各幅行人图像之间的间接相似性得分,将第一待识别图像库中的第u幅行人图像与第一目标图像库中的第v幅行人图像之间的间接相似性得分记为Gindirect(Su,Tv),
⑤根据第一待识别图像库中的每幅行人图像与第一目标图像库中的各幅行人图像之间的直接相似性得分和间接相似性得分,对第一待识别图像库中的每幅行人图像与第一目标图像库中的各幅行人图像之间的最终相似性得分进行描述,将第一待识别图像库中的第u幅行人图像与第一目标图像库中的第v幅行人图像之间的最终相似性得分记为G(Su,Tv),描述为:G(Su,Tv)=βdirect×Gdirect(Su,Tv)+βindirect×Gindirect(Su,Tv),其中,βdirect为Gdirect(Su,Tv)的权值参数,βindirect为Gindirect(Su,Tv)的权值参数,βdirect+βindirect=1;
⑥根据第一待识别图像库中的每幅行人图像与第一目标图像库中的各幅行人图像之间的最终相似性得分的描述,训练获取βdirect和βindirect的值;然后根据训练获取的βdirect和βindirect的值,得到最终相似性得分计算模型,描述为:G(S*,T*)=βdirect×Gdirect(S*,T*)+βindirect×Gindirect(S*,T*),其中,S*表示任意一幅待识别图像的特征向量,T*表示任意一幅目标图像的特征向量,Gdirect(S*,T*)表示任意一幅待识别图像与任意一幅目标图像之间的直接相似性得分,Gindirect(S*,T*)表示任意一幅待识别图像与任意一幅目标图像之间的间接相似性得分,G(S*,T*)表示任意一幅待识别图像与任意一幅目标图像之间的最终相似性得分;
⑦按照步骤②和步骤④的过程,以相同的操作,获取第二待识别图像库中的每幅行人图像与第二目标图像库中的各幅行人图像之间的直接相似性得分和间接相似性得分,将第二待识别图像库中的第u'幅行人图像与第二目标图像库中的第v'幅行人图像之间的直接相似性得分和间接相似性得分对应记为
所述的步骤①中,第一待识别图像库中的每幅行人图像的特征向量和第一目标图像库中的每幅行人图像的特征向量及第二待识别图像库中的每幅行人图像的特征向量和第二目标图像库中的每幅行人图像的特征向量的提取过程相同,将第一待识别图像库或第一目标图像库或第二待识别图像库或第二目标图像库作为待处理库,对于待处理库中的第t幅行人图像,作为当前图像,将当前图像的特征向量记为xt,其中,t为正整数,1≤t≤total*,total*表示待处理库中包含的行人图像的总幅数,xt的获取过程为:
①_1、将当前图像划分成多个尺寸大小为10×10像素、步长为5像素的相互重叠的图像块;
①_2、提取当前图像中的每个图像块的HSV颜色特征、SILTP纹理特征以及SCNCD特征;然后获取当前图像中的每个图像块的特征向量,对于当前图像中的第p个图像块,该图像块的特征向量为由该图像块的HSV颜色特征、SILTP纹理特征以及SCNCD特征按序组合而成的列向量;其中,p为正整数,1≤p≤P,P表示当前图像中包含的图像块的总个数,
①_3、获取当前图像中的每个水平条的特征向量,对于当前图像中的第q个水平条,该水平条的特征向量中的每个bin下的值为属于该水平条的所有图像块的特征向量中相对应的bin下的值中的最大值;其中,q为正整数,1≤q≤Q,Q表示当前图像中包含的水平条的总个数,
①_4、将当前图像中的所有水平条的特征向量按序组成的列向量作为当前图像的特征向量xt。
所述的步骤⑥中训练获取βdirect和βindirect的值的具体过程为:
⑥_1、构建权值参数求解最优化模型,描述为:
⑥_2、利用RankSVM求解上述权值参数求解最优化模型,得到β,即得到βdirect和βindirect。
与现有技术相比,本发明的优点在于:
1)本发明方法采用融合直接度量和间接度量进行行人再识别的方法,直接度量能够基于两幅图像自身的判别信息度量图像对的相似性,间接度量能够基于与两幅图像相关的k相互近邻的判别信息度量图像对的相似性,依据与两幅图像相关的其它图像的判别信息计算相似性的方法可以有效消除相似的不同行人的误匹配,两者结合使用能够充分利用与待识别图像、目标图像相关的所有判别信息,从而可有效提高识别准确率。
2)本发明方法利用数据库中的样本训练出适用于取自不同场景的不同数据库的权值参数,而不是简单地给出固定的直接相似性得分和间接相似性得分的权值,利用本发明方法获得的权值参数很好地权衡了直接相似性得分和间接相似性得分的占比,从而提高了识别精度。
附图说明
图1为本发明方法的总体实现框图;
图2a为本发明方法中的间接度量中的k相互近邻的k值对识别率的影响趋势图;
图2b为本发明方法中的间接度量中的k相互近邻的k值对平均精度的影响趋势图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种结合直接度量和间接度量的行人再识别方法,其总体实现框图如图1所示,其包括以下步骤:
①选取一个包含训练集和测试集的行人图像库,训练集包含有针对多个不同行人的行人图像,测试集也包含有针对多个不同行人的行人图像;其中,行人图像的尺寸大小为M×N像素。
设定训练集中包含的行人图像的总幅数为num;然后根据训练集中的num幅行人图像,将训练集分为第一待识别图像库和第一目标图像库,具体过程为:在训练集中,针对每个行人对应的多幅行人图像,从中任意挑选,以两幅行人图像作为一组组对,若每对行人图像来自不同摄像头,则将该对行人图像中的一幅行人图像归入第一待识别图像库、另一幅行人图像归入第一目标图像库;若该对行人图像来自同一摄像头,则丢弃该对行人图像;再设定第一待识别图像库中包含的行人图像的总幅数为total1,设定第一目标图像库中包含的行人图像的总幅数也为total1;其中,num和total1均为正整数,total1≥100,num≥2total1。
设定测试集中的第二待识别图像库中包含的行人图像的总幅数为total2,设定测试集中的第二目标图像库中包含的行人图像的总幅数为total2';其中,total2和total2'均为正整数,total2≥1,total2'≥10;在此,测试集中已明确给出待识别图像库和目标图像库,即作为第二待识别图像库和第二目标图像库。
提取第一待识别图像库和第一目标图像库及第二待识别图像库和第二目标图像库各自中的每幅行人图像的特征向量;其中,特征向量的维数为
在此具体实施例中,步骤①中,第一待识别图像库中的每幅行人图像的特征向量和第一目标图像库中的每幅行人图像的特征向量及第二待识别图像库中的每幅行人图像的特征向量和第二目标图像库中的每幅行人图像的特征向量的提取过程相同,将第一待识别图像库或第一目标图像库或第二待识别图像库或第二目标图像库作为待处理库,对于待处理库中的第t幅行人图像,作为当前图像,将当前图像的特征向量记为xt,其中,t为正整数,1≤t≤total*,total*表示待处理库中包含的行人图像的总幅数,xt的获取过程为:
①_1、为了减少视角变化对行人图像的影响,将当前图像划分成多个尺寸大小为10×10像素、步长为5像素的相互重叠的图像块。
①_2、提取当前图像中的每个图像块的HSV颜色特征、SILTP纹理特征以及SCNCD特征;然后获取当前图像中的每个图像块的特征向量,对于当前图像中的第p个图像块,该图像块的特征向量为由该图像块的HSV颜色特征、SILTP纹理特征以及SCNCD特征按序组合而成的列向量;其中,p为正整数,1≤p≤P,P表示当前图像中包含的图像块的总个数,
①_3、获取当前图像中的每个水平条的特征向量,对于当前图像中的第q个水平条,该水平条的特征向量中的每个bin下的值为属于该水平条的所有图像块的特征向量中相对应的bin下的值中的最大值,如:设属于一个水平条的图像块共有5个图像块,则先找出这5个图像块各自的特征向量中的第1个bin下的值中的最大值,设第3个图像块的特征向量中的第1个bin下的值最大,那么将第3个图像块的特征向量中的第1个bin下的值作为该水平条的特征向量中的第1个bin下的值,依次类推;其中,q为正整数,1≤q≤Q,Q表示当前图像中包含的水平条的总个数,
①_4、将当前图像中的所有水平条的特征向量按序组成的列向量作为当前图像的特征向量xt。
考虑到单个颜色模型并不能保证对所有光照变化的鲁棒性,所以提取SCNCD特征时,提取了多个颜色模型下的特征,如RGB、正则化rgb、l1l2l3、以及HSV模型。考虑到多尺度下能够增加特征对尺度的鲁棒性,对于一幅尺寸大小为128×48像素的行人图像,降采样后分别得到尺寸大小为64×24像素的图像和尺寸大小为32×12像素的图像,提取每个尺度下图像的特征。对每个图像块提取8×8×8bin的HSV特征、两个尺度下的SILTP特征( ②为了能够从提取的行人图像的特征向量中得到更具代表性的特征,使得在度量图像对之间相似性时能够更加充分地体现两者之间的相似性,本发明采用将第一目标图像库中的每幅行人图像的特征向量和第一待识别图像库中的每幅行人图像的特征向量映射到嵌入空间中进行求解图像对(image pairs)之间相似性得分的方法,得到图像对之间的直接相似性得分。采用结构为 ③BP神经网络的结构需要通过建立模型并经过最优化模型求解得到BP神经网络的最优结构,上述BP神经网络本质上是一个单层的神经网络,而BP算法是一种以误差平方和为目标函数,用梯度下降法求其最小值,从而可得到BP神经网络的最优结构的算法。因此,本发明采用已有的BP算法构建映射矩阵求解最优化模型,描述为: 在此,在采用梯度下降法求解映射矩阵求解最优化模型的过程中,需要确定BP神经网络中的隐含层的节点数,及BP神经网络的学习率,但对于不同的数据库,BP神经网络中的隐含层的节点数和BP神经网络的学习率有所差异,如对于Makret-1501数据库和CUHK03数据库,BP神经网络中的隐含层的节点数和BP神经网络的学习率可选用相同的值,BP神经网络中的隐含层的节点数均为200,BP神经网络的学习率均为10-2。 ④为了充分利用与第一待识别图像库中的行人图像和第一目标图像库中的行人图像相关的其它图像的判别信息来识别两幅行人图像,本发明采用求解第一待识别图像库中的行人图像和第一目标图像库中的行人图像各自的k相互近邻集合中的重叠图像数作为图像对之间的间接相似性得分的方法。计算第一待识别图像库中的每幅行人图像与第一目标图像库中的各幅行人图像之间的间接相似性得分,将第一待识别图像库中的第u幅行人图像与第一目标图像库中的第v幅行人图像之间的间接相似性得分记为 在此,图像的k相互近邻由Zhong Z,Zheng L,Cao D,et al.Re-ranking PersonRe-identification with k-reciprocal Encod ing[J].Conference on ComputerVision and Pattern Recognition,2017(钟准,郑亮,曹东林,使用k相互编码的行人再识别重排序[C].计算机视觉与模式识别,2017)中提出。 在此具体实施过程中,k的取值对于识别率影响较大,通过实验验证表明,对于Makret-1501数据库,k可取值为20;对于CUHK03数据库,k可取值为14。 ⑤由于直接度量能够基于两幅图像自身的判别信息度量图像对的相似性,间接度量能够基于与两幅图像相关的其它图像的判别信息度量图像对的相似性,为了充分利用第一待识别图像库中的行人图像和第一目标图像库中的行人图像的所有判别信息进行识别,所以本发明采用加权融合的方法将第一待识别图像库中的行人图像与第一目标图像库中的行人图像之间的直接相似性得分和间接相似性得分相加,得到第一待识别图像库中的行人图像与第一目标图像库中的行人图像之间的最终相似性得分。即:根据第一待识别图像库中的每幅行人图像与第一目标图像库中的各幅行人图像之间的直接相似性得分和间接相似性得分,对第一待识别图像库中的每幅行人图像与第一目标图像库中的各幅行人图像之间的最终相似性得分进行描述,将第一待识别图像库中的第u幅行人图像与第一目标图像库中的第v幅行人图像之间的最终相似性得分记为G(Su,Tv),描述为:G(Su,Tv)=βdirect×Gdirect(Su,Tv)+βindirect×Gindirect(Su,Tv),其中,βdirect为Gdirect(Su,Tv)的权值参数,βindirect为Gindirect(Su,Tv)的权值参数,βdirect+βindirect=1。 ⑥根据第一待识别图像库中的每幅行人图像与第一目标图像库中的各幅行人图像之间的最终相似性得分的描述,训练获取βdirect和βindirect的值;然后根据训练获取的βdirect和βindirect的值,得到最终相似性得分计算模型,描述为:G(S*,T*)=βdirect×Gdirect(S*,T*)+βindirect×Gindirect(S*,T*),其中,S*表示任意一幅待识别图像的特征向量,T*表示任意一幅目标图像的特征向量,Gdirect(S*,T*)表示任意一幅待识别图像与任意一幅目标图像之间的直接相似性得分,Gindirect(S*,T*)表示任意一幅待识别图像与任意一幅目标图像之间的间接相似性得分,G(S*,T*)表示任意一幅待识别图像与任意一幅目标图像之间的最终相似性得分。 在此具体实施例中,由于不同数据库选取不同场景下的行人图像,导致数据库的视角、光照、背景等变化不相同,在某个场景中具有很强判别性的特征在另一个场景中可能变得无关紧要,因此提前预定义好的权值参数不能适用于所有的数据库。所以本发明采用基于数据库中的样本训练权值参数的方法,得到针对数据库自身特点的权值参数。为了训练权值参数,需要构建权值参数求解最优化模型,通过利用数据库中的样本训练模型得到权值参数。即:步骤⑥中训练获取βdirect和βindirect的值的具体过程为: ⑥_1、构建权值参数求解最优化模型,描述为: ⑥_2、利用RankSVM求解上述权值参数求解最优化模型,得到β,即得到βdirect和βindirect。 在此,RankSVM由Joachims T,Finley T,Yu C N J.Cutting-plane training ofstructural SVMs[J].Machine Learning,2009,77(1):27-59.(索斯藤-约芝,托马斯-费利益,约翰-余春娜.结构化支持向量机的切割平面训练法.机器学习,2009,第77期(1):27-59)中提出,该方法已经包含在matlab工具箱中。 ⑦按照步骤②和步骤④的过程(由于在训练过程中,在步骤③中已求得W和b各自的值,因此在计算第二待识别图像库中的每幅行人图像与第二目标图像库中的各幅行人图像之间的直接相似性得分时,只需以相同的操作执行步骤②即可),以相同的操作,获取第二待识别图像库中的每幅行人图像与第二目标图像库中的各幅行人图像之间的直接相似性得分和间接相似性得分,将第二待识别图像库中的第u'幅行人图像与第二目标图像库中的第v'幅行人图像之间的直接相似性得分和间接相似性得分对应记为 为了更好地说明本发明方法的显著作用,对本发明方法进行实验。 本发明利用Market-1501数据库和CHUK03数据库这两个数据库中的图像,对本发明方法进行测试。Market-1501数据库共包含有1501个行人的行人图像,其中751个行人的行人图像用于构成训练集;剩余的750个行人的行人图像用于构成测试集中的第二目标图像库,另外在测试阶段,手动描绘3368幅行人图像用于构成测试集中的第二待识别图像库。CUHK03数据库提供了手动裁剪的图像集和使用目前效果最好的行人检测算法进行行人检测的图像集,每个图像集均包含了1467个行人的行人图像,对于每个图像集,本发明从中选取767个行人的行人图像构成训练集;选取700个行人的行人图像构成测试集。 实验中使用Rank排名表示前n幅行人图像中图像正确识别的比例,mAP表示平均精度,由L.Zheng,L.Shen,L.Tian,et al.Scalable person re-identification:Abenchmark[C]//Proceedings of the IEEE International Conference on ComputerVision.2015:1116-1124(郑亮,沈丽月,田璐,可扩展的行人再识别:一个基准[C].计算机视觉国际会议,2015,1116-1124)提出。 对于Market-1501数据库,表1给出了本发明方法在Market-1501数据库上进行行人再识别的实验结果,并给出了单独使用直接度量和间接度量的识别效果。第二目标图像库中的所有行人图像按照相似性得分排名后,将第二待识别图像库中的行人图像识别为排名在第1的第二目标图像库中的行人图像,所有第二待识别图像库中的所有行人图像中有44.33%能被正确识别。 表1不同方法在Market1501数据库上进行行人再识别的识别率
对于CUHK03数据库,表2给出了本发明方法在CUHK03数据库上进行行人再识别的实验效果,并给出了单独使用直接度量和间接度量的识别效果。第二目标图像库中的所有行人图像按照相似性得分排名后,将第二待识别图像库中的行人图像识别为排名在第1的第二目标图像库中的行人图像,对于手动裁剪的行人图像集(labeled),所有第二待识别图像库中的所有行人图像中有11.93%能被正确识别;对于用行人检测算法提取的行人图像集(detected),所有第二待识别图像库中的所有行人图像中有10.57%能被正确识别。
表2不同方法在CUHK03数据库上进行行人再识别的识别率
图2a给出了本发明方法中的间接度量中的k相互近邻的k值对识别率Rank1的影响趋势图,图2b给出了本发明方法中的间接度量中的k相互近邻的k值对平均精度mAP的影响趋势图。本发明针对CUHK03数据库进行实验,通过实验数据来说明k值对于两者变化的影响。从图2a中不难看出,Rank1值先随着k值的增加而有幅度地增加,在k=10和k=14时,达到最优值后随着k值的增加而减少。从图2b中不难看出,mAP值随着k的增加先增加,在k=14左右时,达到最优值,然后随着k值的增加而有小幅地减少。为了同时使得Rank1值和mAP值取最优值,针对CUHK03数据库选取k值为14。在Market-1501数据库上使用相同的方法可以确定k的取值为20。
机译: 一种基于多元资源度量的时差调整方法,一种基于多元资源度量和存储介质值调整时差的装置,一种基于多元度量值存储时差的程序
机译: 结合双变量度量和集中度度量进行有效的结构化数据探索
机译: 结合双变量度量和集中度度量进行有效的结构化数据探索