首页> 中国专利> 一种基于无监督局部度量学习和重排序的行人再识别方法

一种基于无监督局部度量学习和重排序的行人再识别方法

摘要

本发明公开了一种基于无监督局部度量学习和重排序的行人再识别方法,其实现过程为:首先获取行人图片,确定查询样本,并形成训练样本集和图片库;然后将获得的行人图片进行特征提取,并描述为特征向量;再为查询样本和/或图片库中各样本学习局部度量,得到对应的度量矩阵;最后通过学习得到的度量矩阵进行相似度计算,根据相似度大小进行初始排序;通过重排序优化初始排序得到最终的排序结果。本方法基于无监督局部度量学习,不需要人工标注样本,具有一定实用性和扩展性,通过重排序,进一步提高了匹配准确度。

著录项

  • 公开/公告号CN107506703A

    专利类型发明专利

  • 公开/公告日2017-12-22

    原文格式PDF

  • 申请/专利权人 中国科学院大学;

    申请/专利号CN201710677102.0

  • 发明设计人 韩振军;赵恒;叶齐祥;焦建彬;

    申请日2017-08-09

  • 分类号G06K9/00(20060101);G06K9/46(20060101);G06K9/62(20060101);

  • 代理机构11426 北京康思博达知识产权代理事务所(普通合伙);

  • 代理人刘冬梅;路永斌

  • 地址 100049 北京市石景山区玉泉路19号甲

  • 入库时间 2023-06-19 04:06:43

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-25

    授权

    授权

  • 2018-01-19

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20170809

    实质审查的生效

  • 2017-12-22

    公开

    公开

说明书

技术领域

本发明涉及计算机视觉和图像处理领域,尤其涉及一种可用于智能化视频监控等领域的基于无监督局部度量学习和重排序的行人再识别方法。

背景技术

跨摄像头的行人再识别是目前智能视频监控领域的热点研究问题,它的主要目的是获取特定目标在一个特定摄像头网络覆盖区域特定时间内的行动轨迹。这在目前大数据时代、视频监控自动化、平安城市建设等背景下具有重要意义。随着监控设备相关技术的成熟和成本的降低,数以万计的监控设备无时无刻地在采集数据,形成了海量数据库。如何有效管理和利用监控大数据就成了目前广受关注的问题。

目前,以人工为主的监控方式在大数据背景下遭到了巨大的挑战。人工监控的相关工作人员需要时刻监视视频画面,并分析相关目标和场景,这不仅费时费力,而且错误率会随着数据量的增大而上升。因此,自动化监控技术以其成本低,效率高,扩展性强等优点受到了人们的广泛关注。如何利用各种技术手段如计算机视觉、机器学习、深度学习等有效地解决行人在跨摄像头过程中产生的各种变化,从而使得最终的查询结果符合人们的期望是现在学者们的主要研究方向。目前,行人再识别面临的主要挑战有:背景复杂多变、光照变化、视角变化、姿态变化、行人遮挡、相似行人干扰、摄像头参数变化等影响因素造成的干扰问题。这些因素极大地影响了行人再识别技术在实际场景中的使用。针对这些问题,研究者们提出了许多算法和解决方案。大部分行人再识别方法主要由特征表示和距离度量两部分构成。

行人再识别本质上是要计算样本之间的相似度或者距离,然后根据相似度或者距离对样本进行排序,进而找到与查询样本属于同一个人的样本图像。度量学习本质上是学习一个特征的映射空间,使得对于不同的场景,可以通过数据学习适合特定场景的映射子空间。现有的度量学习方法存在的问题有:

(1)监督学习。现有的大部分度量学习方法主要基于监督学习,即通过标定数据学习获取适用于特定场景的度量参数。然而,训练数据的获取需要大量人力物力进行数据标定,同时随着监控网络的进一步扩大,用于监督学习的训练数据的标定也会随之变得更加困难(在一个摄像头中出现的行人大概率不出现在另一个摄像头中)。这限制了度量方法的实际应用。

(2)迁移能力。由于监督学习得到的度量参数是针对特定场景的,在其他场景下会有很严重的性能损失,无法很好地在另一个场景中使用。

(3)全局度量。即在整个训练集上学习得到一个度量。由于训练数据有限,实际场景中不同行人之间差异巨大,通过有限的数据集训练得到的全局度量无法对场景中出现的所有行人都保持较好的判别性。

发明内容

为了克服上述问题,本发明人进行了锐意研究,提出一种基于无监督局部度量学习或者叫基于样本的度量学习(SBML)、和重排序的行人再识别方法。针对数据标定问题,本方法基于无监督学习,只需要相关场景中的无标定数据进行训练,可行性和实用性大大提高;针对全局度量的缺陷,本方法为每一个查询样本训练局部度量,相当于为每个查询样本进行了调优,保证距离度量的精准性,从而完成本发明。

本发明提供了一种基于无监督局部度量学习和重排序的行人再识别方法,技术方案主要包括以下几个方面:

1.一种基于无监督局部度量学习的行人再识别方法,所述方法包括以下步骤:

步骤1),行人检测:获取行人图片,确定查询样本,并形成训练样本集和图片库;

步骤2),特征表示:将获得的行人图片进行特征提取,并描述为特征向量;

步骤3),度量学习:为查询样本和/或图片库中各样本学习局部度量,得到查询样本的局部度量矩阵M,和/或图片库中样本所对应的局部度量矩阵Mi

步骤4),匹配排序:通过学习得到的度量矩阵进行查询样本和图片库中样本的相似度计算,根据相似度大小进行排序。

(2)根据上述(1)所述的方法,在步骤4)后,还包括重排序步骤:通过基于K近邻交集重排序方法对步骤4)中排序进行重排序;

优选地,重排序步骤包括以下子步骤:

步骤5.1),根据步骤4)中得到初始排序结果,确定初始排序得分;

步骤5.2),计算查询样本和初始排序中样本之间k近邻中相同样本的数量,确定k近邻得分;

步骤5.3),根据初始排序得分和k近邻得分,获得查询样本和初始排序中样本的最终相似度。

根据本发明提供的一种基于无监督局部度量学习和重排序的行人再识别方法,具有以下有益效果:

(1)本方法基于无监督学习,只需要相关场景中的无标定数据进行训练,可行性和实用性大大提高;

(2)针对全局度量的缺陷,本方法为每一个查询样本训练局部度量,相当于为每个查询样本进行了调优,保证距离度量的精准性;

(3)本方法使用基于支持向量机(SVM)的判别模型,只使用和查询样本不是同一个行人的训练样本集以及图片库模型,不加入其他假设,具有较好的判别性和低时间复杂性。

(4)针对实际场景中图片库中反例样本尤其是相似反例样本的干扰,本方法提出了基于样本k近邻交集的重排序算法,通过引入样本之间的近邻关系来减少在查询匹配时,图片库中与查询样本相似的反例样本的干扰,使得本方法具有进一步增强的实用性。

附图说明

图1示出本发明中行人再识别方法的步骤模块图;

图2示出行人检测时正常检测、漏检和误检示意图;

图3示出本发明中局部度量学习算法示意图;

图4示出本发明一种优选实施方式中包含重排序的行人再识别方法步骤模块图;

图5示出根据本发明中行人再识别方法确定的在PRID2011数据集上的累计匹配特性(CMC)曲线。

具体实施方式

下面通过附图对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。

如图1所示,本发明提供了一种基于无监督度量学习的行人再识别方法,所述方法包括以下步骤:

步骤1),行人检测:获取行人图片,确定查询样本,并形成训练样本集和图片库;

步骤2),特征表示:将获得的行人图片进行特征提取,并描述为特征向量,即每张行人图片拥有一个特定的特征向量;

步骤3),度量学习:为查询样本和/或图片库中各样本学习局部度量,得到查询样本的局部度量矩阵M,和/或图片库中样本所对应的局部度量矩阵Mi

步骤4),匹配排序:通过学习得到的度量矩阵进行查询样本和图片库中样本的相似度计算,根据相似度大小进行排序,相似度越大,排序越靠前。

步骤1),行人检测:获取行人图片,确定查询样本,并形成训练样本集和图片库。

在一种优选的实施方式中,在和查询样本相同场景的摄像头的监控视频帧中获取行人图片,形成训练样本集。

在进一步优选的实施方式中,查询样本与训练样本集选自相同的摄像头场景,其中,所述查询样本(设为x0)与训练样本集中的样本(设为x1,……xi,……xn)无重叠样本。由于查询样本的度量学习是基于训练样本集进行的,查询样本与训练样本集中样本选自相同的摄像头场景,保证查询样本度量学习的准确性。

在一种优选的实施方式中,在待查询场景的摄像头的监控视频帧中获取行人图片,形成图片库。图片库中样本来源于一个或多个摄像头场景。在步骤3)中,对图片库中样本进行度量学习时,图片库中某个样本所需的相应的训练样本来自图片库中和这个样本相同的摄像头场景下的其他样本。优选的情况下,图片库中的样本来源于一个摄像头场景,便于对查询样本的目标样本进行摄像头场景定位。

在一种优选的实施方式中,通过目标检测算法从原始的监控视频中获取行人目图片。

在进一步优选的实施方式中,通过可变形部件模型(Deformable Part Models,DPM)自动获取监控视频中行人图片。

在更进一步优选的实施方式中,调节目标检测算法DPM中候选区域得分阈值threshold,候选区域得分高于这个参数就判断为是行人目标,低于这个阈值就判断为不是行人目标。通过调节该参数,在训练样本集数据获取阶段,可降低误检率,获得质量较好的训练样本;在图片库数据获取阶段,可降低漏检率,保证查询图片对应的目标不被漏检。各种示例性行人检测结果如图2所示。

在一种优选的实施方式中,获取行人图片后对行人图片进行背景去除,降低背景干扰。

在一种优选的实施方式中,将行人图片调整为同一尺寸(如64*128像素),便于后续步骤2)中特征提取。

步骤2),特征表示:将获得的行人图片进行特征提取,并描述为特征向量,即每张行人图片拥有一个特定的特征向量。

在一种优选的实施方式中,步骤2)包括以下子步骤:

步骤2.1),提取HSV、RGB、Lab颜色直方图并级联成颜色特征;

步骤2.2),提取HOG和LBP特征,获得图片的边缘和纹理信息;

其中,HOG(Histogram of Oriented Gradient,方向梯度直方图);LBP(LocalBinary Pattern,局部二值模式)。

步骤2.3),将步骤2.1)中颜色特征和步骤2.2)中边缘和纹理特征级联,形成行人图片的最终特征表示。

在一种优选的实施方式中,步骤2.1)中,行人图片中的行人基本都是直立的,但由于视角不同,外貌会有所差异,针对这一问题,将图片分成不同的水平条带,然后以每一个水平条带为单位进行颜色特征提取。

在一种优选的实施方式中,步骤2.2)中,在整张行人图片中提取HOG和LBP特征。

通过级联颜色直方图(HSV、RGB、Lab)、HOG和LBP所形成的特征,能够全面地描述行人目标所带有的信息。

步骤3),度量学习:为查询样本和/或图片库中各样本学习局部度量,得到查询样本的局部度量矩阵M,和/或图片库中样本所对应的局部度量矩阵Mi

在一种优选的实施方式中,颜色直方图、HOG和LBP特征级联形成的最终特征原始维度为5138维,为了降低计算复杂度,在使用前,使用PCA(Principal ComponentAnalysis,主成分分析)降维算法将其降到400维。

在一种优选的实施方式中,如图3左图所示,在无监督度量学习框架下,确定以查询样本为正样本,其他训练样本集中样本(以下称训练样本)为负样本的学习方法。

基于样本的无监督度量学习算法,查询样本x0的局部度量矩阵M,通过最大化查询样本x0和训练样本集中距离最小的样本的距离学习得到:

其中,x0表示查询样本的特征向量;xi表示训练样本集中样本的特征向量。

所述局部度量是指:为每一个查询样本学习一个度量矩阵,与全局度量(所有查询样本使用同一个学到的度量矩阵)相对。

所述无监督度量学习是指:使用无标注的数据学习距离度量,而不是通过人工标注的数据。

在一种优选的实施方式中,式(3-1)通过设置约束最终转化为可求解的形式:

式(3-5)中,ai为训练样本xi对应的系数;yi为训练样本的类标;为推到过程中定义的符号,的函数,

在一种优选的实施方式中,局部度量矩阵M表达形式的推导过程包括以下子步骤:

子步骤1),将式(3-1)进行归一化,转化为具有不等式约束的优化问题形式:

其中,c为任意常数,为了计算方便,在此将其设置为2。

子步骤2),将式(3-2)中的不等式约束重写为二次核函数的形式:

其中,黑点表示内积运算;并定义M=yyT,y为便于推导而定义的符号,T代表矩阵转置。

子步骤3),定义查询样本x0和训练样本xi分别对应不同的类标y0和yi,若y0=-1,yi=1,式(3-2)可转化为SVM(Support>

式(3-4)表明原问题(查询样本x0的局部度量矩阵M)等价于一个带核函数的凸优化问题,方便求解。

子步骤4),使用二次规划求解方法对式(3-4)进行有效求解,得到可解形式:

另一方面,如图3右图所示,在无监督度量学习框架下,设定以图片库中某一样本gi为正样本,图片库中其他样本为负样本,则图片库中的该样本gi所对应的局部度量矩阵Mi,通过最大化该样本gi和图片库中其他样本g1,…gk…,gn(n≠i)中距离最小的样本的距离学习得到:

其中,gi表示图片库中某一样本的特征向量;g1,…gk…,gn表示图片库中其他样本的特征向量。

步骤4),匹配排序:通过学习得到的度量矩阵进行查询样本和图片库中样本的相似度计算,根据相似度大小进行排序。

在本发明中,如图3所示,相似度通过距离度量得到。

在一种优选的实施方式中,采用查询样本x0的局部度量矩阵M,计算查询样本与图片库中样本的相似度。

相似度以距离的形式表示如下:

d(x0,gi)2=(gi-x0)TM0(gi-x0)>

式(4-1)中,x0表示查询样本的特征向量;gi表示图片库中样本的特征向量。在这种实施方式下,只需得到查询样本的局部度量矩阵M,即可进行相似度计算。

在另一种优选的实施方式中,采用图片库中样本gi所对应的局部度量矩阵Mi,计算查询样本与图片库中样本的相似度。

相似度以距离的形式表示如下:

d(x0,gi)2=(gi-x0)TMi(gi-x0)>

在这种实施方式下,只需得到图片库中样本所对应的局部度量矩阵Mi,即可进行相似度计算。

在更进一步优选的实施方式中,分别使用查询样本x0的局部度量矩阵M、以及图片库中样本gi所对应的局部度量矩阵Mi,计算查询样本与图片库中样本的相似度,将两个相似度相加,得到最终相似度。

相似度以距离的形式表示如下:

d(x0,gi)2=(gi-x0)T(M0+Mi)(gi-x0)>

通过式(4-1)、式(4-2)、和式(4-3)可以计算查询样本和图片库中样本之间的距离,得到相似度排序。距离越短,排序越靠前,相似度越大。

采用前两种方式中局部度量矩阵计算相似度,计算工作量小,可在较短时间内获得较为准确的结果;第三种方式中获得的相似度,由于融合了单个的局部度量矩阵M和Mi,虽然计算量加大,但准确性可得到进一步提升。

在本发明中,如图4所示,在步骤4)后,还包括重排序步骤:通过基于K近邻(KNN)交集重排序方法对步骤4)中排序进行重排序。

其中,KNN交集重排序方法的思路是:查询样本在图片库中获取的初始排序可以看作是查询样本基于样本距离的特征描述,如果某个查询样本在图片库中的k个最近邻(即前k个排序)中有一部分,与另一个图片库样本的k个样本最近邻一样,则这两个样本一定在某种程度上比较相似。

由于在实际监控场景中,图片库的规模一般是巨大,图片库中与查询样本不相关的样本,尤其是相似度比较大的不相关样本将起到干扰匹配的反作用。图片库中不相关样本越多,正确匹配率就越低。本发明人经过研究,合理利用图片库中的样本之间的相似度关系,然后通过在重排序阶段引入这些信息,降低单利样本对正确匹配的影响。

在一种优选的实施方式中,重排序步骤包括以下子步骤:

步骤5.1),根据步骤4)中得到初始排序结果,确定初始排序得分;

步骤5.2),计算查询样本x0和初始排序中样本gi0之间k近邻中相同样本的数量,确定k近邻得分;

步骤5.3),根据初始排序得分和k近邻得分,获得查询样本x0和初始排序中样本gi0的最终相似度。

其中,步骤5.1)中,通过使用步骤4)中式(4-1)、式(4-2)、和式(4-3)计算距离d(x0,gi),得到初始排序i为在初始排序中的位置,gi0表示初始排序中排在i的样本。初始排序中,距离越小,排序越靠前。

步骤5.1)中,确定初始排序得分为:

表示查询样本和图片库样本的初始相似度。由式(5-1)可知,初始排序中,位置靠前,i值小,初始排序得分高。

步骤5.2)中,定义nk(x0).为查询样本x0的k近邻,为gi0的k近邻,确定k近邻得分Scn(x0,g0i)为:

Scn(x0,g0i)=|nk(x0)∩nk(g0i)|>

由式(5-2)可知,k近邻中相同样本的数量越多,k近邻得分越高。

步骤5.3)中,查询样本x0和初始排序中样本gi0的最终相似度Sn(x0,g0i)为:

使用式(5-3)可以计算查询样本和图片库样本之间新的更加精确的相似度(或距离),得到重排序结果。

实施例

实施例1

1、数据库和样本分类

采用本发明所述方法进行行人再识别检测。为了试验的准确性和可比性,使用行人再识别领域被广泛使用的公开数据VIPeR、CUHK01和PRID2011数据库。

VIPeR数据集:由632个人在两个摄像头下的1264张图片组成,每个人在每个摄像头下只有一张图片,图片被归一化到128*48像素值。该数据集除了两个摄像头的视角不同外,光照条件变化非常大,这给再识别带来了非常大的难度。试验中,我们使用摄像头a下316个样本作为训练样本集,摄像头a下剩余316个样本作为查询样本,与查询样本相对应的摄像头b下的316个样本作为图片库。

CUHK01数据集:总共包含了971个人,每个人在每个摄像头下有两张图像。摄像头a摄取的是人的前后视角,摄像头b摄取的是人的侧视角。所有的图像都被归一化到了160*60像素值。该数据集场景是在室内,光照变化不大。我们使用摄像头a下485个样本作为训练样本集,摄像头a下剩余486个样本作为查询样本,与查询样本相对应的摄像头b下486个样本作为图片库。

PRID2011数据集:该数据集摄像头a有385个样本,摄像头b有749个样本,并有200个同时出现在摄像头a和b中。PRID2011数据集跨摄像头光照和视角变化明显,但背景相对单一。我们随机取200对中的摄像头a下的100个样本作为查询样本,剩下的摄像头a中的100对中的100个作为训练样本集,分别以剩下的所有摄像头b中的649个(100+549)作为图片库,或者以摄像头b中与查询样本相对的100个样本作为图片库。

2、性能评测准则

为了进行算法性能的评测以及与其他方法的对比,我们选取在行人再识别中被广泛使用的评测方法:累计匹配特性曲线(cumulative matching characteristic,CMC)。行人再识别问题本质上是一个检索排序问题。在CMC曲线中,横坐标(rank)表示排名,纵坐标(y轴)表示匹配精度。对于曲线上的每一个点(x,y)表示在排名前x个样本中,包含正确匹配的查询样本占所有查询样本的比率。一般考虑rank-1时的匹配精度作为衡量方法有效性的指标。

对每一个查询样本和图片库中样本,计算其作为正样本时的局部度量矩阵,分别使用查询样本矩阵M、图片库中样本局部度量矩阵Mi计算查询样本和图片库中样本的相似度(即通过式(4-1)、式(4-2)、和式(4-3)计算相似度),将两个相似度相加,根据相似度大小进行排序。

实验中均取10次检测结果的平均值作为最终的结果。

3、结果与分析

通过测定使用查询样本矩阵M、图片库中样本局部度量矩阵Mi以及两矩阵组合使用情况下CMC曲线,获得三种方式下在三个数据集上rank-1的匹配性能,结果如表1所示。

表1局部度量学习算法在三个数据集上的实验结果

由表1可知,本发明中未经重排序的行人在识别算法,可在VIPeR、CUHK01数据库中得到很好的再识别功能,且融合的度量矩阵性能要好于单个度量矩阵的性能。

PRID2011(图片库649)中,由于图片库中混有大量不相关的样本,使得使用基于样本的局部度量学习算法时,图片库中样本局部度量矩阵Mi的性能远远大于查询样本矩阵M性能。此时,可通过使用图片库中样本局部度量矩阵Mi进行相似度计算。

实施例2

1、数据库和样本分类

采用VIPeR、CUHK01和PRID2011数据库进行试验。VIPeR、CUHK01数据集划分在实施例1的基础上,将查询样本数量降为原来的一半,分别为158个和243个查询样本,训练样本集的划分不做改变。

PRID2011数据集中:随机取200对中摄像头a下的100个样本作为查询样本,剩下的摄像头a中的100个作为训练样本集,以剩下的所有摄像头b中的649个(100+549)作为图片库。此时,图片库中反例样本较多,干扰能力较强。

2、性能评测准则

作CMC曲线,考虑rank-1时的匹配精度作为衡量方法有效性的指标。

对每一个查询样本和图片库中样本,计算其作为正样本时的局部度量矩阵,使用查询样本矩阵M、图片库中样本局部度量矩阵Mi分别计算查询样本和图片库中样本的相似度,将两个相似度相加,根据相似度大小进行排序获得初始排序;通过KNN交集重排序方法进行重排序,获得最终相似度(通过式(5-3)计算相似度)。

3、结果与分析

通过KNN交集重排序算法,VIPeR数据集在rank-1准确率上有3.6%的性能提升;对于CUHK01数据集,在rank-1准确率上有4.3%的性能提升;在PRID2011数据集上,获得了13.20%的性能增益。具体结果见表2。PRID2011数据集上的CMC曲线如图5所示。

实验结果说明,KNN交集重排序算法能通过有效利用图片库中大量不相关样本的信息来减少其在匹配过程中带来的负面影响,进而提高查询样本的匹配准确率。随着图片库相对查询样本数目的相对规模的不断扩大(反例样本愈多),重排序算法对最终性能的提升就愈加明显。

表2

rank-1重排序前(实施例1)重排序后(实施例2)VIPeR29.9133.51CUHK0132.8237.12PRID201125.3038.50

对比例

对比例1

使用目前已有的无监督行人再识别方法ISR(迭代重新加权稀疏排名)、DLILR(迭代的拉普拉斯正则字典学习)和UCDTL(无监督跨数据集迁移学习)进行测试。采用PRID2011数据集,样本分类、性能评测准则同实施例2。

ISR在文献“Person re-identification by iterative re-weighted sparseranking.In TPAMI,pages,1629-1642,2015.”中提出。

DLILR在文献“Dictionary Learning with Iterative LaplacianRegularization for Unsupervised Person Re-identification.In BMVC,pages,8,2015.”中提出。

UCDTL在文献“Unsupervised cross-dataset transfer learning for personre-identification.In CVPR,pages,1306-1315,2016.”中提出。

经典的无监督度量学习算法进行实验的结果如表3所示。

表3无监督行人再识别方法结果

识别方法ISRDLILRUCDTLrank-117.021.124.2

由表3可知,已有的经典无监督行人再识别方法ISR、DLILR和UCDTL在采用PRID2011数据集进行测试中的准确度远低于本发明重排序后的测试准确度。

原因可能在于,这些方法中大部分原理是学习一个新的特征空间,使得在这个特征空间中的样本距离具有比较好的判别性。然而,由于缺少数据标签,它们在学习的过程中还是需要以一定概率假设样本之间的类别关系,这就引入了一定比例的错误类别标号,进而影响最终的匹配性能。

以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号