首页> 中国专利> 交互式疑难人像检索的方法、客户端及系统

交互式疑难人像检索的方法、客户端及系统

摘要

本发明公开了交互式疑难人像检索的方法、客户端及系统,涉及人像识别检索技术领域。所述方法包括步骤:获取图像,将图像转化为基于语义属性标签的图像表示集;接收用户输入的查询,获取用户针对该查询选择的语义属性信息;根据用户的选择标记显著性语义属性,按照图像是否带有显著性语义属性将前述图像表示集分类为显著性属性图像集和非显著性属性图像集,对显著性属性图像集和非显著性属性图像集分别进行分类排序,并根据排序结果生成初始候选人排序队列;通过混合相似度再排序交互检索获取用户确定的最终目标。本发明人工工作量合理、检索成功率高、收敛速度快、应用面广,尤其适用于公安行业的疑难人像检索应用。

著录项

  • 公开/公告号CN112269889A

    专利类型发明专利

  • 公开/公告日2021-01-26

    原文格式PDF

  • 申请/专利权人 上海市刑事科学技术研究院;

    申请/专利号CN202011010994.7

  • 发明设计人 王茜;刘民;

    申请日2020-09-23

  • 分类号G06F16/55(20190101);G06F16/58(20190101);G06K9/62(20060101);G06F16/532(20190101);

  • 代理机构31393 上海图灵知识产权代理事务所(普通合伙);

  • 代理人谢微

  • 地址 200083 上海市虹口区中山北一路803号

  • 入库时间 2023-06-19 09:40:06

说明书

技术领域

本发明涉及人像识别检索技术领域,尤其涉及一种交互式疑难人像检索的方法、客户端及系统。

背景技术

人像检索(又称人像图片检索)方法主要是采用人工识别方法和/或人像识别技术,对图片数据中的人像进行检索,得到检索结果。人像检索技术的关键在于人像图片的内容分析和理解,即利用机器视觉的方法从人像图片中提取语义信息进行检索,该语义信息反映人像的内容,也构成人像检索所依据的特征,检索算法基于语义特征的相似度进行检索结果的排序。对于人像图片检索来说,要求该语义特征尽可能准确、详细地描述人像图片的内容,从而保证检索结果更加吻合用户的查询需求;同时考虑到检索所要处理的大规模数据,要求语义特征易于提取,不耗费太多计算资源。

近年来,人像识别技术在公共安全领域中得到了广泛的应用,但许多在专业刑侦领域中对案件侦破起到决定作用的人像要素,如嫌疑人模拟画像、目击者的头脑印象(mental image)、被害人颅骨复原像、描述者语义化的特征描述等,由于无法进行常规人像比对和语义化属性检索,从而陷入只能依靠人工筛选的困境。同时,在大量视频侦查应用中,许多大侧面、部分图像残缺、超分辨率等未达到人像识别和检索质量要求的素材,而往往被现有的人像检索系统“拒之门外”。上述非标准、非常规的人像检索可以统一归类为“疑难人像检索”。由于针对“疑难人像检索”问题的研究相对较少,专门对应算法方面的研究几乎空白,传统的疑难人像检索往往只能通过人脸角度纠正、超分辨率图像清晰化处理、及人像补全等图像处理方法修正“素材”来达到检索的目的,耗费人工且效果不佳。

目前,现有技术也提供了一些适用于疑难人像检索的技术方案,作为举例,比如异质人像(Heterogeneous Image)比对方法,其是通过将所有非标图像、头脑印象均绘制为模拟画像的方法来实现人像检索。然而,上述方法的检索效果高度依赖于目击者的描述能力以及绘制者的专业水平,检索的准确率和稳定性难以保证。再比如,现有技术中还提供了利用人类智能“告知”机器操作者倾向的交互式检索技术以根据用户需求突出显示最相关的结果的方法。然而,一方面,由于人类视觉和机器视觉的“敏感属性”的不同,人眼和机器视觉间存在较大的“语义鸿沟”,对图像识别工作造成较大困扰;另一方面,目前的交互式检索技术通常是基于随机候选人(candidate)选择的交互式检索方法,需要的人工操作次数较多,在中大规模或相似样本集中循环次数大增,甚至陷入无解状态。

综上所述,如何基于现有技术提供一种人工工作量合理、检索成功率高、收敛速度快的交互式疑难人像检索方法是当前亟需解决的技术问题。

发明内容

本发明的目的在于:克服现有技术的不足,提供了一种交互式疑难人像检索的方法、客户端及系统。本发明提供的人像检索方法,基于语义属性标签将图像转化为各语义属性标签的图像表示集后,通过第一次人机交互标记显著性语义属性,将图像表示集分为显著性属性图像集和非显著性图像集后对各图像表示集进行分类排序,并获取下一步候选人排序队列;随后,循环进行层进式人机交互,并根据用户的人工选择结果进行再排序以生成下一循环的候选人排序队列,直至操作者确认结束。本发明人工工作量合理、检索成功率高、收敛速度快、应用面广,尤其适用于公安行业的疑难人像检索应用。

为实现上述目标,本发明提供了如下技术方案:

一种交互式疑难人像检索的方法,包括步骤:

步骤100,获取图像,将图像转化为基于语义属性标签的图像表示集;

步骤200,接收用户输入的查询,获取用户针对该查询选择的语义属性信息;根据用户的选择标记显著性语义属性,按照图像是否带有显著性语义属性将前述图像表示集分类为显著性属性图像集和非显著性属性图像集,对显著性属性图像集和非显著性属性图像集分别进行分类排序,并根据排序结果生成初始候选人排序队列;

步骤300,通过混合相似度再排序交互检索获取用户确定的最终目标;其中,通过层进式人机交互获取用户的选择信息,针对每次选择对候选人排序队列进行混合相似度再排序,生成下一循环的候选人排序队列供用户再选择,获取用户确定的最终目标后结束循环。

进一步,所述语义属性标签为公安行业标准化的人像语义属性标签,根据公安行业标准化的人像语义属性标签构建多标签学习神经网络后,通过所述多标签学习神经网络将图像数据转化为基于公安行业语义属性标签的图像表示集Y。

进一步,在层进式人机交互过程中,通过设置机器视觉识别辅助用户进行判断。

进一步,转化形成图像表示集Y的具体步骤包括:

设I幅训练图像集X为{x

y

式中,函数Rep(·)为从Xv到Y

在每个语义属性的贡献参数δ(i,l)一致的情况下,图像x

式中,C(i,l)表示各有效语义属性的softmax多标记损失函数值,C(i,l)的计算公式如下,

根据Score(x

Dis(x

式中,S

进一步,步骤200中,所述语义属性信息包括语义属性的名称和属性值,获取用户针对该查询选择的语义属性信息的步骤包括:

根据用户输入的查询提取查询的特征;

根据查询的特征,在终端显示结构上输出一系列语义属性对应的属性值以供用户选择;

获取用户选择的语义属性的属性值。

进一步,步骤200中,生成初始候选人排序队列的步骤包括:

获取前述用户选择的语义属性集合G

根据图像是否带有显著性属性

为突出显著性属性的作用,调整Score(x

式中,

且α(r+1)=min(0.5,α(0)-0.05r)(r≥0);

将调整后的δ(l)带入Score(x

然后,通过Top(·)取位函数分别获取RankA的前t

Candidate(r)=Top(RankA(Q

其中,Candidate(0)表示初始候选人排序队列。

进一步,步骤300中,进行混合相似度再排序交互检索的步骤包括:

获取第r+1次人工选择Choice(r+1),对Choice(r+1)∈Candidate(r)提取基于LBP-HSV特征融合算子的整体复合特征F

DisK(x

式中,V

根据Dis(x

式中,μ为辅助特征权重值;所述μ的值根据人工选择Q

进一步,在每次循环的再排序步骤之前,执行候选人聚类转化操作以避免无效循环和加速收敛,所述候选人聚类转化操作为通过如下公式对Top(RankA(Q

Top′(RankA(Q

式中,K

本发明还提供了一种交互式疑难人像检索客户端,包括如下结构:

初始化模块,用于获取图像,将图像转化为基于语义属性标签的图像表示集;

信息采集模块,用于接收用户输入的查询,获取用户针对该查询选择的语义属性信息;

信息处理模块,用于根据用户的选择标记显著性语义属性,按照图像是否带有显著性语义属性将前述图像表示集分类为显著性属性图像集和非显著性属性图像集,对显著性属性图像集和非显著性属性图像集分别进行分类排序,并根据排序结果生成初始候选人排序队列;以及通过混合相似度再排序交互检索获取用户确定的最终目标;其中,通过层进式人机交互获取用户的选择信息,针对每次选择对候选人排序队列进行混合相似度再排序,生成下一循环的候选人排序队列供用户再选择,在获取用户确定的最终目标时结束循环。

本发明还提供了一种交互式疑难人像检索系统,包括用户终端和服务器端;

所述用户终端设置有人机交互接口,通过人机交互接口采集用户输入的查询信息和选择信息;

所述服务器端包括处理器和用于存储处理器可执行指令和参数的存储器,所述处理器被配置为:

获取图像,将图像转化为基于语义属性标签的图像表示集;以及,

根据接收用户输入的查询,获取用户针对该查询选择的语义属性信息;根据用户的选择标记显著性语义属性,按照图像是否带有显著性语义属性将前述图像表示集分类为显著性属性图像集和非显著性属性图像集,对显著性属性图像集和非显著性属性图像集分别进行分类排序,并根据排序结果生成初始候选人排序队列;以及,

通过混合相似度再排序交互检索获取用户确定的最终目标;其中,通过层进式人机交互获取用户的选择信息,并针对每次选择对候选人排序队列进行混合相似度再排序,生成下一循环的候选人排序队列供用户再选择,在获取用户确定的最终目标时结束循环。

本发明由于采用以上技术方案,与现有技术相比,作为举例,具有以下的优点和积极效果:本发明基于语义属性标签将图像转化为各语义属性标签的图像表示集后,通过第一次人机交互标记显著性语义属性,将图像表示集分为显著性属性图像集和非显著性图像集后对各图像表示集进行分类排序,并获取下一步候选人排序队列;随后,循环进行层进式人机交互,并根据用户的人工选择结果进行再排序以生成下一循环的候选人排序队列,直至操作者确认结束。本发明人工工作量合理、检索成功率高、收敛速度快、应用面广,尤其适用于公安行业的疑难人像检索应用,还可根据需要与模拟人像检索、嫌疑人辨认、口述人像绘制等结合。

一方面,用户可以根据公安行业需要,基于公安行业标准国标(刑事犯罪信息管理代码第24部分体貌特征分类和代码GA 240.24-2003,以及GA 240.3-2000刑事犯罪信息管理代码第3部分:体表特殊标记代码)的分类来设置人像语义属性,并通过多标签分类神经网络,生成了基于公安行业语义属性的人像图像表示集。

另一方面,本发明通过人机交互,可以兼顾人类视觉的敏感语义属性(比如人像部件长短、高低、位置、斜度等)和机器视觉敏感属性(比如部件大小、相互距离等),从语义属性设计上减少了常常困扰图像识别工作中人眼和机器视觉间的语义鸿沟。

同时,在人机交互中,将用户的人工选择转化为显著性的视觉兴趣属性,实现各语义属性的权值分类,从而能够实施不同的分库权值排序策略,可以显著减少每次交互检索的计算量。实践计算表明,本发明提供的技术方案可以将每次交互检索的计算量减少四分之一,将前5次检索后运算矩阵缩减至原矩阵的23%。

再一方面,每次循环均对前期的人工选择进行效果判断,结合机器视觉的辅助判断作用来减少人工选择的误差。相比于传统的基于随机候选人选择的交互式检索方法,人工操作次数降低了200%,解决了以往交互式系统在中大规模或相似样本集中循环次数大增或陷入无解的问题。

附图说明

图1为本发明实施例提供的交互式疑难人像检索方法的信息处理示意图。

图2为本发明实施例提供的客户端的模块结构图。

图3为本发明实施例提供的系统的模块结构图。

附图标记说明:

客户端200,初始化模块210,信息采集模块220,信息处理模块230;

系统300,用户终端310,服务器端320。

具体实施方式

以下结合附图和具体实施例对本发明公开的交互式疑难人像检索的方法、客户端及系统作进一步详细说明。应当注意的是,下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的,它们可以被相互组合从而达到更好的技术效果。在下述实施例的附图中,各附图所出现的相同标号代表相同的特征或者部件,可应用于不同实施例中。因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

需说明的是,本说明书所附图中所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定发明可实施的限定条件,任何结构的修饰、比例关系的改变或大小的调整,在不影响发明所能产生的功效及所能达成的目的下,均应落在发明所揭示的技术内容所能涵盖的范围内。本发明的优选实施方式的范围包括另外的实现,其中可以不按所述的或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。

实施例

本发明提供的一种交互式疑难人像检索的方法,所述方法包括如下步骤:

步骤100,获取图像,将图像转化为基于语义属性标签的图像表示集。

本实施例中,优选的,所述语义属性标签为公安行业标准化的人像语义属性标签。具体的,可以根据公安行业标准化的人像语义属性标签构建多标签学习神经网络后,通过所述多标签学习神经网络将图像数据转化为基于公安行业语义属性标签的图像表示集Y。

优选的,所述语义属性为人像语义属性,至少包括眉部信息和特征标记信息,所述眉部信息包括眉毛形状、眉的密度、眉的长短、眉的宽窄、相对眉向和眉的间距信息,所述特征标记包括类别、大小、部位、方位和数量信息。具体的人像语义属性如下表所示。

步骤200,接收用户输入的查询,获取用户针对该查询选择的语义属性信息;根据用户的选择标记显著性语义属性,按照图像是否带有显著性语义属性将前述图像表示集分类为显著性属性图像集和非显著性属性图像集,对显著性属性图像集和非显著性属性图像集分别进行分类排序,并根据排序结果生成初始候选人排序队列。

根据用户的选择标记显著性语义属性,可以将语义属性分类为显著性属性和非显著性属性。进一步,根据图像中是否带有显著性属性,可以将前述图像表示集Y分为显著性属性图像集和非显著性属性图像集。

本实施例中,优选的,所述语义属性信息包括语义属性的名称和属性值。此时,获取用户针对该查询选择的语义属性信息的步骤包括:

根据用户输入的查询提取查询的特征;

根据查询的特征,在终端显示结构上输出一系列语义属性对应的属性值以供用户选择;

获取用户选择的语义属性的属性值。

步骤300,通过混合相似度再排序交互检索获取用户确定的最终目标;其中,通过层进式人机交互获取用户的选择信息,针对每次选择对候选人排序队列进行混合相似度再排序,生成下一循环的候选人排序队列供用户再选择,获取用户确定的最终目标后结束循环。

本实施例中,在层进式人机交互过程中,还可以通过设置机器视觉识别辅助用户进行判断,从而降低人工误差。

下面结合图1详细描述本实施例。

步骤100中,转化形成图像表示集Y的具体步骤可以如下。

设I幅训练图像集X为{x

设L个行业标准化语义属性集Z为{z

然后,通过MLCNN(即Multi-1abel Classification Convolutional NeuralNetwork)神经网络,将训练图像集转化为v×L维的基于语义属性标签的图像表示集Y为{y

y

式中,函数Rep(·)为从X

在假设每个语义属性的贡献(contribution)参数δ(i,l)一致的情况下,图像x

式中,C(i,l)表示各有效语义属性的softmax多标记损失函数值,C(i,l)的计算公式如下:

根据Score(x

Dis(x

S

步骤200用于实现交互式显著性属性获取及初排序。

首先,根据用户(即操作者)输入的不同类别输入Q,对应于该输入Q,终端显示结构的机器界面上可以列出一系列语义属性对应的属性值以供用户进行选择。

交互者可以仅选择一个或多个印象深刻的确定语义属性的属性值,对其他相对模糊、无法确定的语义属性选项可以留白,即不做选择。

获取前述用户选择的语义属性集合G

然后,根据图像是否带有显著性属性

本实施例中,为突出显著性属性的作用,可以调整Score(x

公式(6)中,

优选的实施方式中,设初始值α(0)=0.9,

且α(r+1)=min(0.5,α(0)-0.05r)(r≥0)。

将公式(6)带入公式(5)进行重新计算,得到两个基于目标Qr的按距离倒序排序的队列,分别为显著性语义属性队列RankA(Q

然后,通过Top(·)取位函数分别获取RankA的前t

Candidate(r)=Top(RankA(Q

其中,Candidate(0)表示初始候选人排序队列。

本实施例中,优选的,t

步骤300,通过混合相似度再排序交互检索获取用户确定的最终目标。该步骤中,为尽量减少人工误差,还增加了机器视觉的辅助判断。

首先,获取第r+1次人工选择Choice(r+1)。

对每次人工选择Choice(r+1)∈Candidate(r)提取基于LBP-HSV(即,Loca1Binary Pattern-HueSaturation Value)特征融合算子的整体复合特征F

DisK(x

式中,V

然后,根据公式(5)和公式(8)生成融合距离函数,如下:

D(x

式中,μ为辅助特征权重值。

本实施例中,我们将这一权值μ的设置进行简化,根据不同的再排序策略设置μ。

具体的,可以根据人工选择Q

当人工选择Q

所述再排序策略1为:将RankB(Q

反之,当人工选择Q

所述再排序策略2为:将RankB(Q

通过采用上述再排序策略,可以有效地减少每次循环的计算量,进一步加速收敛。

优选的,为避免无效循环和加速收敛,还可以在每次循环的再排序步骤前,增加候选人聚类转化操作。具体的,通过如下公式对Top(RankA(Q

Top′(RankA(Q

式中,K

如此,不断地在进行生成Candidate(r)、候选人聚类转化、获取Q

上述技术方案,既避免了仅依靠语义属性识别带来的弊端,又可以不断缩减矩阵大小,避免了每次交互循环算法的消耗,在提升识别效果同时还达到了快速检索目标的效果,尤其适用于中大型规模的图像集的检索。

本发明基于疑难人像检索的应用需求,引入公安行业标准化人像语义属性(或称公安行业规范化人像语义属性)并通过多标签分类神经网络实现了行标化(行业标准化)的人像语义属性分类,然后通过人机交互的方式根据用户的人工选择区分显著性语义属性与非显著性语义属性,提出了基于显著性语义属性的交互式疑难人像检索方案,并结合再排序策略构建了一套循环少、收敛快的人像检索方法。实践结果表明,本发明的查准率、召回率、F1值上均达到了较优值,能够很好地解决各类疑难人像的检索问题。

参见图2所示,为本发明的另一实施例,还提供了一种交互式疑难人像检索客户端。所述客户端200包括初始化模块210,信息采集模块220和信息处理模块230。

所述初始化模块210,用于获取图像,将图像转化为基于语义属性标签的图像表示集。

优选的,所述语义属性标签为公安行业标准化的人像语义属性标签。具体的,可以根据公安行业标准化的人像语义属性标签构建多标签学习神经网络后,通过所述多标签学习神经网络将图像数据转化为基于公安行业语义属性标签的图像表示集Y。

所述信息采集模块220,用于接收用户输入的查询,获取用户针对该查询选择的语义属性信息。

优选的,所述语义属性信息包括语义属性的名称和属性值。

所述信息采集模块220被配置为:根据用户输入的查询提取查询的特征;根据查询的特征,在终端显示结构上输出一系列语义属性对应的属性值以供用户选择;获取用户选择的语义属性的属性值作为选择的语义属性信息。

所述信息处理模块230,用于根据用户的选择标记显著性语义属性,按照图像是否带有显著性语义属性将前述图像表示集分类为显著性属性图像集和非显著性属性图像集,对显著性属性图像集和非显著性属性图像集分别进行分类排序,并根据排序结果生成初始候选人排序队列;以及通过混合相似度再排序交互检索获取用户确定的最终目标;其中,通过层进式人机交互获取用户的选择信息,针对每次选择对候选人排序队列进行混合相似度再排序,生成下一循环的候选人排序队列供用户再选择,在获取用户确定的最终目标时结束循环。

其他技术特征参考在前实施例,所述信息处理模块230能够被配置为执行相应的信息处理方法,在此不再赘述。

参见图3所示,为本发明的另一实施例,还提供了一种交互式疑难人像检索系统。所述系统300包括用户终端310和服务器端320。

所述用户终端310设置有人机交互接口,通过人机交互接口采集用户输入的查询信息和选择信息。

所述服务器端320包括处理器和用于存储处理器可执行指令和参数的存储器。

所述处理器被配置为:获取图像,将图像转化为基于语义属性标签的图像表示集;以及,根据接收用户输入的查询,获取用户针对该查询选择的语义属性信息;根据用户的选择标记显著性语义属性,按照图像是否带有显著性语义属性将前述图像表示集分类为显著性属性图像集和非显著性属性图像集,对显著性属性图像集和非显著性属性图像集分别进行分类排序,并根据排序结果生成初始候选人排序队列;以及,通过混合相似度再排序交互检索获取用户确定的最终目标;其中,通过层进式人机交互获取用户的选择信息,并针对每次选择对候选人排序队列进行混合相似度再排序,生成下一循环的候选人排序队列供用户再选择,在获取用户确定的最终目标时结束循环。

其他技术特征参考在前实施例,所述处理器能够被配置为执行相应的信息处理方法,在此不再赘述。

在上面的描述中,本发明的公开内容并不旨在将其自身限于这些方面。而是,在本公开内容的目标保护范围内,各组件可以以任意数目选择性地且操作性地进行合并。另外,像“包括”、“囊括”以及“具有”的术语应当默认被解释为包括性的或开放性的,而不是排他性的或封闭性,除非其被明确限定为相反的含义。所有技术、科技或其他方面的术语都符合本领域技术人员所理解的含义,除非其被限定为相反的含义。在词典里找到的公共术语应当在相关技术文档的背景下不被太理想化或太不实际地解释,除非本公开内容明确将其限定成那样。本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号