首页> 中国专利> 基于难样本挖掘的大规模人脸识别测试集构建方法及装置

基于难样本挖掘的大规模人脸识别测试集构建方法及装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于难样本挖掘的大规模人脸识别测试集构建方法及装置，该方法包括：构建多个人物名称列表，将多个人物名称列表聚集在数据池中，并对数据池中的列表进行处理；根据数据池中的人物名称，通过搜索引擎寻找人物名称对应的人脸；将人物名称对应的人脸输入人脸识别模型中得到人脸相似度，根据相似度判断人脸是否为难样本，根据得到的难样本构建测试集。该方法通过统一构建标注员熟悉的人名列表，避免在标注过程中引入噪声。通过现有人脸识别模型辅助进行难样本挖掘，可以构建足够困难的大规模人脸识别数据集。

著录项

公开/公告号CN112766049A

专利类型发明专利
公开/公告日2021-05-07

原文格式PDF
申请/专利权人清华大学;
展开▼

申请/专利号CN202011595059.1
发明设计人鲁继文;朱政;周杰;
展开▼

申请日2020-12-29
分类号G06K9/00(20060101);G06K9/62(20060101);
代理机构11201 北京清亦华知识产权代理事务所(普通合伙);
代理人张文姣
地址 100084 北京市海淀区清华园
入库时间 2023-06-19 10:54:12

说明书

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于难样本挖掘的大规模人脸识别测试集构建方法及装置。

背景技术

大规模人脸识别测试集旨在对人脸识别的性能进行全面的评测，对不同人脸识别模型的好坏进行比较，并指出识别方法的失败情况以及改进方向。

尽管近年来有一系列的人脸识别数据集被广泛使用，但是这些数据集在构建方法和难度上都有很大的缺陷。这主要是由于(1)在人工构建数据集时，标注员对于陌生人脸，很难精确判断是否为同一个人。(2)大量被人工标记的人脸，都非常简单，导致数据集难度低，很容易饱和。

现如今，有代表性的人脸识别数据集主要分为三种：

(1)LFW系列、AgeDB、CFP，主要对两张人脸是否属于同一个人进行评测，因为比较简单，基于深度学习的人脸识别模型在上面已经饱和。

(2)IQIYI-VID和YTF数据集主要对基于视频的人脸识别算法进行评测，也已经饱和。

(3)IJB系列和MegaFace数据集主要对人脸验证和人脸比对进行测评，数据集规模比较大，但是由于标注员对于陌生人脸，很难精确判断是否为同一个人，所以这些数据集包含很多噪声，严重影响了对算法的评价。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于难样本挖掘的大规模人脸识别测试集构建方法，该方法统一构建标注员熟悉的人名列表，使得标注员通过列表搜索可信来源的人脸，从而构建完全干净的人脸识别测试集，利用人脸识别模型辅助进行难样本挖掘，可以构建足够困难的大规模人脸识别数据集。

本发明的另一个目的在于提出一种基于难样本挖掘的大规模人脸识别测试集构建装置。

为达到上述目的，本发明一方面实施例提出了一种基于难样本挖掘的大规模人脸识别测试集构建方法，包括：

构建多个人物名称列表，将所述多个人物名称列表聚集在数据池中，并对所述数据池中的列表进行处理；

根据所述数据池中的人物名称，通过搜索引擎寻找人物名称对应的人脸；

将所述人物名称对应的人脸输入人脸识别模型中得到人脸相似度，根据相似度判断所述人脸是否为难样本，根据得到的难样本构建测试集。

本发明实施例的基于难样本挖掘的大规模人脸识别测试集构建方法，通过构建多个人物名称列表，将多个人物名称列表聚集在数据池中，并对数据池中的列表进行处理；根据数据池中的人物名称，通过搜索引擎寻找人物名称对应的人脸；将人物名称对应的人脸输入人脸识别模型中得到人脸相似度，根据相似度判断人脸是否为难样本，根据得到的难样本构建测试集。由此，解决了现有人脸识别数据集构建方法包含噪声、过于简单的问题。通过统一构建标注员熟悉的人名列表，避免在标注过程中引入噪声。通过现有人脸识别模型辅助进行难样本挖掘，可以构建足够困难的大规模人脸识别数据集。

另外，根据本发明上述实施例的基于难样本挖掘的大规模人脸识别测试集构建方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，对所述数据池中的列表进行处理，包括：对人物名称列表进行重复和冲突检测，将人物列表名称进行合并或删除。

进一步地，在本发明的一个实施例中，构建多个人物名称列表包括：通过多个标注者分别构建多个人物名称列表。

进一步地，在本发明的一个实施例中，所述人物名称列表包括多个属性特征标签。

进一步地，在本发明的一个实施例中，根据相似度判断所述人脸是否为难样本，包括：

若同一个人的人脸相似度小于0.5或不同人的人脸相似度大于0.5，则所述人脸为难样本。

为达到上述目的，本发明另一方面实施例提出了一种基于难样本挖掘的大规模人脸识别测试集构建装置，包括：

第一构建模块，用于构建多个人物名称列表，将所述多个人物名称列表聚集在数据池中，并对所述数据池中的列表进行处理；

查找模块，用于根据所述数据池中的人物名称，通过搜索引擎寻找人物名称对应的人脸；

第二构建模块，用于将所述人物名称对应的人脸输入人脸识别模型中得到人脸相似度，根据相似度判断所述人脸是否为难样本，根据得到的难样本构建测试集。

本发明实施例的基于难样本挖掘的大规模人脸识别测试集构建装置，通过构建多个人物名称列表，将多个人物名称列表聚集在数据池中，并对数据池中的列表进行处理；根据数据池中的人物名称，通过搜索引擎寻找人物名称对应的人脸；将人物名称对应的人脸输入人脸识别模型中得到人脸相似度，根据相似度判断人脸是否为难样本，根据得到的难样本构建测试集。由此，解决了现有人脸识别数据集构建方法包含噪声、过于简单的问题。通过统一构建标注员熟悉的人名列表，避免在标注过程中引入噪声。通过现有人脸识别模型辅助进行难样本挖掘，可以构建足够困难的大规模人脸识别数据集。

另外，根据本发明上述实施例的基于难样本挖掘的大规模人脸识别测试集构建装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，对所述数据池中的列表进行处理，包括：

对人物名称列表进行重复和冲突检测，将人物列表名称进行合并或删除。

进一步地，在本发明的一个实施例中，构建多个人物名称列表包括：通过多个标注者分别构建多个人物名称列表。

进一步地，在本发明的一个实施例中，所述人物名称列表包括多个属性特征标签。

进一步地，在本发明的一个实施例中，根据相似度判断所述人脸是否为难样本，包括：

若同一个人的人脸相似度小于0.5或不同人的人脸相似度大于0.5，则所述人脸为难样本。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于难样本挖掘的大规模人脸识别测试集构建方法流程图；

图2为根据本发明一个实施例的基于难样本挖掘的大规模人脸识别测试集构建方法流程框图；

图3为根据本发明一个实施例的人脸标注示意图；

图4为根据本发明一个实施例的相似度检测结果示意图；

图5为根据本发明另一个实施例的相似度检测结果示意图；

图6为根据本发明一个实施例的基于难样本挖掘的大规模人脸识别测试集构建装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于难样本挖掘的大规模人脸识别测试集构建方法及装置。

首先将参照附图描述根据本发明实施例提出的基于难样本挖掘的大规模人脸识别测试集构建方法。

图1为根据本发明一个实施例的基于难样本挖掘的大规模人脸识别测试集构建方法流程图。

如图1所示，该基于难样本挖掘的大规模人脸识别测试集构建方法包括以下步骤：

步骤S1，构建多个人物名称列表，将多个人物名称列表聚集在数据池中，并对数据池中的列表进行处理。

进一步地，在本发明的一个实施例中，对数据池中的列表进行处理，包括：对人物名称列表进行重复和冲突检测，将人物列表名称进行合并或删除。

进一步地，在本发明的一个实施例中，构建多个人物名称列表包括：通过多个标注者分别构建多个人物名称列表，人物名称列表包括多个属性特征标签。

具体地，通过多个标注员构建各自熟悉的人名列表，如图2所示，1号标注员的人物列表中包括明星、政治、商业、运动员等标签。将多个标注员分别构建的人物名称列表放入一个统一的人名池中，防止重复和冲突。

步骤S2，根据数据池中的人物名称，通过搜索引擎寻找人物名称对应的人脸。

具体地，如图3所示，对于每一个人名，负责的对应标注员需要从可靠的来源寻找该人名对应的人脸。举例而言，标注员可以通过搜索引擎进行寻找。

步骤S3，将人物名称对应的人脸输入人脸识别模型中得到人脸相似度，根据相似度判断人脸是否为难样本，根据得到的难样本构建测试集

通过标注员寻找到了多个人脸样本，将找到的人脸输入到人脸识别模型中，通过人脸模型得到人脸间的相似度，通过相似度判断样本是否为难样本。

进一步地，根据相似度判断人脸是否为难样本，包括：若同一个人的人脸相似度小于0.5或不同人的人脸相似度大于0.5，则人脸为难样本。

具体地，将寻找到的人脸，输入到一个人脸识别模型中，得到相似度并判断是否为难样本。每个标注员需要收集一定数量的难样本。具体来说，难样本有两种情况：(1)同一个人的人脸相似度低于0.5，如图4所示。(2)不同人的人脸相似度高于0.5，如图5所示。将得到的难样本构建难样本测试集。

根据本发明实施例提出的基于难样本挖掘的大规模人脸识别测试集构建方法，通过构建多个人物名称列表，将多个人物名称列表聚集在数据池中，并对数据池中的列表进行处理；根据数据池中的人物名称，通过搜索引擎寻找人物名称对应的人脸；将人物名称对应的人脸输入人脸识别模型中得到人脸相似度，根据相似度判断人脸是否为难样本，根据得到的难样本构建测试集。由此，解决了现有人脸识别数据集构建方法包含噪声、过于简单的问题。通过统一构建标注员熟悉的人名列表，避免在标注过程中引入噪声。通过现有人脸识别模型辅助进行难样本挖掘，可以构建足够困难的大规模人脸识别数据集。

其次参照附图描述根据本发明实施例提出的基于难样本挖掘的大规模人脸识别测试集构建装置。

图6为根据本发明一个实施例的基于难样本挖掘的大规模人脸识别测试集构建装置结构示意图。

如图6所示，该基于难样本挖掘的大规模人脸识别测试集构建装置包括：构建模块601、查找模块602和构建模块603。

第一构建模块601，用于构建多个人物名称列表，将多个人物名称列表聚集在数据池中，并对数据池中的列表进行处理。

查找模块602，用于根据数据池中的人物名称，通过搜索引擎寻找人物名称对应的人脸。

第二构建模块603，用于将人物名称对应的人脸输入人脸识别模型中得到人脸相似度，根据相似度判断人脸是否为难样本，根据得到的难样本构建测试集。

该装置统一构建标注员熟悉的人名列表，以及利用人脸识别模型进行难样本挖掘，可以构建出来大规模干净而又困难的测试集。

进一步地，在本发明的一个实施例中，对数据池中的列表进行处理，包括：对人物名称列表进行重复和冲突检测，将人物列表名称进行合并或删除。

进一步地，在本发明的一个实施例中，构建多个人物名称列表包括：通过多个标注者分别构建多个人物名称列表。

进一步地，在本发明的一个实施例中，人物名称列表包括多个属性特征标签。

进一步地，在本发明的一个实施例中，根据相似度判断人脸是否为难样本，包括：

若同一个人的人脸相似度小于0.5或不同人的人脸相似度大于0.5，则人脸为难样本。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的基于难样本挖掘的大规模人脸识别测试集构建装置，通过构建多个人物名称列表，将多个人物名称列表聚集在数据池中，并对数据池中的列表进行处理；根据数据池中的人物名称，通过搜索引擎寻找人物名称对应的人脸；将人物名称对应的人脸输入人脸识别模型中得到人脸相似度，根据相似度判断人脸是否为难样本，根据得到的难样本构建测试集。由此，解决了现有人脸识别数据集构建方法包含噪声、过于简单的问题。通过统一构建标注员熟悉的人名列表，避免在标注过程中引入噪声。通过现有人脸识别模型辅助进行难样本挖掘，可以构建足够困难的大规模人脸识别数据集。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于难样本挖掘的大规模人脸识别测试集构建方法及装置 [P] . 中国专利： CN112766049A . 2021-05-07
2. 基于多重聚类信息的无监督行人难样本挖掘方法和系统 [P] . 中国专利： CN112819065A . 2021-05-18
3. FACE SAMPLE LIBRARY DEPLOYMENT METHOD, AND FACE RECOGNITION-BASED SERVICE PROCESSING METHOD AND APPARATUS [P] . 世界知识产权组织专利： WO2020220779A1 . 2020-11-05

机译：人脸样本库部署方法，基于人脸识别的服务处理方法和装置
4. METHOD AND APPARATUS FOR FAST SIMILARITY-BASED QUERY, SELF-JOIN, AND JOIN FOR MASSIVE, HIGH-DIMENSION DATASETS [P] . 欧洲知识产权局专利： EP2035917B1 . 2014-05-21

机译：基于快速相似性的查询，自联接和大规模，高维数据集联接的方法和装置
5. METHOD AND APPARATUS FOR FAST SIMILARITY-BASED QUERY, SELF-JOIN, AND JOIN FOR MASSIVE, HIGH-DIMENSION DATASETS [P] . CA2692451C . 2012-01-10

机译：基于快速相似性的查询，自联接和大规模，高维数据集联接的方法和装置