首页> 中国专利> 一种基于聚类融合的半监督学习伪标签赋值方法

一种基于聚类融合的半监督学习伪标签赋值方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于聚类融合的半监督学习伪标签赋值方法，包括针对存在无标签数据集的卷积神经网络半监督学习，利用有标签数据和无标签数据进行所述神经网络预训练，并利用训练好的网络提取数据特征；利用最近邻法为距离有标签数据最近的N个无标签数据赋予伪标签；对全体数据信息使用k‑means聚类进行分析，为未赋标签的数据赋予聚类的伪标签；利用所述得到的标签数据和伪标签数据对所述卷积神经网络进行不断训练，得到最优网络进行标签赋值。可以适用于各个领域深度学习下的半监督学习；能充分挖掘无标签数据的信息，为网络提供内容更丰富的训练数据；原理清晰，容易理解，代码易实现。

著录项

公开/公告号CN112418331A

专利类型发明专利
公开/公告日2021-02-26

原文格式PDF
申请/专利权人国网甘肃省电力公司电力科学研究院;
展开▼

申请/专利号CN202011348264.8
发明设计人白万荣;张玉刚;魏峰;朱小琴;刘吉祥;王蓉;张蕾;
展开▼

申请日2020-11-26
分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构32272 南京禹为知识产权代理事务所(特殊普通合伙);
代理人王晓东
地址 730050 甘肃省兰州市安宁区万新北路249号
入库时间 2023-06-19 10:00:31

说明书

技术领域

本发明涉及一种半监督学习的伪标签赋值的技术领域，尤其涉及一种基于聚类融合的半监督学习伪标签赋值方法。

背景技术

随着深度学习的日益发展，用有标签数据对神经网络进行训练的全监督学习已经取得了很好的效果。然而，在日常生活中，依靠人工标注数据往往会耗费大量的人力和财力成本，而无标注的数据往往极易大量获得，于是，近些年半监督和无监督学习便受到了研究者的重点关注。半监督学习介于监督学习和无监督学习之间，既兼顾了监督学习的准确性，又兼顾了无监督学习的实用性，是模式识别和机器学习领域研究的重点问题。它主要解决的是当训练数据中有一部分数据没有标签时，如何同时利用有标签数据和无标签数据进行训练。伪标签法是半监督学习和无监督学习的一种经典方法，它的主要原理是为无标签数据赋予一个虚拟标签，使其转化成有标签数据再参与训练。伪标签法分为无监督学习的伪标签法和监督学习的伪标签法。

无监督学习的伪标签法目前主要有两种：一种是基于聚类的方法，将数据特征进行整体聚类(如用k-means)，把聚类后得到的标签作为伪标签；一种是基于图像特征或相似度，通过计算无标签特征与参照特征的距离来获得标签。其中基于聚类的伪标签法被证实较为有效，且保持目前最先进的精度。

监督学习的伪标签法中应用较多的一种方法为最近邻法，它是k近邻法的一个特例。k近邻法原理是通过计算有标签数据特征和无标签数据特征的欧氏距离得到伪标签，距离有标签数据最近的k个无标签数据会分配到该标签数据的标签。最近邻法即为把标签数据的标签赋值给离它最近的一个无标签数据。

由于半监督学习中既含有标签数据，又有无标签数据，这决定了它兼具监督学习和无监督学习的特性，既能从监督学习的角度来考虑，也能从无监督学习的角度考虑。因此，本专利申请结合了无监督学习中的k-means聚类法和无监督学习中的最近邻法，提出了一种基于聚类融合的半监督学习伪标签赋值方法。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有半监督学习存在的问题，提出了本发明。

因此，本发明解决的技术问题是：当训练数据中有一部分数据没有标签时，无法进行训练，依靠人工标注数据往往会耗费大量的人力和财力成本。

为解决上述技术问题，本发明提供如下技术方案：针对存在无标签数据集的卷积神经网络半监督学习，利用有标签数据和无标签数据进行所述神经网络预训练，并利用训练好的网络提取数据特征；利用最近邻法为距离有标签数据最近的N个无标签数据赋予伪标签；对全体数据信息使用k-means聚类进行分析，为其余未赋标签的数据赋予聚类的伪标签；利用所述得到的标签数据和伪标签数据对所述卷积神经网络进行不断训练，得到最优网络进行标签赋值。

作为本发明所述的基于聚类融合的半监督学习伪标签赋值方法的一种优选方案，其中：所述对特征提取卷积神经网络进行预训练包括，用imagenet数据库训练resnet101网络，然后用预训练过的网络提取训练数据集中全部样本的特征，设定标签数据特征为f

作为本发明所述的基于聚类融合的半监督学习伪标签赋值方法的一种优选方案，其中：所述利用最近邻法为无标签数据赋予伪标签包括，分别计算所述无标签数据特征和各标签数据特征之间的欧氏距离，并选出每个无标签数据对应的距离最近的标签数据，并且在用所述最近邻法赋予伪标签时只选取部分最可靠的无标签数据进行赋值。

作为本发明所述的基于聚类融合的半监督学习伪标签赋值方法的一种优选方案，其中：所述选取部分最可靠的无标签数据进行赋值包括，将计算出的欧氏距离从小到大进行排序，并选出距离最小的前N个无标签数据赋值伪标签，伪标签为对应的标签数据的标签，计算公式如下所示：

其中：N为本轮所选伪标签的个数，s

作为本发明所述的基于聚类融合的半监督学习伪标签赋值方法的一种优选方案，其中：所述计算出的欧氏距离从小到大进行排序包括，每个无标签数据特征和各标签数据特征间的最小欧氏距离的计算公式为：

其中：f

作为本发明所述的基于聚类融合的半监督学习伪标签赋值方法的一种优选方案，其中：所述为未赋标签的数据赋予聚类的伪标签包括，对全体数据特征用k-means聚类算法获得聚类伪标签，所述K-means聚类算法将样本特征聚类成k个簇(k是人为设定的值)，设定所有聚类样本的个数为m，簇划分的初始类别集合为

其中：x

其中：|C

作为本发明所述的基于聚类融合的半监督学习伪标签赋值方法的一种优选方案，其中：所述将通过聚类得到的伪标签进行转化包括，对于未能获得伪标签的所述无标签数据，计算其特征与所有标签数据特征的欧氏距离，并选取其中最小距离对应的标签数据的标签作为所述无标签数据的伪标签，已实现全部数据标签的统一。

作为本发明所述的基于聚类融合的半监督学习伪标签赋值方法的一种优选方案，其中：为所有数据赋予标签后，进行一次网络训练，输入所述得到的标签数据和伪标签数据，所述网络训练时使用的损失函数是分类损失和三元组损失，其目的是使损失函数不断接近极小值，在进行一次网络训练后，再继续下一轮的伪标签赋值，直到某一次训练时损失函数得到的损失值减小变化极小，称为网络收敛，进而得到最优网络。

作为本发明所述的基于聚类融合的半监督学习伪标签赋值方法的一种优选方案，其中：所述提取最佳数据特征赋予伪标签包括，由于所述神经网络经过训练，网络的特征提取性能要比之前好，于是可以在下一轮的伪标签选择过程中逐步扩大最近邻法选择的伪标签数量，选择更多距离标签数据近的、可靠的无标签数据进行训练，以缩小无监督k-means法选择的数量，直到网络收敛时停止。

本发明的有益效果：可以适用于各个领域深度学习下的半监督学习；能充分挖掘无标签数据的信息，为网络提供内容更丰富的训练数据；原理清晰，容易理解，代码易实现。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一个实施例所述的基于聚类融合的半监督学习伪标签赋值方法的流程示意图；

图2为本发明第一个实施例所述的基于聚类融合的半监督学习伪标签赋值方法的原理示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1～2，为本发明的第一个实施例，该实施例提供了一种基于聚类融合的半监督学习伪标签赋值方法，包括：

S1：构建特征提取卷积神经网络，利用有标签数据和无标签数据进行神经网络预训练，并利用训练好的网络提取数据特征。其中需要说明的是，

对特征提取卷积网络进行预训练包括，用imagenet数据库训练resnet101网络，然后用预训练过的网络提取训练数据集中全部样本的特征，设定标签数据特征为f

S2：利用最近邻法为距标签数据最近的一批无标签数据赋予伪标签。其中需要说明的是，

利用最近邻法为无标签数据赋予伪标签包括，由于半监督学习中同时存在有标签数据和无标签数据参与训练，有标签数据能够提供比无标签数据更丰富的信息，因而对于半监督下的伪标签赋值，首先考虑最近邻法；分别计算无标签数据特征和各标签数据特征之间的欧氏距离，并选出每个无标签数据对应的距离最近的标签数据，由于神经网络只经过预训练，因此在用最近邻法赋予伪标签时只选取部分最可靠的无标签数据进行赋值；

进一步的是，选取部分最可靠的无标签数据进行赋值包括，将计算出的欧氏距离从小到大进行排序，并选出距离最小的前N个无标签数据赋值伪标签，伪标签为对应的标签数据的标签，计算公式如下所示：

其中：f

S3：对全体数据信息使用k-means聚类进行分析，为未赋标签的数据赋予聚类的伪标签。其中需要说明的是，

为未赋标签的数据赋予聚类的伪标签包括，

对于对全体数据特征用k-means聚类算法获得聚类伪标签，K-means聚类算法将样本特征聚类成k个簇(k是人为设定的值)，设定所有聚类样本的个数为m，簇划分的初始类别集合为

其中：x

其中：|C

进一步的是，将通过聚类得到的伪标签进行转化包括，由于聚类得到的伪标签和数据的原始标签不一致，所以需要进一步转换，对于每一个未能获得伪标签的无标签数据，根据其聚类标签在标签数据集中查找有相同聚类标签的标签数据，并将该标签数据的标签赋给此无标签数据；由于k-means算法和网络等因素会导致聚类标签产生一定的噪声，可能会出现查找不到含有相同聚类标签的标签数据，对这种个别的无标签数据，计算其特征与所有标签数据特征的欧氏距离，并选取其中最小距离对应的标签数据的标签作为无标签数据的伪标签，以实现全部数据标签的统一。

S4：利用得到的标签数据和伪标签数据对卷积神经网络进行不断训练，得到最优网络进行标签赋值。其中需要说明的是，

所有无标签数据均获得了相应的伪标签时，将全部数据用分类损失和三元组损失对网络进行训练，用训练过的网络继续提取全部数据的特征；由于神经网络经过训练，网络的特征提取性能要比之前好，于是可以在下一轮的伪标签选择过程中逐步扩大最近邻法选择的伪标签数量，选择更多距离标签数据近的、可靠的无标签数据进行训练，以缩小无监督k-means法选择的数量，直到网络收敛时停止。

实施例2

本发明的第二个实施例，该实施例为了更好地对本发明方法中采用的技术效果加以验证说明，本实施例中选择以行人重识别应用进行测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果；

以行人重识别应用为实验对象进行实验测试，即给定一个监控行人的图像，检索跨设备下的不同角度行人图像，实现该行人的识别，简单的说，就是实现机器在不同场景下认出同一个人；使用传统的伪标签赋值法与本发明方法进行对比测试，其中传统的伪标签赋值法仅用最近邻方法为距离标签数据最近的一批无标签数据赋值，而剩余的无标签数据则未被赋予伪标签；而本发明方法在为离标签数据最近的无标签数据用最近邻法赋值的基础上，对剩余的未选中样本又用整体的K-means聚类的方式为其赋予伪标签，使这些数据得以用分类损失等进行训练，充分利用了这些数据中所包含的信息，使网络训练的效果得到了提升；在单样本标注的行人重识别任务下，使用传统方法和本发明方法在数据集Market1501上的结果如下表1所示，其中MAP指mean average precision，平均精度，rank-1指搜索结果中识别概率最高的图像为正确结果的概率，rank-5和rank-10分别指识别概率前5和前10识别概率最高的图像中存在正确结果的概率。

表1：方法对比结果数据。

由表1可以看出，无论是平均精度还是识别到正确结果的概率，使用本发明方法都比使用传统方法进行识别的所得的结果要高，因此通过加入K-means伪标签标注方法可以使网络训练的效果得到提升。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于聚类融合的半监督学习伪标签赋值方法 [P] . 中国专利： CN112418331A . 2021-02-26
2. 一种基于伪标签加权的半监督学习方法 [P] . 中国专利： CN112232416B . 2021.09.14
3. Tag clustering apparatus based on related tags and tag clustering method thereof [P] . 韩国专利： KR101007056B1 . 2011-01-12

机译：基于相关标签的标签聚类装置及其标签聚类方法
4. TAG CLUSTERING APPARATUS BASED ON RELATED TAGS AND TAG CLUSTERING METHOD THEREOF [P] . 韩国专利： KR20100013157A . 2010-02-09

机译：基于相关标签的标签聚类装置及其标签聚类方法
5. METHOD FOR AUTOMATIC ITERATIVE CLUSTERISATION OF ELECTRONIC DOCUMENTS ACCORDING TO SEMANTIC SIMILARITY, METHOD FOR SEARCH IN PLURALITY OF DOCUMENTS CLUSTERED ACCORDING TO SEMANTIC SIMILARITY AND COMPUTER-READABLE MEDIA [P] . 俄罗斯专利： RU2556425C1 . 2015-07-10

机译：一种基于语义相似度的电子文档自动迭代聚类的方法，一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质