首页> 中国专利> 一种样本选择模型的确定方法及装置

一种样本选择模型的确定方法及装置

摘要

公开了一种样本选择模型的确定方法及装置,包括:获取目标计算模型和已标注的样本数据集合;并获取多个样本选择模型;利用各所述样本选择模型对所述已标注的样本数据集合进行选择,得到相应的已标注样本子集合;基于所述目标计算模型及所述各已标注样本子集合,确定所述已标注样本子集合各自对应的评价结果;根据所述评价结果,从所述多个样本选择模型中确定优选样本选择模型;利用样本选择模型对已标注的样本数据集合进行选择,得到相应的已标注样本子集合;再根据已标注样本子集合代入目标计算模型得到的评价结果,来确定优选样本选择模型;实现了对于样本选择模型的评价和选择,进而针对性的提高了目标计算模型的训练效率。

著录项

  • 公开/公告号CN112434073A

    专利类型发明专利

  • 公开/公告日2021-03-02

    原文格式PDF

  • 申请/专利号CN201910787004.1

  • 发明设计人 杜森垚;

    申请日2019-08-24

  • 分类号G06F16/2458(20190101);G06K9/62(20060101);G06N20/00(20190101);

  • 代理机构11687 北京嘉科知识产权代理事务所(特殊普通合伙);

  • 代理人杨波

  • 地址 100086 北京市海淀区中关村大街1号3层318

  • 入库时间 2023-06-19 10:05:17

说明书

技术领域

本申请涉及数据分析技术领域,尤其涉及一种样本选择模型的确定方法及装置。

背景技术

在数据分析领域,要对计算模型进行迭代优化,就需要借助各种样本数据进行反复训练。而从海量的样本数据中,筛选出能够优化特定计算模型的部分数据并进行标记,这一过程就需要借助样本选择模型。

一类常用的样本选择模型,是基于主动学习算法(即active learning)而建立。实际上,此类样本选择模型的数量并不唯一,现有技术中基于主动学习算法建立的样本选择模型存在多种。

然而在目前的应用中,虽然经常采用样本选择模型对样本数据进行筛选,但却无法准确的评定其筛选效果,也无法判断究竟哪种样本选择模型所筛选的样本数据,能够更好的满足计算模型迭代优化的需求。

合进行选择和评价,实现对于样本选择模型的确定。

发明内容

为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种样本选择模型的确定方法及装置,通过对已标注的样本数据集

根据本申请的第一个方面,提供了一种样本选择模型的确定方法,包括:

获取目标计算模型和已标注的样本数据集合;并获取多个样本选择模型;

利用各所述样本选择模型对所述已标注的样本数据集合进行选择,得到相应的已标注样本子集合;

基于所述目标计算模型及所述各已标注样本子集合,确定所述已标注样本子集合各自对应的评价结果;

根据所述评价结果,从所述多个样本选择模型中确定优选样本选择模型。

根据本申请的第二个方面,提供了一种样本选择模型的确定装置,包括:

获取模块,用于获取目标计算模型和已标注的样本数据集合;并获取多个样本选择模型;

样本选择模块,用于利用各所述样本选择模型对所述已标注的样本数据集合进行选择,得到相应的已标注样本子集合;

评价结果确定模块,用于基于所述目标计算模型及所述各已标注样本子集合,确定所述已标注样本子集合各自对应的评价结果;

优选样本选择模型确定模块,用于根据所述评价结果,从所述多个样本选择模型中确定优选样本选择模型。

根据本申请的第三方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面中所述的样本选择模型的确定方法。

根据本申请的第四方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;

所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现上述第一方面中所述的样本选择模型的确定方法。

与现有技术相比,采用本申请提供的样本选择模型的确定方法及装置,利用样本选择模型对已标注的样本数据集合进行选择,得到相应的已标注样本子集合;再根据已标注样本子集合代入目标计算模型得到的评价结果,来确定优选样本选择模型;实现了对于样本选择模型的评价和选择,进而针对性的提高了目标计算模型的训练效率;已标注的样本数据集合中的样本数据可来自于测试数据集,无需额外的数据采集,使对于样本选择模型的评价和选择过程易于实施;且对于基于各类不同的主动学习算法的样本选择模型具有普适性。

附图说明

通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1为本申请一示例性实施例提供的样本选择模型的确定系统的结构示意图;

图2为本申请一示例性实施例提供的样本选择模型的确定方法的流程示意图;

图3为本申请一示例性实施例提供的样本选择模型的确定方法的流程示意图;

图4为本申请一示例性实施例提供的样本选择模型的确定方法的流程示意图;

图5为本申请一示例性实施例提供的样本选择模型的确定装置的结构示意图;

图6为本申请一示例性实施例提供的样本选择模型的确定装置中评价结果确定模块的结构示意图;

图7为本申请一示例性实施例提供的样本选择模型的确定装置中优选样本选择模型确定模块的结构示意图;

图8为本申请一示例性实施例提供的样本选择模型的确定装置的结构示意图;

图9为本申请一示例性实施例提供的电子设备的结构图。

具体实施方式

下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。

主动学习,可以认为是一种获得用于数据训练的样本的方式。其主要思路可以概括为,通过“选择策略”主动从未标注的样本数据集中,挑选出部分(1个或多个)样本,供相关领域的人员进行标注;然后将标注过的样本增加到训练数据集中,供“学习模块”进行训练;当“学习模块”满足终止条件时即可结束程序,否则不断重复上述步骤获得更多的标注样本进行训练。

前述已知,基于主动学习算法(即active learning)的样本选择模型(即用来从未标注的样本数据集中,挑选出部分样本供标注的计算模型)存在多种,但是通常难以判断各个样本选择模型对于样本数据进行筛选的效果;即难以判断各个样本选择模型所筛选样本数据,究竟可以对特定目标计算模型的训练起到怎样的作用;无法确定使用哪种样本选择模型进行数据筛选,更有利于对目标计算模型的训练。因此,现有技术中无法最大程度的提高对于目标计算模型的训练效率。

示例性系统

假设利用某个样本选择模型对已标注的样本数据集合(即已知数据特征的样本数据组成的集合)进行选择后,可以得到相应的已标注样本子集合。则将该已标注样本子集合代入目标计算模型,即可判断模型对于该子集合中样本数据的计算输出,与样本数据实际的标注是否一致。也就是可判断模型输出结果的准确程度。

目标计算模型的输出结果越不准确,说明目标计算模型对于该已标注样本子集合的处理能力尚有不足。也就说明,该样本选择模型进行的数据筛选,能够更有效的发现目标计算模型目前的缺陷。进而利用该样本选择模型筛选样本数据对目标计算模型进行训练,更有利于提高目标计算模型的性能,使目标计算模型能够针对性的优化尚有不足的部分。即意味着该样本选择模型对于该目标计算模型来说效果相对更好。

本申请正是基于上述思想,利用样本选择模型对已标注的样本数据集合进行选择,得到相应的已标注样本子集合;再根据已标注样本子集合代入目标计算模型得到的评价结果,来实现对于样本选择模型的评价和选择。如图1所示,即样本选择模型与目标计算模型组成系统,并从N个样本选择模型中确定优选样本选择模型的结构示意图。

图2是本申请一示例性实施例提供的样本选择模型的确定方法的流程示意图。本实施例可应用在电子设备上,如图2所示,本实施例包括如下步骤:

步骤201、获取目标计算模型和已标注的样本数据集合。

目标计算模型,即待训练的特定计算模型。本实施例的目的,即为了选择得到针对该目标计算模型效果更好,能够针对性的优化该目标计算模型不足部分的样本选择模型。

已标注的样本数据集合,即大量已标注的样本数据组成的集合。已标注的样本数据可以是已被人工标注数据特征的样本数据。具体的,已标注的样本数据集合中的样本数据,可来自于目标计算模型训练使用的测试数据集,无需额外的数据采集。由于已标注的样本数据集合中的样本数据均被标注,所以可根据样本数据实际的标注,来判断后续目标计算模型的输出结果的准确程度。

步骤202、获取多个样本选择模型。

样本选择模型,可以是基于主动学习算法对样本数据进行选择的运算模型,不同的主动学习算法对应不同的样本选择模型。本实施例中将获得多个样本选择模型,并评价各个样本选择模型所筛选的样本数据,对于目标计算模型的训练效果。需要说明的使,各种样本选择模型不同的主动学习算法并不影响本实施例的整体方案,基于各类主动学习算法的样本选择模型均可结合在本实施例的整体技术方案当中,可见本实施例中方法具有对于样本选择模型的普适性。

步骤203、利用各样本选择模型对已标注的样本数据集合进行选择,得到相应的已标注样本子集合。

由于样本选择模型可基于主动学习算法对样本数据进行选择,所以利用样本选择模型对已标注的样本数据集合进行运算,即可筛选得到其中部分样本数据。筛选得到的部分样本数据即构成了得到相应的已标注样本子集合。不同的样本选择模型得到了不同的已标注样本子集合。

步骤204、基于目标计算模型及各已标注样本子集合,确定已标注样本子集合各自对应的评价结果。

将各已标注样本子集合代入目标计算模型中进行计算,并将计算输出结果与样本数据实际的标注进行对比,即可确定目标计算模型针对各已标注样本子集合计算的准确程度。并且根据该准确程度可确定已标注样本子集合各自对应的评价结果。

步骤205、根据评价结果,从多个样本选择模型中确定优选样本选择模型。

基于前述,如果样本选择模型筛选得到的已标注样本子集合使得目标计算模型的输出结果越不准确,因此通过该样本选择模型进行的数据筛选,能够更有效的发现目标计算模型目前的缺陷。也就意味着该样本选择模型对于该目标计算模型的训练效果相对更好。而上述已标注样本子集合各自对应的评价结果,恰好能够反映出目标计算模型针对各已标注样本子集合计算的准确程度。所以本实施例中可根据这一原则,通过评价结果从多个样本选择模型中确定优选样本选择模型。

通过以上技术方案可知,本实施例存在的有益效果是:利用样本选择模型对已标注的样本数据集合进行选择,得到相应的已标注样本子集合;再根据已标注样本子集合代入目标计算模型得到的评价结果,来确定优选样本选择模型;实现了对于样本选择模型的评价和选择,进而针对性的提高了目标计算模型的训练效率;已标注的样本数据集合中的样本数据可来自于测试数据集,无需额外的数据采集,使对于样本选择模型的评价和选择过程易于实施;且对于基于各类不同的主动学习算法的样本选择模型具有普适性。

如图2所示仅为本公开方法的基础实施例,在其基础上进行一定的优化和拓展,还能够得到方法的其他优选实施例。

如图3所示,是本公开另一示例性实施例提供的样本选择模型的确定方法的流程示意图。本实施例可应用在电子设备上。本实施例中,将结合应用场景,对于已标注样本子集合的评价结果的确定过程进行具体的描述。如图3所示,本实施例包括如下步骤:

步骤301、获取目标计算模型和已标注的样本数据集合。

步骤302、获取多个样本选择模型。

步骤303、利用各样本选择模型对已标注的样本数据集合进行选择,得到相应的已标注样本子集合。

上述步骤同理与图2所示实施例中步骤201~步骤203,在此不重复叙述。

需要说明的是,本实施例中可基于如下的具体场景:假设已标注的样本数据集合中的样本数据为图像,并且均已经针对“该图像中是否包括汽车”这一具体的数据特征进行了标注。具体的标注信息例如,该图像中包括汽车则标注为“1”,反之标注为“0”。以上即样本数据的标注信息。这一标注过程可以是人工标注,也可利用其他已经训练成功,并且被认为足够准确的计算模型进行标注。

已标注样本子集合为已标注的样本数据集合经过样本选择模型筛选后确定的子集,所以已标注样本子集合同样包括了部分按上述方式进行表述的图像。

步骤304、利用目标计算模型对各已标注样本子集合进行计算,得到模型输出结果。

本步骤中,将各已标注样本子集合分别代入到目标计算模型中,使目标计算模型对已标注样本子集合中的样本数据进行计算。这一计算过程,实际上可认为是利用目标计算模型中的计算逻辑,对已标注样本子集合中的图像再次进行标注。即使用目标计算模型来判断“图像中是否包括汽车”,进而如图像中包括汽车则标注为“1”,反之标注为“0”。根据目标计算模型对于图像的标注可确定模型输出结果。

各已标注样本子集合分别代入到目标计算模型中,即可以分别的确定各已标注样本子集合对应的模型输出结果。

步骤305、获取已标注样本子集合的标注信息。

已标注样本子集合的标注信息,即包括上述预先对样本数据标注的,且能够反映样本数据真实的数据特征的标注信息(真值)。理论上,如果目标计算模型足够准确,则模型输出结果和已标注样本子集合的标注信息应该是一致的。

但通常在本步骤所处的环节上,目标计算模型的训练过程尚未结束,所以模型输出结果可能准确,也可能不准确。则本步骤中将获取已标注样本子集合的标注信息用以进行对比,以判断模型输出结果的准确程度。

步骤306、确定模型输出结果以及已标注样本子集合的标注信息之间的损失函数,根据损失函数确定标记样本子集合各自对应的评价结果。

本实施例中,将通过特定的损失函数计算模型输出结果相对于已标注样本子集合的标注信息的损失度,即计算模型输出结果相对于真值的准确程度,得到相应的评价结果。

进而根据损失函数分别计算,可为各个已标注样本子集合分别确定对应的评价结果。

步骤307、将损失函数的最大值对应的评价结果,确定为优选评价结果。

步骤308、将优选评价结果相应的样本选择模型确定为优选样本选择模型。

基于上述实施例中描述可以理解的是,如果模型输出结果相对于已标注样本子集合的标注信息的损失度越高,则通常损失函数的输出数值将越大,同时说明相应的样本选择模型筛选得到的已标注样本子集合使得目标计算模型的模型输出结果越不准确,相应的样本选择模型的效果也就越好。

所以本实施例中,将将损失函数的最大值对应的评价结果,确定为优选评价结果,进一步将将优选评价结果相应的样本选择模型确定为优选样本选择模型。

也就是说,优选样本选择模型筛选得到的已标注样本子集合使得目标计算模型的模型输出结果最为不准确,则利用优选样本选择模型进行的数据筛选,能够最有效的发现目标计算模型目前的缺陷,从而尽可能的提高目标计算模型的训练效率。

如图4所示,是本公开另一示例性实施例提供的样本选择模型的确定方法的流程示意图,本实施例包括如下步骤:

步骤401、获取目标计算模型和已标注的样本数据集合。

步骤402、获取多个样本选择模型。

步骤403、利用各样本选择模型对已标注的样本数据集合进行选择,得到相应的已标注样本子集合。

步骤404、基于目标计算模型及各已标注样本子集合,确定已标注样本子集合各自对应的评价结果。

步骤405、根据评价结果,从多个样本选择模型中确定优选样本选择模型。

步骤406、利用优选样本选择模型对未标注的样本数据集合进行选择,得到未标注样本子集合。

步骤407、基于未标注样本子集合对目标计算模型进行模型训练。

基于图2~图3所示实施例可知,利用优选样本选择模型进行的数据筛选,能够最有效的发现目标计算模型目前的缺陷,从而尽可能的提高目标计算模型的训练效率。所以本实施例中进一步的,还将在确定了优选样本选择模型后,利用优选样本选择模型对未标注的样本数据集合进行选择,得到未标注样本子集合;进而基于筛选得到的未标注样本子集合对目标计算模型进行模型实际的训练。以使得目标计算模型能够通过未标注样本子集合的训练,针对性的弥补目前的缺陷,从而得到更良好的模型性能,和更高的训练效率。

图5是本公开一示例性实施例提供的样本选择模型的确定装置的结构示意图。本实施例装置,即用于执行图2~图4方法的实体装置。其技术方案本质上与上述实施例一致,上述实施例中的相应描述同样适用于本实施例中。本实施例中装置包括:

获取模块501,用于获取目标计算模型和已标注的样本数据集合;并获取多个样本选择模型。

样本选择模块502,用于利用各样本选择模型对已标注的样本数据集合进行选择,得到相应的已标注样本子集合。

评价结果确定模块503,用于基于目标计算模型及各已标注样本子集合,确定已标注样本子集合各自对应的评价结果。

优选样本选择模型确定模块504,用于根据评价结果,从多个样本选择模型中确定优选样本选择模型。

图6是本公开另一示例性实施例提供的样本选择模型的确定装置中评价结果确定模块503的结构示意图。如图6所示,在示例性实施例中,评价结果确定模块503包括:

模型输出计算单元611,用于利用目标计算模型对各已标注样本子集合进行计算,得到模型输出结果。

已标注样本子集合获取单元612,用于获取已标注样本子集合的标注信息。

损失函数确定单元613,用于确定模型输出结果以及已标注样本子集合的标注信息之间的损失函数。

损失函数计算单元614,用于根据损失函数确定标记样本子集合各自对应的评价结果。

图7是本公开另一示例性实施例提供的样本选择模型的确定装置中优选样本选择模型确定模块504的结构示意图。如图7所示,在示例性实施例中,优选样本选择模型确定模块504包括:

优选评价结果确定单元711,用于将损失函数的最大值对应的评价结果,确定为优选评价结果。

优选样本选择模型确定单元712,用于将优选评价结果相应的样本选择模型确定为优选样本选择模型。

图8是本公开一示例性实施例提供的样本选择模型的确定装置的结构示意图。如图8所示在本实施例中,样本选择模型的确定装置在图5所示实施例的基础上还包括:

未标注样本子集合确定模块801,用于利用优选样本选择模型对未标注的样本数据集合进行选择,得到未标注样本子集合。

训练模块802,用于基于未标注样本子集合对目标计算模型进行模型训练。

下面,参考图9来描述根据本申请实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。

图9图示了根据本申请实施例的电子设备的框图。

如图9所示,电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的样本选择模型的确定方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如,在该电子设备是第一设备100或第二设备200时,该输入装置13可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置13可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。

此外,该输入设备13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然,为了简化,图9中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。

除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的样本选择模型的确定方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号