首页> 中国专利> 基于主动学习和多标签多示例学习的场景图像标注方法

基于主动学习和多标签多示例学习的场景图像标注方法

摘要

本发明针对场景图像的两个基本特征:(1)场景图像往往包含复杂语义;(2)人工标注大量的图像需要耗费昂贵人力成本,公开了一种基于主动学习和多标签多示例学习的场景图像标注方法,包括:在有标签图像基础上训练初始分类模型;对无标签图像进行标签预测;计算分类模型可信度;选择不确定性最大无标签图像;专家对该图像进行人工标注;更新图像集合;当算法达到要求时停止。本发明利用主动学习策略,在保证分类模型精确度的同时,大大减少了需要人工标注的场景图像数量,从而降低了标注成本。同时,本发明把图像转化为多标签多示例数据,使图像复杂语义得到合理表示,提高了图像标注的精确度。

著录项

  • 公开/公告号CN105117429A

    专利类型发明专利

  • 公开/公告日2015-12-02

    原文格式PDF

  • 申请/专利权人 广东工业大学;

    申请/专利号CN201510473322.2

  • 申请日2015-08-05

  • 分类号G06F17/30(20060101);G06K9/62(20060101);

  • 代理机构44229 广州市深研专利事务所;

  • 代理人陈雅平

  • 地址 510006 广东省广州市大学城外环西路100号

  • 入库时间 2023-12-18 12:40:40

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-07-24

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20181123 终止日期:20190805 申请日:20150805

    专利权的终止

  • 2018-11-23

    授权

    授权

  • 2015-12-30

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150805

    实质审查的生效

  • 2015-12-02

    公开

    公开

说明书

技术领域

本发明涉及场景图像标注技术领域,特别是涉及一种基于主动学习和多标签多示例学习的场景图像标注方法。

背景技术:

随着信息技术的发展和互联网服务的进步,新闻、社交和商品交易等各类网站得到了长足的发展,互联网每天都产生海量的场景图片。这些场景图片具有以下两个基本特点。一方面,单幅场景图像不仅仅反映一个内容,可能涉及多个主题,语义比较复杂。例如,一副关于街道的图像,可能涉及行人、马路、车辆、树木、天空、建筑物等多个不同的主题。

另一方面,互联网所产生的大量场景图像,不具有能够充分描述图片内容的分类标签。譬如,用户可能在社交网络上传了一个风景照片,但是照片内容并没有详细的文字描述。对于这些语义复杂,并且不具备分类标签的海量场景图像,如何利用这些图片,为互联网用户提供相关的服务,这是场景图像标注的核心任务。场景图像标注的目的是,通过有标签场景图像的学习,给无标签场景图像赋予精确的分类标签,使它们能够为互联网用户提供服务。

传统的图像标注方法在互联网场景图像标注方面存在一些局限性。首先,传统的图像标注方法把一幅图像看作单一的向量。如上所述,一副场景图像可能包含若干个主题,如果把一幅图像转化为单一的向量,可能无法准确描述场景图像的语义,也无法精确对场景图像进行标记。其次,传统的图像标注方法需要大量的有标签场景图像来学习分类模型。为了建立高精确度的分类模型,往往需要专家通过人工标注方式,标注相当数量的场景图像来训练分类模型。人工标注大量的场景图像,需要耗费巨大的人力和物力资源。因此,一种基于少量有标签图像的高效自动场景图像标注技术亟待提出。

发明内容

本发明的目的在于解决针对场景图像的两个基本特点,场景图像可能包含多个内容区域,语义复杂,把它转化为单一向量无法精确表示场景图像主题,以及互联网的大量场景图片不具备分类标签,标注成本昂贵等问题的一种基于多示例多标记学习和主动学习的场景图像标注方法。

为了实现上述目的,本发明采用了如下的技术方案:

基于主动学习和多标签多示例学习的场景图像标注方法,包括如下步骤,

(1)获取一批无标签的场景图像。随机抽取少量场景图像,通过专家人工标注方式,赋予这些场景图像分类标签;

(2)把有标签场景图像和无标签场景图像转化为多示例数据,每幅图像看作一个多示例包,每个区域看成多示例包的一个示例;

(3)把少量有标签场景图像看作训练集,根据场景图像的标签数量,训练若干个初始分类模型;

(4)利用已建立的分类模型,对样本集中的无标签场景图像进行标注,每个图像可能具有多个标签;

(5)根据无标签场景图像的标注结果,计算每个分类模型的可信度;

(6)结合分类模型的可信度,从无标签场景图像中挑选一个不确定性最大的图像,并交给专家对该场景图像进行标注;

(7)把经过专家标注的场景图像从无标签图像数据集中移除,放入有标签场景图像数据集,并重新训练分类模型;

(8)判断该模型的精确度是否达到用户所要求的精确度,或者迭代轮数是否达到用户指定的次数,如果没有达到要求则返回(3);否则结束并输出分类模型。

本发明利用主动学习策略,在保证分类模型精确度的同时,大大减少了需要人工标注的场景图像数量,从而降低了标注成本。同时,本发明把图像转化为多标签多示例数据,使图像复杂语义得到合理表示,提高了图像标注的精确度。

附图说明

图1为本发明实施例的训练标注模型的流程图。

具体实施方式

下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

图1为本发明实施例的基于主动学习和多标签多示例学习的场景图像标注方法模型的流程图。如图1所示,本发明涉及到的场景图像标注方法包括下述过程:

第一步,获取一批无标签的场景图像。随机抽取少量场景图像,通过专家人工标注方式,赋予这些场景图像分类标签。由于一副场景图像可能包含不同的内容,涉及多个主题,因此一幅图像可能具有若干个分类标签。在图像集合中,假设分类标签的最大数目为k。通过上述步骤,原来的场景图像集合被重新分为两个集合,一个集合包含少量有标签场景图像,另外一个集合包括剩下的大量无标签场景图像。

第二步,把有标签场景图像和无标签场景图像转化为多示例数据。由于场景图像可能涉及多个主题,语义复杂,如果把一副场景图像转化为单一的向量,难以准确地描述图像的复杂语义。因此,需要把场景图像转化为多示例数据。具体来说,可以使用图像识别领域的经典方法,如BlobworldSystem等,把图像根据不同的内容切割成若干个区域。然后,对每个图像区域提取颜色、纹理、形状等特征,把一个图像区域转化为一个示例向量。通过这种方式,一副图像被切割成了若干个区域。一副图像看作一个多示例包,一个区域看作多示例包的示例。

第三步,把少量有标签场景图像看作训练集,根据场景图像的k个分类标签,训练k个初始分类模型。对于每一个分类标签,把具有该标签的图像看作正类数据,把不具有该标签的图像看作负类数据,训练一个初始的多示例分类模型。

第四步,利用已建立的k个分类模型,对无标签场景图像的标签进行预测。经过k个分类模型,每一副无标签场景图像将获得k个分类标签。对于第i个分类模型,如果分类标签的值为1,表示该场景图像包含第i类的图像内容;如果分类标签的值为0,表示该场景图像不包含第i类的图像内容。

第五步,根据无标签场景图像的标注结果,计算每个分类模型的可信度。参照直推式支持向量机(TransductiveSupportVectorMachine,TSVM)的思想,给定一组独立同分布的有标签的训练样本和另一组来自同一分布的无标签样本,在样本足够多的情况下,根据有标签样本中的正标签样本所占比例可相应估计无标签样本中正标签样本的比例。为此,无标签样本中正标签样本所占比例应与有标签样本中的正标签样本所占的比例相近。基于这一思想,提出一种分类模型对预测标签可信度的衡量标准,首先利用有标签多示例包训练k个分类器,再利用得到的k个分类器对无标签多示例包进行分类,得到其预测标签。假定X表示示例空间,Y表示标签集空间,给定Nl个有标签多示例包Nu个无标签多示例包。目标是学习得到目标函数fMIML:2X2Y。其中,对应一个示例集合,Xi对应的一组标签集合{yi1,yi2,…,yil},yik={0,1}(k=1,2,…,l),这里,ni表示多示例包Xi中含有示例的个数,l表示多示例包中的标签个数。在此基础上,第k个分类模型的可信度Ck可以定义为:

上式中,I[·]是一个指示函数(indicatorfunction),满足[·]给定条件则其值为1,否则取值为0;ylik表示第k个分类器中第i个有标签多示例包的标签,yuik表示第k个分类器中第i个无标签多示例包的标签。表示无标签多示例包在第k个分类器中预测的正标签的平均值,示有标签多示例包在第k个分类器中正标签的平均值。因此,可信度Ck越小,说明无标签多示例包中正标签样本所占比例与有标签多示例包所占的比例越不相近,即可信度越低,反之,则可信度越高。

第六步,根据最小分类距离选择策略,结合分类模型可信度,从无标签场景图像中挑选一个不确定性最大的图像,并交给专家对该图像进行标注。一般认为,样本距离超平面越近被分错的可能性就越大,不确定性就越大,样本包含的信息量也就越多,也即样本越有价值。因此,通过计算多示例包距离超平面的距离,并考虑分类模型对多示例包的可信度作为一种权衡,提出了最小分类距离策略。为此,首先定义多示例包与超平面的最小距离,如下:

上式中,fk(Xij)表示多示例包Xi中第j个示例在第k个SVM分类器的分类函数输出值,表示示例Xij对于第k个SVM分类器的超平面距离。表示多示例包Xi中距离第k个SVM分类器超平面最远的示例,根据多示例学习的定义,每个正包中至少含有一个正示例,而距离分类平面最远的示例为正示例的可能性越大,因此,利用该示例来代表其所在的多示例包。对于l个分类器,结合上面提出的可信度Ck,与分类平面越近的多示例包,其不确定性也就越大,也即对分类器性能最有改善的作用。

基于以上分析,选择策略如下表示:

在主动学习中,最有价值的多示例包就是分类器最不确定的样本,因此根据选择策略计算得到的多示例包与分离器超平面的距离,选择距离最小的多示例包加入到训练集进行训练,将提高分类器的性能。

第七步,把经过专家标注的场景图像从无标签图像数据集中移除,放入有标签场景图像数据集,并重新训练分类模型;

第八步,判断该模型的精确度是否达到用户所要求的精确度,或者迭代轮数是否达到用户指定的次数,如果没有达到要求则返回第三步;否则结束并输出分类模型。

以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号