技术领域
本发明属于数字图像自动标注技术领域,具体涉及一种跨域图像示例级主动标注方法。
背景技术
数字图像的语义理解是人工智能领域的一项重要基本任务。目标检测是其中的关键技术,它试图预测出图像中每个物体的边界框与其类别。现有的检测模型通常通过将图像分解为大量不同大小的区域,即示例,并进行示例级的预测,来完成目标检测任务。检测模型的训练往往需要大量完整的示例级标注图片,代价高昂。自动图像标注技术往往被广泛应用以降低标注代价。然而,在一些实际任务中,目标域数据由于涉及敏感信息或缺少可靠的标注专家而无法大量获得,导致模型性能低下,且提升困难。好在现有的百度,Flickr,iNaturalist等高质量的图片搜索引擎可提供大量廉价且知识丰富的未标注的数据,可用于提升目标模型。然而这些数据往往存在一些非目标类别,或风格差异过大的物体,对模型帮助甚微,甚至有害,无法直接利用。一个解决方案是引入主动标注技术,选择出最有价值的样本向用户查询标记,从而尽可能以更低代价提升模型。现有的面向目标检测的主动学习方法通常以图像为单位进行标注,即要求标注者标出图中所有前景物体的边界框与类别。这一查询方式不仅标注难度大,开销高,若用于知识丰富的源域中,还将带来大量冗余或不可迁移的监督信息,导致标注效率低下,信息利用率不高,无法有效提升模型。因此不能适应于目标域数据获取困难的图像自动标注问题。
发明内容
发明目的:为了克服真实任务中目标域数据获取困难,模型性能难以提升的问题,本发明提供一种跨域图像示例级主动标注方法,
技术方案:为实现上述目的,本发明采用的技术方案为:
一种跨域图像示例级主动标注方法,包括以下步骤:
(一)利用搜索引擎等手段,获取一批与目标任务相关,且知识丰富的无标记图像作为源域,其中可能含有非目标类别的物体;
(二)利用少量标记样本训练初始模型f。具体地,模型属于“一阶段”目标检测模型,且带有域判别分支;
(三)根据模型f对源域无标记数据的预测Y′,计算图像的每个示例对标注模型的价值评分S′,并对候选示例进行过滤,得到少量高效用待查询示例评分S;
(四)对步骤(三)中得到的候选示例评分S排序,在标记预算范围内,根据从大到小的顺序向用户查询示例的监督信息,得到相应的用户反馈;
(五)根据步骤(四)中得到的包括前背景、真实物体框及物体类别在内的用户反馈结果进行梯度下降更新预测模型f;
(六)返回步骤(二)或结束并输出预测模型f。
进一步的,所述步骤(二)训练初始模型的具体方法为:
步骤2.1:初始化一个“一阶段”目标检测预测模型f;“一阶段”目标检测模型特征在于一次性完成示例预测,不包括区域推荐阶段。通常对所有锚区域(anchor box)都进行前背景、类别、框回归预测。例如,YOLO,SSD,RetinaNet等模型。
步骤2.2:将图像与示例域判别器
步骤2.3:使用训练图像数据集优化模型f;其中,域判别器部分用于预测训练图像/示例来自源域还是目标域,采用交叉熵损失优化;当梯度经过域判别器,即将反向回传到主干网络部分时,将梯度设成相反数来对抗地优化主干网络。
进一步的,所述步骤(三)计算图像的每个示例对标注模型的价值评分S′,并对候选示例进行过滤,得到少量高效用待查询示例评分S的具体方法为:
假设总共有n
将预测的候选框与标记集合的示例交叠率大于阈值μ的框过滤,所述公式为:
计算所有示例的价值评分S′,所述公式为:
其中,s(·)为评分函数,具体形式为:
其中,w′(z)=1-G
将候选示例按照评分S
进一步的,所述步骤(四)用户反馈结果的具体方法为:
若所查询示例包含或部分包含前景物体,则用户提供前景物体的边界框及物体类别标记信息。否则,用户仅给出“背景”的标记信息。
进一步的,所述步骤(五)更新模型的具体方法为:
对于样本i,将模型对其预测置信度超过阈值λ的背景示例当作标记为背景的示例,按照模型默认的损失计算方式计算损失。
将查询得到的背景示例与所有预测示例计算交叠率,与其交叠率超过阈值μ的示例当作标记为背景的高信息量示例,除默认的损失项以外,额外计算分类损失,真实类别标记为所有类别都为0。
将查询得到的前景示例与所有预测示例计算交叠率,与其交叠率超过阈值μ的示例当作标记为前景的示例,按照模型默认的损失计算方式计算损失。
剩余的示例不参与损失的计算。
有益效果:本发明提供的跨域图像示例级主动标注方法,通过利用容易获得且知识丰富的无监督源域,自动选择高效用示例标注,从而获得更精细的标记信息,大幅降低数据标注难度;同时,充分利用获得的监督信息,高效提升模型在目标任务上的性能,可显著减轻用户的参与代价。
具体的,本发明每次挑选出对于提升目标模型最有帮助的一个示例进行查询,让用户给出反馈信息。在选择示例时,本发明兼顾示例对于当前模型的信息量以及对目标任务的迁移性,挑选出最有价值的图像区域查询,并让用户有区别地进行反馈。当所选示例存在前景物体时,用户需标出物体的边界框与类别,从而为模型提供不确定示例的准确监督信息;否则用户只需给出“背景”的标记,如此可以极低代价获得高信息量背景示例。
由于知识丰富的源域中存在一些非目标类别,或风格差异过大的物体,对模型帮助甚微,甚至有害,因此这样的反馈机制一方面避免了引入无效的信息,另一方面大幅降低了标注难度,从而既保证了用户较低的参与度,又能更大程度的提高标注精度。而为了充分地利用这种精细的反馈信息,本发明结合机器学习中的自训练方法,对于图像中高效用的区域直接利用用户反馈的监督信息,对于模型预测较为确定的区域则利用自训练方法引入伪标记来更新模型。该方法既充分利用了获得的精细监督信息,又挖掘了可用的置信区域,同时,方案仅在现有训练方法的基础上做了少量修改,而具有很好的扩展性。
附图说明
图1是数字图像自动标注装置工作流程图;
图2是训练初始标注模型的流程图;
图3是本发明机制的流程图;
图4是计算示例评分的流程图;
图5是更新标注模型的流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示为数字图像自动标注装置工作流程图。假设初始时存在少量完全标注的训练图像数据集合,包括来自源域和目标域的两部分组成;以及一个收集好的知识丰富的无监督源域样本池
图2所示为训练初始标注模型的流程图。首先需要选取一个“一阶段”目标检测模型作为基本模型,本例中采用常用的YOLOv3模型。随后将图像与示例域判别器分别加到目标检测模型的图像与示例特征提取器后。特别地,图像部分可加在模型主干网络之后,示例部分加在预测层的前一层,与目标检测预测层平行。模型初始化后,将初始标记集合样本输入模型进行训练。对于目标检测的预测结果,按模型默认的方式计算损失;对域分类预测结果计算交叉熵损失,并在梯度传回到特征提取器之前将梯度取反,这一步操作可以采用加一层梯度取反层(GRL)实现。重复上述步骤直至模型收敛。
图3所示为本发明机制的流程图。首先利用当前模型对无标记数据进行预测,根据预测结果计算图像的每个示例对标注模型的效用评分S′,并对候选示例进行过滤,得到少量高效用待查询示例评分S。将S按照评分大小从高到低排序,并依次向用户查询示例的监督信息。用户根据示例是否为前景分别给出不同的反馈。具体地,若所查询示例包含或部分包含前景物体,则用户提供前景物体的边界框及物体类别标记信息。否则,用户仅给出“背景”的标记信息。查询过程将循环执行,直至标记开销达到预算。此时用获得的用户反馈更新模型,并返回。
图4所示为计算示例效用评分的流程图。首先利用当前模型对无标记数据进行预测,得到每个样本的示例预测结果Y′,将预测的候选框与标记集合的示例交叠率大于阈值μ的框过滤,所述公式为:
其中,μ在本例中设为0.5。随后计算所有示例的效用评分S′,所述公式为:
其中,s(·)为评分函数,具体形式为:
其中,w′(z)=1-G
图5所示为更新标注模型的流程图。由于本发明的标注方式仅执行示例级的标注,因此训练数据包括初始完全标记集合,以及示例级标记集合。在一轮训练中,首先用初始完全标记集合更新预测模型,其中包括目标检测及域分类两部分,目标检测部分按照预测模型默认的方式更新模型参数;域判别器部分按照步骤2.3的方式更新参数;查询的示例包括前景示例和背景示例;其中,前景示例按照目标检测模型默认的方式计算损失;背景示例除了计算默认的前背景预测损失外,还额外计算分类损失,其真实类别标记为所有类别都为0;除上述损失外,模型对其预测置信度超过阈值λ的背景示例当作标记为背景的真实示例,按照模型默认的损失计算方式计算损失;剩余的预测示例不参与损失的计算。上述训练流程将循环执行直至模型收敛。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
机译: 主动学习自动图像标注系统和方法
机译: 一种用于获取用于标签接受的样本图像的方法,用于用于神经网络学习的自动标记图像,以及使用样本图像的示例图像获取设备。
机译: 使用低音管理的主动噪声控制以及一种自动均衡声压级的方法