技术领域
本发明涉及图像描述模型的性能评估技术领域,具体的,涉及一种面向图像描述模型泛化能力评估方法。
背景技术
近年来,深度学习不仅推动了包括图像分类、图像检测和图像分割等图像处理任务的计算机视觉技术的快速发展,并且还推动了包括文本识别、机器翻译等自然语言处理技术的快速成长,而且还使得以图像描述为代表的跨媒体技术取得了高速发展。
然而,深度学习模型的性能依赖于数据集,不同的任务对应的公开数据集规模有较大差异,这种数据驱动的方法往往伴随着数据的过度依赖,存在极大的过拟合风险。
因此,评估模型泛化能力的研究极具实用价值和学术价值。为了有效评估模型的泛化能力,需要人工构建一个新的且由代表性样本组成的大规模数据集,对于图像描述任务而言,大规模数据集的人工标注需要消耗大量人力物力和时间成本。而大部分图像描述模型在面临来源于真实世界的新数据挑战时,其描述的性能指标会出现大部分下降,这说明支持模型训练数据的数量和多样性不足,从而导致模型表现出泛化性能差的问题。在这种情况下,图像描述模型泛化能力评估对于图像描述模型评估是有意义的任务。
提出能够对图像描述模型的泛化能力进行有效验证的方法的目的在于:
(1)以无偏的方式评图像描述模型的泛化能力,针对真实世界的图像多样性,进行有效的模型比较,为图像描述领域发展提供潜在优化方向。
(2)消耗少量的人力物力,得到由代表性数据样本和人工标注组成数据集,可以对有监督图像描述模型训练进行指导,以此强化模型的泛化性能。
(3)研究模型泛化能力评估方法,有助于进一步理解人类视觉感知系统和语言系统,如注意力机制和记忆力机制等,有助于推动人类认知科学的发展。
因此,有效且准确地验证图像描述模型的泛化能力算法对于图像描述任务的发展乃至跨媒体领域的发展都会有很大的促进作用。然而,现有技术并没有针对图像描述模型的泛化能力的评估方法,不能满足图像描述任务的发展需求。
发明内容
针对现有技术的不足,本发明提供一种有效、客观评估图像泛化能力的面向图像描述模型泛化能力评估方法。
为实现上述目的,本发明通过以下技术方案予以实现:一种面向图像描述模型泛化能力评估方法,包括:获取初始数据集,并获得待评估的图像描述模型在初始数据集上的预测结果;选取任意两个图像描述模型预测结果差异最大的图像集合,构建模型差异最大化的样本集;获得样本集的图像描述标签;根据图像描述标签计算所有图像描述模型预测结果的准确性,转化为两两图像描述模型的性能比较分数矩阵,计算所有图像描述模型的全局泛化能力排名;其中,计算所有图像描述模型的全局泛化能力排名包括:分别计算两两比较的待评估的图像描述模型在样本集上的图像描述任务指标成绩p,记p
其中,1表示m维全1向量。
优选的,对比分数f
优选的,获得待评估的图像描述模型在初始数据集上的预测结果包括:将初始数据集记为R={I
优选的,计算待评估的图像描述模型在初始数据集上的预测结果时,图像输入预处理以及输出文本后处理均采用超参数设置。
优选的,构建模型差异最大化的样本集包括:通过预先设定的评价指标计算任意两个待评估的模型C
优选的,预先设定的评价指标为基于n元语法的相似度指标函数,该相似度指标函数的计算公式如下:
其中,s
优选的,获得样本集的图像描述标签包括:获取第一阶段主观实验得到的代表性样本集的图像描述标签;并获取第二阶段主观实验得到对图像描述标签的验证数据,以验证数据作为最终的图像描述标签。
与现有技术相比,本发明的有益效果是:
应用本发明可以计算出不同的图像描述模型在相同图像的输出表现出强烈的差异性,由此可以准确评估各种图像描述模型的泛化性能,并且获得了容易影响图像描述模型预测出错的图像类型,由于采用计算机程序实现大部分计算,可以客观的对各种图像描述模型的泛化能力进行评估,并且消耗的人力、物力较少。
附图说明
图1是本发明面向图像描述模型泛化能力评估方法实施例的流程图;
图2是应用本发明面向图像描述模型泛化能力评估方法实施例对比的图像描述模型在标准数据集COCO和本发明提出的数据集上的成绩对比图;
图3是应用本发明面向图像描述模型泛化能力评估方法实施例计算的各个模型在CIDEr和SPICE的全局泛化能力排名示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明是一种面向图像描述模型泛化能力评估方法,本发明的方法可以应用计算机装置实现,例如,计算机装置包括处理器以及存储器,存储器上存储有计算机程序,计算机程序可以实现本发明的面向图像描述模型泛化能力评估方法。
参见图1,本实施例首先执行步骤S1,针对图像描述模型训练的常见类别,通过互联网收集规模足够大的图像数据集,构建大型的初始数据集,将初始数据集记为R={I
然后,执行步骤S2,计算待评估的图像描述模型在初始数据集上的预测结果。本实施例中,为确保所有待评估的图像描述模型评估有效性,测试过程中采用各方法默认的超参数设置,例如,计算待评估的图像描述模型在初始数据集上的预测结果时,图像输入预处理以及输出文本后处理均采用超参数设置。
图像描述模型对于某一个图像的预测结果计算方法是已知的方法,再次不再赘述。而待评估的图像描述模型在初始数据集上的预测结果是某一个图像描述模型针对初始数据集上的多张图像的预测结果。
接着,执行步骤S3,进行多个待评估的图像描述模型的差异最大化样本的提取。具体的,首先通过预先设定的指标计算任意两个待评估的图像描述模型C
上面的公式1至公式4中,s
然后从初始数据集中选择差异最大化样本集,记为D
其中,C
然后,执行步骤S4,获取样本集的图像描述标签。本实施例的图像描述标签数据通过“两阶段小规模主观实验”生成,其具体过程如下:
首先,进行第一阶段主观实验,生成图像描述标签数据。具体的,实验参与者严格按照模型训练数据集的标注规则,通过标注工具对样本集进行人工标注,获得该代表性样本集的图像描述标签。
然后,进行第二阶段主观实验,验证图像描述标签数据。为了保证第一阶段主观实验生成标注的准确性,在第二阶段主观实验邀请另外一批实验参与者对第一阶段主观实验所生成图像描述标签数据进行人工验证。实验参与者严格按照模型训练数据集的标注规则,判断第一阶段主观实验生成标注是否正确,每一条标注都会由三名验证人员检查。如果有一名以上的验证人员认为一条标注为错误标注,该条标注将被丢弃。这样,获取第二阶段主观实验得到对图像描述标签的验证数据,以第二阶段主观实验得到的验证数据作为最终的图像描述标签。在获取最终的图像描述标签后,将最终的图像描述标签输入至计算机装置,作为后续计算的基础。
然后,执行步骤S5,计算两两图像描述模型的性能比较分数矩阵。具体的,分别计算两两比较的图像描述模型在样本集上的图像描述任务指标成绩p,对于图像描述模型C
然后,由上述指标成绩p
当对比分数f
最后执行步骤S6,通过极大似然估计,将成对对比分数矩阵F为所有图像描述模型的全局泛化能力排名,记为q,图像描述模型的全局泛化能力排名的计算公式如下:
其中,1表示m维全1的向量。
为了验证本实施例方法的准确性,使用CIDEr(Consensus-based ImageDescription Evaluation,基于一致性的图像描述评估)和SPICE(SemanticPropositional Image Caption Evaluation,语义命题式图像标题评估)两个指标来度量模型预测描述结果的准确性,CIDEr和SPICE是用于衡量模型预测描述和人工标注描述的相似性。一般来说,模型预测描述与人工标注描述的CIDEr和SPICE值越高,表示模型的性能越好。为了验证本发明的方法的有效性与准确性,选取九种基于深度学习的图像描述模型,包括X-LAN、MM、AoA、SGAE、ORT、Stack-Cap、Top-Down和SCST。不同的图像描述模型在相同图像的输出表现出强烈的差异性,由此评估各种图像描述模型的泛化性能,并且获得了容易影响模型预测出错的图像类型,在此过程中仅仅耗费了较少人力和物力。
下面的表1是应用本发明的方法对多种图像描述模型在CIDEr指标上的排名情况,表2应用本发明的方法对多种图像描述模型在SPICE指标上的排名情况。
表1:对多种图像描述模型在CIDEr指标上的排名情况
表2:对多种图像描述模型在SPICE指标上的排名情况
另外,图2为本发明对比的多个图像描述模型在标准数据集COCO和本发明提出的数据集上的成绩对比,其中方点线是图像描述模型在CIDEr指标上的得分,圆点线是图像描述模型在SPICE指标上的得分。具体的,上方的方点线多个图像描述模型在标准数据集COCO对于CIDEr指标的成绩,下方的方点线多个图像描述模型在本发明提出的数据集上对于CIDEr指标的成绩;上方的圆点线多个图像描述模型在标准数据集COCO对于SPICE指标的成绩,下方的方点线多个图像描述模型在本发明提出的数据集上对于SPICE指标的成绩。可以看出,在本发明的差异最大化且具有代表性的样本集中,大多数模型的性能出现大幅度下降。
图3是各个图像描述模型在CIDEr指标和SPICE指标的全局泛化能力排名,通过比较所有结果的统计量和分布,可以看出MM、X-LAN和AoA等图像描述模型在本发明提出的代表性样本集中展现出了最高的泛化性能。同时,ORT图像描述模型展现其在泛化能力的弱点。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
机译: 一种运动射击者在靶场上的射击模式评估方法,涉及图像叠加,并通过图像处理系统检测和评估图像叠加亮度差
机译: 测量数据例如距离数据,一种用于距离测量系统的评估方法,涉及以矩阵形式组织数据,定义二维图像空间,将图像空间转换为参数空间以及分析参数空间
机译: 一种生成用于评估图像或视频质量的面向质量的重要性图的方法。