首页> 中国专利> 模糊度评价模型训练方法、图像模糊度评价方法及装置

模糊度评价模型训练方法、图像模糊度评价方法及装置

摘要

本申请公开了一种模糊度评价模型训练方法、图像模糊度评价方法及装置,涉及计算机视觉和深度学习技术领域。所述图像模糊度评价模型的训练方法,包括:对原始图像进行模糊处理,得到分别具有不同模糊度的多个模糊图像;使用特征提取模型分别对所述多个模糊图像进行特征提取,得到多个特征图;基于所述多个特征图之间的相似度来计算所述原始图像的模糊度评分;以及使用所述原始图像和所述原始图像的模糊度评分作为训练数据来训练所述图像模糊度评价模型。

著录项

  • 公开/公告号CN112561879A

    专利类型发明专利

  • 公开/公告日2021-03-26

    原文格式PDF

  • 申请/专利权人 北京百度网讯科技有限公司;

    申请/专利号CN202011481690.9

  • 发明设计人 田飞;

    申请日2020-12-15

  • 分类号G06T7/00(20170101);

  • 代理机构11021 中科专利商标代理有限责任公司;

  • 代理人范芳茗

  • 地址 100085 北京市海淀区上地十街10号百度大厦2层

  • 入库时间 2023-06-19 10:24:22

说明书

技术领域

本申请涉及人工智能领域,具体涉及计算机视觉和深度学习技术领域,更具体地涉及一种图像模糊度评价模型的训练方法、图像模糊度的评价方法、装置、设备以及存储介质。

背景技术

通常,模糊的图像会导致在对图像进行分析和处理的过程中发生各种问题。如果能够使用网络模型对图像模糊程度进行打分,则可以选择清晰图像来进行分析和处理。传统技术中,通过采集大量图像并人工标注图像的模糊度来对网络模型进行训练,但是人工标注的模糊度很大程度上依赖于人的主观判断,不够客观和准确,导致训练后的网络模型准确率低。

发明内容

提供了一种图像模糊度评价模型的训练方法、图像模糊度的评价方法、装置、设备以及存储介质。

根据第一方面,提供了一种图像模糊度评价模型的训练方法,包括:

对原始图像进行模糊处理,得到分别具有不同模糊度的多个模糊图像;

使用特征提取模型分别对所述多个模糊图像进行特征提取,得到多个特征图;

基于所述多个特征图之间的相似度来计算所述原始图像的模糊度评分;以及

使用所述原始图像和所述原始图像的模糊度评分作为训练数据来训练所述图像模糊度评价模型。

根据第二方面,提供了一种图像模糊度的评价方法,包括:

获取至少一个输入图像;

使用图像模糊度评价模型对所述至少一个输入图像的模糊度进行评价,其中所述图像模糊度评价模型是使用上述训练方法来训练的。

根据第三方面,提供了一种图像模糊度评价模型的训练装置,包括:

模糊处理模块,用于对原始图像进行模糊处理,得到分别具有不同模糊度的多个模糊图像;

特征提取模块,用于使用特征提取模型分别对所述多个模糊图像进行特征提取以得到多个特征图;

模糊度评分模块,用于基于所述多个特征图之间的相似度来计算所述原始图像的模糊度评分;以及

训练模块,用于使用所述原始图像和所述原始图像的模糊度评分作为训练数据来训练所述图像模糊度评价模型。

根据第四方面,提供了一种图像模糊度的评价装置,包括:

获取模块,用于获取至少一个输入图像;

评价模块,用于使用图像模糊度评价模型对所述至少一个输入图像的模糊度进行评价,其中所述图像模糊度评价模型是使用上述训练方法来训练的。

根据第五方面,提供了一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。

根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述方法。

根据第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1是根据本申请实施例的图像模糊度评价模型的训练方法的流程图;

图2是根据本申请另一实施例的图像模糊度评价模型的训练方法的流程图;

图3是根据本申请图实施例的用训练数据来训练模糊度评价模型的流程图;

图4是根据本申请图实施例的图像模糊度评价模型的训练方法的示意图;

图5是根据本申请图实施例对原始图像的区域提取和缩放的示意图;

图6是根据本申请实施例的图像模糊度的评价方法的流程图;

图7是根据本申请实施例的图像模糊度评价模型的训练装置的框图;

图8是根据本申请实施例的图像模糊度的评价装置的框图;

图9是根据本申请实施例的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请实施例的图像模糊度评价模型的训练方法的流程图。

在步骤S110,对原始图像进行模糊处理,得到分别具有不同模糊度的多个模糊图像。

在步骤S120,使用特征提取模型分别对所述多个模糊图像进行特征提取以得到多个特征图。

在步骤S130,基于所述多个特征图之间的相似度来计算所述原始图像的模糊度评分。

在步骤S140,使用所述原始图像和所述原始图像的模糊度评分作为训练数据来训练所述图像模糊度评价模型。

本公开的实施例通过使用特征提取模型分别对所述多个模糊图像进行特征提取以得到多个特征图,并基于所述多个特征图之间的相似度来计算所述原始图像的模糊度评分,不需要对原始图像进行人工标注即可挖掘大量客观准确的训练数据,提高了图像模糊度评价模型的训练效率和准确率。

图2是根据本申请另一实施例的图像模糊度评价模型的训练方法的流程图。

在步骤S210,使用目标检测模型从原始图像检测目标对象。

原始图像可以是人脸图像,目标对象可以是人脸。在一些实施例中,在检测到目标对象之后,可以用矩形检测框在原始图像中框定检测到的目标对象。目标检测模型可以包括Yolo系列神经网络模型,例如但不限于Yolov3神经网络模型。

在步骤S220,从原始图像中提取目标对象所在区域。例如,可以将步骤S210得到的矩形检测框作为参考,从原始图像中提取包含目标对象的方形区域。在一些实施例中,可以参考矩形检测框生成一个包含目标对象的方形框,该方形框的几何中心与矩形检测框的几何中心重叠,方形框的边长是矩形检测框的长边尺寸的预设倍数,该预设倍数可以为1.1至1.5之间的任意值,例如可以将矩形检测框的长边长度的1.2倍最为方形框的边长。从原始图像中提取方形框所包围的区域,得到包含目标对象的目标图像。

在步骤S230,对所提取的区域进行缩放,得到待处理图像。在本步骤中,可以将步骤S220提取的方形区域缩放到预设的尺寸,例如112*112像素,以适应后续使用的特征提取模型。

在步骤S240,对待处理图像进行模糊处理,得到分别具有不同模糊度的多个模糊图像。针对每个待处理图像,可以生成相同数量的模糊图像,模糊图像的数量可以为50至100范围内的任意值,例如可以针对每个待处理图像生成100个模糊图像。模糊处理可以包括高斯模糊和JPEG压缩中的至少之一。

在一些实施例中,以不同的高斯核对待处理图像进行高斯模糊。例如高斯核从1至100分别对应从低到高的100个模糊度,通过以这100个不同的高斯核对待处理图像进行高斯模糊,得到100张不同模糊度的模糊图像。

在另一些实施例中,以不同的图像质量因子对待处理图像进行JPEG压缩。例如质量因子1至100分别对应从高到低的100个模糊度,通过以这100个不同的图像质量因子对待处理图像进行JPEG压缩,得到100张不同模糊度的模糊图像。

在另一些实施例中,可以对待处理图像应用高斯模糊和JPEG压缩两者。例如通过以高斯核1至100对待处理图像进行高斯模糊,得到100张模糊图像BM

在步骤S250,使用特征提取模型分别对所述多个模糊图像进行特征提取,得到多个特征图。

特征提取模型可以是经过训练的神经网络模型,可以采用resnet系列神经网络模型,例如但不限于resnet-50神经网络模型、resnet-50-vd神经网络模型。例如对于人脸图像来说,通过上述步骤S210至S240得到了人脸图像中人脸所在区域的多个模糊图像,在本步骤中可以使用特征提取模型对人脸的多个模糊图像进行特征提取,得到人脸区域的多个特征图。

在步骤S260,根据所述多个模糊图像的数量以及所述多个特征图中每两个特征图之间的余弦相似度来计算所述原始图像的模糊度评分。

例如可以根据以下等式来计算原始图像中目标对象的模糊度评分:

其中q表示目标对象的模糊度评分,I表示原始图像,X(I)表示通过使用目标检测模型从原始图像I检测目标对象而得到的检测结果,m表示所述多个模糊图像的数量,xi表示所述多个特征图中的第i特征图,x

在步骤S270,使用原始图像以及原始图像的模糊度评分作为训练数据来训练所述图像模糊度评价模型。

图像模糊度评价模型可以包括Mobilenet系列神经网络模型和Resnet系列神经网络模型中的至少之一。Mobilenet系列神经网络模型是基于深度级可分离卷积的神经网络模型,包括但不限于Mobilenetv1神经网络模型、Mobilenetv2神经网络模型、Mobilenetv3神经网络模型。Resnet系列神经网络模型是基于残差的神经网络模型,包括但不限于resnet18神经网络模型。在一些实施例中,图像模糊度评价模型可以包括Mobilenetv1神经网络模型、Mobilenetv2神经网络模型、Mobilenetv3神经网络模型和resnet18中的至少之一。然而本公开的实施例不限于此,可以根据需要可以采用其他类型的网络模型作为图像模糊度评价模型。

在一些实施例中,原始图像的数量可以为多个,可以针对每个原始图像均执行上述步骤S210至S260,从而得到各个原始图像的模糊度评分。可以将多个原始图像以及各个原始图像的模糊度评分作为训练数据来训练图像模糊度评价模型。当然本公开的实施例不限于此,也可以针对每个原始图像执行上述步骤S210至S270,从而每获得一组训练数据就对图像模糊度评价模型进行一次训练。下文将参考图3对此进一步详细说明。

图3是根据本申请图实施例的用训练数据来训练模糊度评价模型的流程图。在该示例中,训练数据包括多个原始图像以及针对每个原始图像中的目标对象的模糊对评分。

在步骤S371,使用图像模糊度评价模型来确定多个原始图像中一个原始图像的模糊度评分。

在步骤S372,根据损失函数确定使用所述图像模糊度评价模型而确定的模糊度评分与所述训练数据中所述一个原始图像的模糊度评分之间的差异,也称作损失。损失函数可以采用smooth L1损失函数,其表示为smooth_l1(pred,image_quanlity_value),其中pred表示使用图像模糊度评价模型预测的图像模糊度评分,image_quanlity_value表示训练数据中的图像模糊度评分,损失函数的值代表了pred与image_quanlity_value之间的差异。该差异越大,表示图像模糊度评价模型的预测结果越不准确。

在步骤S373,判断差异是否符合预设条件,例如可以判断所述损失函数是否收敛,如果未收敛,则执行步骤S374,如果收敛则结束训练。

在步骤S374,根据步骤S372确定的差异调整所述图像模糊度评价模型的参数。

在步骤S375,针对所述多个原始图像中的另一个原始图像返回步骤S371,以进行下一次训练。

图4是根据本申请图实施例的图像模糊度评价模型的训练方法的示意图。

如图4所示,将原始图像Fa输入至目标检测模型来检测原始图像Fa中的目标对象,例如人脸。然后从原始图像Fa中提取检测到的目标对象所在的区域,得到一个N*N像素的目标图像,并将目标图像缩放为112*112像素的待处理图像,以适应后续使用的特征提取模型。对待处理图像进行上述的模糊处理,得到多个模糊图像Fb。将多个模糊图像Fb输入至特征提取模型进行特征提取,例如进行人脸识别,从而得到人脸区域的多个特征图。例如通过上述方式,根据模糊图像的数量以及所述多个特征图中每两个特征图之间的余弦相似度来计算原始图像人脸区域的模糊度评分image_quanlity_value。

还将原始图像Fa输入至图像模糊度评价模型来对原始图像中的例如人脸区域的模糊度进行评价,得到模糊度评分pred。将模糊度评分pred和image_quanlity_value输入至损失函数来计算损失函数值。可以基于损失函数值来调整模糊度评价模型的参数(如图4中的虚线箭头所示)。当损失函数收敛时,结束训练。

本公开的实施例通过基于原始图像产生多个模糊图像并基于多个模糊图像的特征图之间的差异来计算原始图像的模糊度,能够比较准确地获得原始图像的模糊度评分。这是因为,对于较清晰的原始图像来说,产生的多个模糊度图像当中最清晰的图像与最模糊的图像之间的差异较大;而对于较模糊的原始图像来说,产生的多个模糊度图像当中最清晰的图像与最模糊的图像之间的差异较小。这种差异的大小能够通过多个模糊图像的特征图之间的差异而体现出来,因此基于多个模糊图像的特征图之间的差异计算出的模糊度评分能够准确地体现出原始图像的模糊度。

图5是根据本申请图实施例对原始图像的区域提取和缩放的示意图。

如图5所示,原始图像Fa为人脸图像,在步骤(a)使用目标检测模型从原始图像检测到了人脸,并用矩形检测框510进行了标记。

在步骤(b),以该矩形检测框510的几何中心作为中心,并以该矩形检测框510的长边长度的预定倍数(在本实施例中为1.2倍)作为边长,生成一个方形框520。通过这种方式,在人脸图像Fa中确定了人脸所在的区域,该区域充分地包含了整个人脸,例如除了包含五官之外还包含了头发、耳朵和颈部。

在步骤(c),从原始图像Fa中提取方向框520所包围的区域,得到目标图像530。

在步骤(d),将目标图像530缩放到预设的尺寸,在本实施例中可以为112*112像素。在实际应用中,由于原始图像的尺寸的差异性以及原始图像中目标对象的大小的差异性,导致步骤(c)得到的目标图像530的尺寸是各种各样的,通过步骤(d)可以将各种尺寸的目标图像530缩放至相同尺寸,以便于后续进行特征提取。

图6是根据本申请实施例的图像模糊度的评价方法的流程图。

在步骤S610,获取至少一个输入图像。

在步骤S620,使用图像模糊度评价模型对所述至少一个输入图像的模糊度进行评价,其中所述图像模糊度评价模型是使用上述任意实施例的训练方法来训练的。

本公开的实施例通过使用图像模糊度评价模型对所述至少一个输入图像的模糊度进行评价,能够确定输入图像的模糊度,根据输入图像的模糊度可以从多个输入图像中选择模糊度满足需要的一个或多个输入图像来进行后续的分析和处理,从而提高图像分析和处理的准确性。举例来说,人脸识别门禁或者安防监控应用中,如果摄像机抓拍到的人脸图像很模糊,则图像包含的人脸特征不明显,会导致人脸识别失败。本公开的实施例通过使用图像模糊度评价模型能够计算出摄像机抓拍到的各个人脸图像的模糊度,根据模糊度可以从多张人脸图像中选择最清晰的一张人脸图像来进行人脸识别,从而提高了人脸识别的准确率。

图7是根据本申请实施例的图像模糊度评价模型的训练装置的框图。

如图7所示,图像模糊度评价模型的训练装置700包括模糊处理模块710、特征提取模块720、模糊度评分模块730和训练模块740。

模糊处理模块710用于对原始图像进行模糊处理,得到分别具有不同模糊度的多个模糊图像。

特征提取模块720用于使用特征提取模型分别对所述多个模糊图像进行特征提取以得到多个特征图。

模糊度评分模块730用于基于所述多个特征图之间的相似度来计算所述原始图像的模糊度评分。

训练模块740用于使用所述原始图像和所述原始图像的模糊度评分作为训练数据来训练所述图像模糊度评价模型。

图8是根据本申请实施例的图像模糊度的评价装置的框图。

如图8所示,图像模糊度的评价装置800包括获取模块810和评价模块820。

获取模块810用于获取至少一个输入图像。

评价模块820用于使用图像模糊度评价模型对所述至少一个输入图像的模糊度进行评价,其中所述图像模糊度评价模型是使用上述任意实施例的训练方法来训练的。

根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9是根据本申请实施例的电子设备900的框图。电子设备900旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示,该电子设备900包括:一个或多个处理器901、存储器902,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的图像模糊度评价模型的训练方法和/或图像模糊度的评价方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的图像模糊度评价模型的训练方法或图像模糊度的评价方法。

存储器902作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的图像模糊度评价模型的训练方法对应的程序指令/模块(例如,附图7所示的模糊处理模块710、特征提取模块720、模糊度评分模块730和训练模块740)和/或本申请实施例中的图像模糊度的评价方法对应的程序指令/模块(例如,附图8所示获取模块810和评价模块820)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的图像模糊度评价模型的训练方法和/或图像模糊度的评价方法。

存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备900的使用所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至电子设备900。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

电子设备900还可以包括:输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接,图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息,以及产生与电子设备900的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号