首页> 中国专利> 一种基于互补标签融合监督学习的图像显著性检测方法

一种基于互补标签融合监督学习的图像显著性检测方法

摘要

一种基于互补标签融合监督学习的图像显著性检测方法,包括:步骤S1、将标签图像分别得到对应的主体标签图和细节标签图;步骤S2、对训练数据集图像做随机裁剪、随机旋转、归一化、灰度化处理以增强样本的多样性;步骤S3、输入一个尺寸为H×W的图像,使用ResNet50框架预先处理获取到网络的第2至5层输出特征图;步骤S4、对通过ResNet50框架得到的四层输出特征图分别做两次卷积操作,进行编码;步骤S5、分别将主体图编码后的特征和细节图编码后的特征分别传入主体图解码器和细节图解码器进行解码;步骤S6、将两个解码器所得到的主体特征和细节特征进行相加融合,再进行两次卷积和池化操作,得到预测的图像。本发明具有更好的显著目标预测效果。

著录项

  • 公开/公告号CN113112461A

    专利类型发明专利

  • 公开/公告日2021-07-13

    原文格式PDF

  • 申请/专利权人 浙江工业大学;

    申请/专利号CN202110338770.7

  • 申请日2021-03-30

  • 分类号G06T7/00(20170101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构33201 杭州天正专利事务所有限公司;

  • 代理人王兵

  • 地址 310014 浙江省杭州市下城区潮王路18号

  • 入库时间 2023-06-19 11:49:09

说明书

技术领域

本申请属于图像处理技术领域,具体涉及一种基于互补标签监督学习的图像显著性检测。

背景技术

显著性目标检测旨在从输入图像上识别出最引人注目的物体对象,换而言之也可以说,这些研究希望能够识别出图像的主体。显著性目标检测在人工智能、计算机视觉相关任务中,有时候作为预先处理布置,通过检测识别,得到好的效果后,可以在后续任务中发挥更加好的效果。

显著性目标检测的主要难点如下:确定图像中的显著目标;由于显著性目标的边缘像素分布极不平衡所带来的影响,导致效果不佳,所以需要克服上述问题,降低其带来的影响。

受最近在显著性目标检测的任务中采用的聚集多级功能卷积网络和引入边缘信息作为辅助监督的方法启发。相比较于单一的用边缘信息或者用整体图监督学习方法,采用将标签去耦合化,得到目标的主体图和边缘细节图,使两者共同监督学习训练模型,主要在于它们可以进行互补来降低目标边缘像素分布不平衡所带来的影响,更加有效。

发明内容

本发明要克服现有技术的上述缺点,提供了一种基于互补标签融合监督学习的图像显著性检测方法。

本发明结合了采用resnet50模型提取特征效果的优越性、标签去耦合算法的优点以及本方法设计的特征融合模块的优点,实现了比较好的显著性目标检测特点。

为实现上述目的,本发明所采取的技术方案为:

一种基于互补标签融合监督学习的图像显著性检测方法,包括以下步骤:

步骤S1、将标签图像分别得到对应的主体标签图和细节标签图;

步骤S2、对训练数据集图像做随机裁剪、随机旋转、归一化、灰度化处理以增强样本的多样性;

步骤S3、输入一个尺寸为H×W的图像,使用ResNet50框架预先处理获取到网络的第2至5层输出特征图;

步骤S4、对通过ResNet50框架得到的四层输出特征图分别做两次卷积操作,进行编码;

步骤S5、分别将主体图编码后的特征和细节图编码后的特征分别传入主体图解码器和细节图解码器进行解码。并利用两个解码器获得的主体特征和细节特征发挥双重效果,一方面将二者相加得到预测图,另一方面将二者分别传入各自的图像解码器以丰富特征;

步骤S6、将两个解码器所得到的主体特征和细节特征进行相加融合,再进行两次卷积和池化操作,得到预测的图像。

本发明的一种基于互补标签融合监督学习的图像显著性检测方法,利用图像真实标签图,分解成主体图和细节图,主体图主要包含的是图像的主体信息,而细节图主要包含的是图像的边缘细节信息。利用主体图与细节图共同监督模型的训练,逐渐得到主体图和细节图的优良预测,由于主体图和细节图包含了互补的信息,将二者的特征结合迭代训练,得到更好的显著目标预测效果。

本发明的优点是:由于显著性目标的边缘像素分布不均匀导致检测效果不佳,将图像标签解耦合为两个分别侧重于图像不同区域的互补标签。主体标签和细节标签共同监督迭代训练模型,并将两个标签的特征进行融合,使得显著性目标的主体部分和边缘部分更多信息得到保留,得到更好的效果。

附图说明

图1是本发明方法的流程图;

图2是对图1流程图中解码器与特征交互器的说明;

图3是对标签图像进行距离转换算法的示例图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清晰且完整地描述。显然,所描述的实施例仅是本申请中的一部分实施例,而不是完整的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。

下面结合附图,来说明本发明的技术方案。

一种基于互补标签融合监督学习的图像显著性检测方法,包括如下步骤:

步骤S1、将标签图像分别得到对应的主体标签图和细节标签图;

步骤S2、对训练数据集图像做随机裁剪、随机旋转、归一化、灰度化处理以增强样本的多样性;

步骤S3、输入一个尺寸为H×W的图像,使用ResNet50框架预先处理获取到网络的第2至5层输出特征图;

步骤S4、对通过ResNet50框架得到的四层输出特征图分别做两次卷积操作,进行编码;

步骤S5、分别将主体图编码后的特征和细节图编码后的特征分别传入主体图解码器和细节图解码器进行解码。并利用两个解码器获得的主体特征和细节特征发挥双重效果,一方面将二者相加得到预测图,另一方面将二者分别传入各自的图像解码器以丰富特征;

步骤S6、将两个解码器所得到的主体特征和细节特征进行相加融合,再进行两次卷积和池化操作,得到预测的图像。

作为优选,步骤S1所述利用距离变换算法对输入的图像分解成主体图和细节图,具体包括:

S11.输入一个标签图像,显著目标为白色部分,背景为黑色部分,尺寸无要求,令背景部分像素值为0,前景部分像素值为1;

S12.对图像进行尺寸为5x5的图像均值滤波处理;

S13.计算前景像素点到背景像素点的距离,并求出最小距离。计算公式如下:

其中,f(p,q)是像素p到像素q的距离,p

S14.对每个前景像素到背景像素的距离取最小值,背景像素的值设置为0,具体表达式如下:

其中,I′(p)像素p距离最近的背景像素的距离,I

S15.由于经过距离转换函数后,像素值I′(p)不再等于0或1,使用线性函数归一化,将其值落在[0,1]上,函数如下:

其中,min(I′)表示像素距离最小值,max(I′)表示像素距离最大值。

最后生成主体图与细节图,见附图3;

步骤2,对图像数据进行预处理,包括对原图像黑白化处理、统一尺寸、随机旋转、随机剪切等,以丰富数据多样性。

步骤3,使用ResNet50模型训练得到的预训练模型,加载参数;输入数据,除了全连接层外,得到5层特征输出,分别记为F={F

步骤4,将步骤3得到的F进行编码,F

S41.分别对第2至5层的输出特征做一次1×1卷积运算,再进行一次3×3卷积运算,以得到编码特征,将得到的特征分别传送至主体图解码器和细节图解码器,第2层输出作为第3块解码器的输入,第3层输出作为第2块解码器的输入,第4、5层输出作为第1块解码器的输入。

步骤S5,每个分支包括3个解码器,将输入的特征进行解码,每个主体图解码器和细节图解码器分别将输入的三个特征叠加起来并做一次卷积核为3×3的卷积操作,然后将特征输出到下一个模块,具体步骤如下:

S51.对于每个解码模块,需要将三个输入数据进行相加,三个输入源分别是来自编码器对应的特征输出层、来自上一层的解码模块的输出、以及来自特征交互模块对应层的特征输出。对于主体图的第一个解码模块,由于没有来自上一层的解码模块输入特征,将编码器中的第5层输出作为上一层解码器的输入。

S52.将输入数据相加融合得到的特征再做一次卷积核为3×3的卷积运算,得到的特征再传入下一个解码模块。对于最后一个解码模块的输出特征,对输出特征分别进行一次3×3卷积运算和一次上采样池化操作后分别得到预测的主体预测图、细节预测图、以及将两者特征融合进行下一步处理。

S53.将主体图解码器输出的特征与细节图解码器输出的特征相加融合后得到新的特征数据后,主要有两个作用:一是对特征进行两次3x3的卷积运算,再进行上采样池化得到显著目标预测图;另外一个作用是将融合得到的特征传入特征交互模块。

S54.特征交互模块一共包括三个特征交互块,每一块接收来自上一层的输出作为输入,将输入的特征做一次3×3的卷积操作,将结果传入三个方向,一是对特征进行一次下采样后传入下一层交互块,二是传入主体图解码器的对应块,三是传入细节图解码器的对应块,如附图所示。

步骤6,将得到的三个预测图,包含主体预测图、细节预测图、以及显著目标预测图跟数据标签进行对比,计算损失值,反向传播更新模型中的权值,计算损失值内容如下:

S61.对于得到的物体主体预测图和物体细节预测图,与对应的标签图进行求损失值,损失值计算采用Binary Cross Entropy函数:

其中,g(x,y)是标签图位于(x,y)的像素对应的值,值的范围在[0,1];p(x,y)是预测图位于(x,y)的像素对应的值;l

S62.对于得到的显著目标预测图,与真实标签对比,求损失值,由于真实标签的像素值只为0或1,我们采用Iou函数:

其中g(x,y)与p(x,y)的含义与步骤S61中的一致。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号