首页> 中国专利> 一种基于深度网络特征间重要性的图像质量评估方法

一种基于深度网络特征间重要性的图像质量评估方法

摘要

本发明公开了一种基于深度网络特征间重要性的图像质量评估方法,该方法在端到端的神经网络模型训练中加入了判别特征图间重要性关系的模块,能够更准确的预测图像质量,并且在各个图像质量评估(IQA)数据集上展现出较强的泛化能力。具体包括步骤:1)准备训练测试网络模型所用的图像质量评估数据集,将图像质量评估数据集按照图像内容随机划分为训练集和测试集;2)将SeNet模块加入VGG‑16网络以搭建用于图像质量评估的多个不同组合方式的神经网络模型VGG*‑SE,使用训练数据集分别对其进行训练,当训练的模型在测试数据集上达到预期的精度,选择此模型作为最终模型,并保存网络模型训练后的参数;3)使用选取的最终模型计算测试集的预测精度。

著录项

  • 公开/公告号CN109671063A

    专利类型发明专利

  • 公开/公告日2019-04-23

    原文格式PDF

  • 申请/专利权人 西安交通大学;

    申请/专利号CN201811512050.2

  • 发明设计人 李凡;李梦月;杨晓晗;张扬帆;

    申请日2018-12-11

  • 分类号G06T7/00(20170101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构61200 西安通大专利代理有限责任公司;

  • 代理人徐文权

  • 地址 710049 陕西省西安市碑林区咸宁西路28号

  • 入库时间 2024-02-19 08:55:43

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-18

    授权

    授权

  • 2019-05-17

    实质审查的生效 IPC(主分类):G06T7/00 申请日:20181211

    实质审查的生效

  • 2019-04-23

    公开

    公开

说明书

技术领域

本发明属于计算机图像处理领域,特别是涉及一种基于深度网络特征间重要性的图像质量评估方法。

背景技术

图像质量评估作为图像处理领域的基础内容,在许多领域有其广泛的实用性,比如图像压缩、视频编解码、视频监控等。由于在很多实际应用中,很难获得待评估图像的参考图像,所以开发有效的无参考图像质量评估(NR-IQA)方法变得日益重要;NR-IQA方法主要包含传统方法和深度学习的方法。传统的方法主要是利用手动提取的与人眼感知相关的低级特征,并通过浅层回归的方法来评估图像的质量。这种方法的主要缺点是手动提取的低级特征不足以呈现图像的复杂结构和失真程度。因此,近年来,深度学习的方法得到了广泛的发展。主要是因为它只需要利用卷积神经网络强大的学习能力自动提取与失真相关的深度特征来评估图像的质量。但是,随着网络深度的增加,IQA数据集不足和缺乏样本标签的问题一直阻碍着此方法的发展。

针对以上问题,目前的许多研究都采用将图像分块输入网络的方法来增加样本量,但依旧由于样本太少而导致只能使用较浅层的神经网络,最终使得预测效果不准确。直至后来有研究者从排序的思想得到启发,先借助图像质评领域外的大量图像数据集预训练网络对失真图片等级排序,后用IQA领域的小数据集,以图像作为输入直接对预训练网络进行微调来评估图像的质量。这样递进式的两步训练法极大的解决了数据集不足带来的过拟合以及只能使用浅网络而不能充分表达图像与分值之间映射关系的问题。但由于此法中深度神经网络卷积层后所有特征图是以相同的重要性传递给下一层,没有考虑过卷积层后的特征图间重要性关系,从而影响预测效果。

发明内容

针对目前以图像作为网络输入方法的不足,本发明提供了一种基于深度网络特征间重要性的图像质量评估方法。此网络是把图像分类领域用的SeNet网络引入到IQA的问题中,使其很容易区分出把图送入IQA网络后造成的卷积层中不同通道特征间差异性关系。即通过 SeNet网络可以自适应地学习这种差异性关系,从而突出对区分失真程度有利的特征,抑制不利于区分失真程度的特征。通过理论分析和实验验证相结合的方法,确定了此深度网络中 SeNet的最佳位置以及最佳参数,使得此网络结构可以最大化IQA的预测效果,并且在多个数据库下的表现都高于目前流行的NR-IQA方法。

本发明采用如下技术方案来实现的:

一种基于深度网络特征间重要性的图像质量评估方法,包括以下步骤:

1)准备训练测试网络模型所用的图像质量评估数据集,将图像质量评估数据集按照图像内容随机划分为训练集和测试集;

2)将SeNet模块加入VGG-16网络以搭建用于图像质量评估的多个不同组合方式的神经网络模型VGG*-SE,使用训练数据集分别对其进行训练,当训练的模型在测试数据集上达到预期的精度,选择此模型作为最终模型,并保存网络模型训练后的参数;

3)使用选取的最终模型计算测试集的预测精度。

本发明进一步的改进在于,步骤2)所述的SeNet模块从输入层至输出层之间依次连接有第一全局池化层se_global_pool,第一卷积层se_1x1_down,第一激活函数层ReLU,第二卷基层se_1x1_up,第二激活函数层sigmoid,第一通道标注层scale。

本发明进一步的改进在于,步骤2)的具体实现方法如下:

201)判断VGG-16网络卷积层中特征类型

对VGG-16网络分别进行前n个卷积层参数的冻结,得到n个深度网络模型,并利用训练测试数据集对冻结后的多个模型分别进行训练与测试,将多个模型预测结果依次与不冻结训练时的模型预测结果进行对比,预测精度开始出现下降的层以及后续所有层即确定为适用于图像质量评估任务的深度特征层,而之前的所有卷积层则确定为适用于多图像任务的一般特征层;

202)确定SeNet加入VGG-16的最佳位置

在上述步骤确定出深度特征层后,在VGG-16网络的各个深度特征对应的卷积层后分别加入SeNet模块,组成多个VGG*-SE网络模型,其中*代表将SeNet加入到VGG-16的第*个卷积层,并利用训练测试集对多个模型进行训练及测试,最终预测效果最好的模型——VGG5-SE4,即确定为最佳位置组合的模型;

203)确定SeNet加入VGG-16的最佳参数;

在上述确定出的最佳位置组合模型VGG*-SE后,设置VGG*-SE模型中SeNet第一个卷积层中不同数目的激活值压缩比组成多个不同参数下的网络模型VGG5-SE^,其中^代表SeNet的第一个卷积层的激活值压缩比r选取为^,并用训练测试集对不同参数下的VGG5-SE模型进行训练与测试;选取预测效果最好的激活值压缩比r=4即为最佳位置组合及最佳参数下的VGG5-SE4模型,从而确定出最终的模型结构。

本发明进一步的改进在于,步骤201)中,深度特征层为第五个卷积层及以后,一般特征层为第一个到第四个卷积层。

本发明进一步的改进在于,步骤2)中所述所有训练环节,VGG-16架构部分的初始化参数选取的是RankIQA算法的预训练阶段在waterloo数据集下训练得到的网络参数,SeNet架构部分的初始化参数不做特别设置,从头开始训练。

本发明具有如下有益的技术效果:

本发明提供的一种基于深度网络特征间重要性的图像质量评估方法,弥补了之前图像质量评估中的深层神经网络没有考虑不同通道特征间重要性的问题。即通过搭建网络模型>5-SE4,将图像分类任务中的SeNet网络引入VGG-16网络中,并利用图像质量评估数据集对其进行训练,让SeNet模块在整个端到端的网络中自适应地学习当前卷积层不同通道特征间的重要性关系,为每个特征图分配不同的权重,从而突出对区分失真程度有利的特征,同时抑制不利于区分失真程度的特征,达到提升图像质量预测效果的目的。

进一步,本发明对于具有排序能力的VGG-16网络卷积层特征类型的判断,进一步避免了将SENET加入一般特征层而破坏基础特征的平衡关系,导致结果下降;又实现了将SeNet 加在深度特征层的最前端,使得SeNet的有利效果可以随着卷积层的后续传播达到最大化,而不利特征尽早的得到抑制。

进一步,SENET参数的选择使得参数数目不至于过低而缺少非线性,从而不足以充分描述卷积层不同通道间的依赖性关系;又避免了参数数目过多带来的过拟合问题。

进一步,通过对本发明与现有的卓越的图像质量评估算法在四个公开的图像质量评估数据集上进行比较,本发明搭建提出的模型预测精度优于传统的无参考凸显质量评估方法和大部分的基于深度学习的无参考图像质量评估方法。同时,与目前流行的全参考图像质量评估的方法产生强烈地竞争关系。此外,本发明方法也表现出较强的泛化能力。

综上所述,本发明将图像分类任务中的SeNet模块引入到图像质量评估的神经网络中,在对具有排序能力的VGG-16不同卷积层的特征类型判断的基础上,从位置和参数两个角度综合考虑来搭建模型,使得最终的VGG5-SE4模型能够达到预测效果最大化。并在多个图像质量评估数据库中的表现也表明了此VGG5-SE4网络具有较强的泛化能力。

附图说明

图1:本发明一种基于深度网络特征间重要性的图像质量评估方法的流程图。

图2:本发明设计的深度网络VGG5-SE4模型框架。

图3:SeNet加入不同层后的预测精度曲线图。

图4:不同位置及参数选取下的权重分配图,其中,图4(a)~(f)分别为在VGG1-SE4、VGG5-SE4、VGG12-SE4、VGG5-SE2、VGG5-SE4、VGG5-SE16模型参数下,不同失真等级图像类获得的SeNet权重分配曲线图。

具体实施方式

本发明整体流程图如附图1所示,下面结合附图对本发明进行详细阐述:

步骤1:数据集准备

将图像质量评估数据集按照图像内容随机划分为训练集和测试集。本发明选取了四个公开的IQA数据集,分别是LIVE(包含779副失真图像,5种失真类型),TID2013(包含3000 副失真图像,24种失真类型),CSIQ(包含866副失真图像,6种失真图像),LIVEMD(包含450副失真图像,2种失真类型),并按照各个数据库中原始参考图像的内容进行划分,内容的80%对应的失真图为训练集,剩余的20%对应的失真图为测试集。具体实施时每个数据集中训练集和测试集是随机选取的且重复十次,取十次中SROCC和PLCC的平均作为最终的预测表现。

本实施例中,选取LIVE数据库中所有图片,按照内容划分为80%和20%,前者作为训练集,后者作为测试集。并随机划分十次,表格给出的所有结果均为十次平均后的结果。

步骤2.搭建图像质量评估的神经网络模型VGG5-SE4

在VGG-16网络中加入SeNet模块[2],用以区分深度网络卷积层中不同特征图间的重要性关系,使得好的特征在后续的学习中更加优秀,而不好的特征被尽早的抑制。

1)判断具有排序能力的VGG-16网络卷积层中特征类型

由于本发明中SeNet用于区分特征图与IQA任务的相关程度,为了下一步中SeNet模块加入VGG-16做准备,有必要判断出VGG-16中哪些层是提取的颜色、纹理、形状等适用于多任务的一般特征,哪些层是适用于IQA的深度特征。这些深度特征层加入SeNet模块后要比一般特征层更能发挥它区分特征重要性的作用。因此对具有排序能力的VGG-16网络分别进行了前n个卷积层的冻结,使得冻结后对应卷积层的网络参数不会在后续训练中发生改变。从而得到了n个冻结后深度网络模型,并利用IQA数据集对多个模型分别进行训练与测试,根据模型预测结果确定VGG-16网络中哪些层特征为适用于多任务的一般特征,哪些层特征为仅适用于IQA的深度特征。

本实施例中,利用LIVE数据集对具有排序能力的VGG-16进行冻结不同层的微调训练,用以判断一般特征层与深度特征层。实验过程如下:只将VGG-16第一层卷积层冻结,并利用步骤1的LIVE数据集对其进行训练测试,观察其预测结果与原本不冻结层的训练测试结果基本持平。接着冻结前两层进行实验,效果依旧。直至冻结到前五层的实验中,预测效果相比不冻结时有了明显降低,如下表1所示。表1为不同冻结实验下VGG-16模型的预测精度,从表1可以看出:在用IQA数据集对具有排序能力的VGG-16进行微调训练后,前四层卷积层提取的是一般特征,适用于多图像任务。而从第五层开始变化为针对IQA任务的深度特征层。由于一般特征层提取的仅仅是形状颜色等基础特征且重要程度一般,不适宜加入SeNet强行区分重要性,破坏基础特征的平衡关系。因此将下一步中SeNet模块加入VGG-16的位置范围缩小到第五个卷积层到第十三个卷积层之间。

表1冻结实验结果图

冻结的层第一层第二层第三层第四层第五层未冻结层PLCC0.9750.9740.9750.9750.9710.975SROCC0.9700.9710.9700.9710.9670.971

2)确定搭建模型中SeNet加入VGG-16的最佳位置

在步骤1)确定出SeNet加入VGG-16的大致范围后,接下来在VGG-16网络的第5~13层卷积层后分别加入SeNet模块,组成九个不同的网络模型VGG5-SE4,分别为VGG5-SE4、VGG6-SE4、VGG7-SE4、VGG8-SE4、VGG9-SE4、VGG10-SE4、VGG11-SE4、>12-SE4、VGG13-SE4,如图2所示,是将SeNet加入VGG-16第五层的结构框架,其他网络模型结构相近,区别只在于加的位置有所不同。分别用步骤1中的LIVE数据集对上述十个网络模型进行训练测试,最终结果如图3所示,横坐标代表不同的层,纵坐标代表预测的SROCC值,从图中可以看出,第五层处预测效果最高,随着层值增大,预测效果逐步降低,也符合本发明的猜想,SeNet加在适用于IQA任务的深度特征层里越靠前的位置,越有利于SeNet突显的重要特征在后续网络的逐层传播中不断累积发挥最大作用;而加在之前的一般特征层,由于此时的特征只反应了图像的基本信息,强行分配重要性意义不大,且会导致结果的降低。至此,确定出将SeNet加入VGG-16第五层为最佳的组合模式。

3)确定搭建模型中SeNet加入VGG-16的最佳参数

由于SEnet是由一个全部平均池化层,两个1*1的卷积层和对应的非线性(ReLU和Sigmoid)激活组成。全局平均池化层是对卷积层的多个特征图分别取其全局平均值作为对整个特征图的表征。两个1*1的卷积层是用来非线性的学习特征图间的重要性关系。其中第二个卷积层的输出通道数是确定的,对应于加入位置处的卷积层的特征图个数,经过sigmoid 函数作用后直接作为特征图的权重。而第一个卷积层经过ReLU激活后获取的激活值的个数是可变量,定义为C/r.此处C为加入位置处的卷积层特征图总个数,r表示压缩比(从前一层的C维全局平均值降维映射到本层的C/r维,反映不同特征图间特征依赖性关系),r的不同取值与特征图的权重分配以及最终的预测效果密切相关。因此,在步骤2)确定出SeNet 加入VGG-16的最佳位置后,本发明又分别设置了SeNet第一个卷积层中不同数目的激活值,对VGG-16第五层加入SeNet的网络模型,分别取r为2、4、16组成VGG5-SE2、VGG5-SE4、>5-SE16三个模型,并用步骤1中的LIVE数据集分别训练测试,结果如下表2所示。从表2可以看出:在SeNet参数压缩比选取r=4时模型取得最佳效果,随着r的减小,卷积层输出数目不断增大,预测效果先由于第一个卷积层输出通道的增加引入了更多的非线性,从而能更好的表达特征图间的重要性关系而稳步增加,后又由于输出数目太多而过拟合导致模型性能下降。

表2 LIVE数据集中不同参数下的预测效果

LIVE第五层16(r=16)32(r=8)64(r=4)128(r=2)不加SeNetPLCC0.9690.9740.9840.9710.975SROCC0.9650.9690.9820.9680.971

至此,最佳层和最佳参数均已经确定,本发明设计的深度网络最终确定为将SeNet加入 VGG-16的第五个卷积层后,并取SeNet第一个卷积层的激活值个数的压缩比r=4,即为>5-SE4,使得模型预测效果最大化。因此深度网络的结构中包含十五个卷积层和六个池化层(五个最大池化层和一个全局平均池化层)和三个全连接层。

步骤3.使用选取的最终模型计算测试集的预测精度。

本发明选取IQA数据集为LIVE、TID2013、CSIQ、LIVEMD四种。测试指标选择SROCC、LCC。并与其他卓越的图像质量评价的算法:全参考下的PSNR、SSIM[3]、FSIM[4]、无参考下的BRISQUE[5]、CORNIA[6]、GMLOG[7]、IL-NIQE[8]、CNN[9]、RANKIQA[1]、 BIECON[10]、DIQaM[11]、DIQA[12]算法进行比较。结果如下表3所示,并将每个数据集中最高的三个数据粗体表示。从表3可以看到本发明的算法优于传统的无参考图像质量评估方法和大部分的基于深度学习的无参考图像质量评估方法。同时,与目前流行的全参考图像质量评估的方法产生强烈地竞争关系。此外,本发明方法也表现出较强的泛化能力。

表3不同算法SROCC和PLCC的表现

步骤4.从可视化的角度验证选取的最佳层和最佳参数的正确性

为了可视化SeNet加入VGG-16的不同位置以及选取不同参数对特征图权重分配的影响,本发明对不同VGG*-SE模型下的SeNet模块的特征图激活值进行提取,来观察特征图权重的分配情况。具体方法为:使用IQA数据集里的测试集中不同失真等级(低失真等级类和高失真等级类)的图片作为模型输入,提取SeNet模块的特征图激活值,并用两类图片激活值的绝对差D=|A1-A2|来衡量不同卷积层区分不同失真图片的能力。其中D表示不同失真等级图激活值的绝对差,为了减小随机性带来的误差,A1(A2)是选取了测试集中20幅低(高)>

本实施例中,将步骤1中的TID2013测试集的图像的分数(MOS)进行分类,MOS小于2的归为低失真等级类;MOS大于5的归为高失真等级类。在验证最佳层的正确性时,选取第一层、第五层、第十二层作为对比,将图像分别送入上述步骤3得到的微调训练好的>1-SE4、VGG5-SE4、VGG12-SE4三个模型中提取SeNet分配的特征图激活值,同一类别内各个图像作为输入得到的激活值取平均分别得到A1,A2,计算出绝对差D=|A1-A2|来观察SeNet加入不同层的影响效果,结果如图4所示。在验证最佳参数的正确性时,选取r 为2、4、16作为对比,将图片分别送入上述步骤3得到的微调训练好的为2、4、16,>5-SE2、VGG5-SE4、VGG5-SE16模型中提取SeNet分配的特征图激活值,同一类别内各个图像作为输入的激活值取平均分别得到A1、A2,计算出绝对差D=|A1-A2|来观察SeNet选取不同参数时的影响效果,结果如图4所示。从图4可以看出,在不同层的对比实验中,SeNet加在第五层时不同失真等级类的激活值绝对差明显高于加在第一层和第十二层。即说明将SeNet加在第五层,对于不同的失真等级图分配的特征图激活值有明显的差异性,对失真等级是敏感的,而其他层中曲线间的差异性不大,说明对应层提取的特征图是不同失真等级图所共享的。同理,在不同参数的对比实验中,第五层中压缩比时,不同失真等级类的激活值绝对差高于其他压缩比下的。至此从可视化的角度更加确定了本发明选取的最佳模型的合理性。

参考文献:

[1]X.Liu,J.Weijer,and A.Bagdanov,“RankIQA:Learning from ranking forno-reference image quality assessment,”in Proc.IEEE Conf.ICCV,pp.1040–1049,2017

[2]Hu J,Shen L,Albanie S,et al.Squeeze-and-Excitation Networks[J].2017.

[3]Z.Wang,A.C.Bovik,H.R.Sheikh,and E.P.Simoncelli,“Image qualityassessment:From error visibility to structural similarity,”IEEE Trans.ImageProcess.,vol.13,no.4,pp.600–612,Apr. 2004.

[4]L.Zhang,L.Zhang,X.Mou,and D.Zhang,“FSIM:A feature similarity indexfor image quality assessment,”IEEE Trans.Image Process.,vol.20,no.8,pp.2378–2386,Aug.2011

[5]A.Mittal,A.K.Moorthy,and A.C.Bovik,“No-reference image qualityassessment in the spatial domain,”IEEE Trans.Image Process.,vol.21,no.12,pp.4695–4708,2012.

[6]P.Ye,J.Kumar,L.Kang,and D.Doermann,“Unsupervised feature learningframework for no-reference image quality assessment,”in Proc.IEEE Conf.CVPR,pp.1098–1105,Jun. 2012.

[7]W.Xue,X.Mou,L.Zhang,A.C.Bovik,and X.Feng,“Blind image qualityassessment using joint statistics of gradient magnitude and Laplacianfeatures,”IEEE Trans.Image Process., vol.23,no.11,pp.4850–4862,Nov.2014.

[8]L.Zhang,L.Zhang,and A.C.Bovik,“A feature-enriched completely blindimage quality evaluator,”IEEE Trans.Image Process.,vol.24,no.8,pp.2579–2591,Aug.2015.

[9]L.Kang,P.Ye,Y.Li,and D.Doermann,“Convolutional neural networks forno-reference image quality assessment,”in Proc.IEEE Conf.CVPR,pp.1733–1740,2014.

[10]J.Kim and S.Lee,“Fully deep blind image quality predictor,”IEEEJ.Sel.Topics Signal Process.,vol.11,no.1,pp.206–220,Feb.2017

[11]S.Bosse,D.Maniry,K.Muller,T.Wiegand and W.Samek,“Deep neuralnetworks for no-reference and full-reference image quality assessment,”IEEETrans.Image Process.,vol.27,no. 1,pp.206–219,2018

[12]J.Kim,A.Nguyen,and S.Lee,“Deep CNN-based blind image qualitypredictor,”IEEE Trans.Neural Netw.Learn.Syst.,pp.1–14,2018。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号