首页> 中国专利> 一种改进的CNN无参考图像质量评估方法

一种改进的CNN无参考图像质量评估方法

摘要

本发明涉及图像处理领域,具体涉及一种改进的CNN无参考图像质量评估方法,基于改进的CNN模型实现图像质量的评估,所述改进的CNN模型由多个卷积、池化、激活和全连接层构成,在最后一个池化层中采用最大、最小、均值三者联合的方式来进行池化,以此来解决图像特征信息流失问题。本发明利用迁移学习和微调的思想,将单一池化方法利用多种池化联合的方式进行替换,提升了网络的性能,表现出较高的精确度,可以满足当前无参考图像质量评估的实际需要,实验结果表明,本发明的方法在标准图像质量评价库上的评估准确度高于单一的最大池策略。

著录项

  • 公开/公告号CN112734728A

    专利类型发明专利

  • 公开/公告日2021-04-30

    原文格式PDF

  • 申请/专利权人 西安邮电大学;

    申请/专利号CN202110032108.9

  • 发明设计人 许成鹏;惠小强;杨艳英;龙艳;

    申请日2021-01-11

  • 分类号G06T7/00(20170101);

  • 代理机构11407 北京彭丽芳知识产权代理有限公司;

  • 代理人彭丽芳

  • 地址 710121 陕西省西安市长安区西长安街618号

  • 入库时间 2023-06-19 10:48:02

说明书

技术领域

本发明涉及图像处理领域,具体涉及一种改进的CNN无参考图像质量评估方法。

背景技术

随着互联网技术的快速发展,越来越多的人们想要看到更清晰的图像,但是受各种因素的影响图像最终呈现到我们眼前时是不清晰的,因此,为了更好的提高人类主观视觉体验,图像质量评估(Image Quality Assessment,IQA)逐渐成为图像处理领域的一个热点。现阶段,图像质量评估方法一般可以分为主观评估和客观评估。主观评估可靠性最高,但在实际应用中,费时费力,原始图像不仅难以获取,评估过程中还会受到外界因素的干扰,在这样一个大数据时代应用起来较为困难;而客观评估主要是通过机器去评估,避免了很多不必要的人为因素,操作起来较容易,还能降低成本,因此,采用客观评估的方法更符合现实需求。

在客观评估中,根据参考图像的有无又可以分为三种类型:全参考(Full-Reference Image Quality Assessment,FR-IQA)、半参考(Reduced-Reference ImageQuality Assessment,RR-IQA)、无参考(No-Reference Image Quality Assessment,NR-IQA)。无参考图像质量评估由于不需要借助参考图像,因此更具有实际应用价值。

基于CNN的方法是目前较为常用的无参考图像质量评估方法,它可以将失真图片作为输入,让计算机自动提取特征之后进行学习,这样相比以前手工提取特征的方法方便了很多。但是,也面临着许多不足,例如,现阶段大多数方法只采用最大池化来进行下采样,很多有价值的图像信息就会在这时被过滤掉,这就导致最终的评估其实是不准确的。

发明内容

为解决上述问题,本发明提供了一种改进的CNN无参考图像质量评估方法,。

为实现上述目的,本发明采取的技术方案为:

一种改进的CNN无参考图像质量评估方法,基于改进的CNN模型实现图像质量的评估,所述改进的CNN模型由多个卷积、池化、激活和全连接层构成,在最后一个池化层中采用最大、最小、均值三者联合的方式来进行池化,以此来解决图像特征信息流失问题。

进一步地,模型的输入图像为224x224的彩色图像,首先经过四个卷积层,每经过两次卷积之后进行最大池化和激活,然后经过9个卷积层,每经过三次卷积之后依次进行池化和激活操作,接下来,使用两个全连接层和激活函数进行全连接,最后通过线性回归得到图像的质量分数。

进一步地,所述卷积层利用卷积操作提取图像像素特征,在卷积操作过程中都采用了“0”填充方法,保证能提取角落或边缘的图像信息;整个卷积过程分为5块,第一块是两层64个3x3的卷积核进行卷积操作,得到2个224x224x64的特征图;第二块是采用两层128个3x3的卷积核进行卷积操作,得到2个112x112x128的特征图;第三块是采用三层256个3x3的卷积核,得到3个56x56x256的特征图;第四块是采用三层512个3x3的卷积核,得到3个28x28x512的特征图,第四块是采用三层512个3x3的卷积核,得到3个14x14x512的特征图。

进一步地,所述池化层的最后一层池化使用最大、最小、均值三者联合的方式,其他均采用最大池化,具体如下:

P

P

P

其中,M表示特征图,k表示卷积核数量,P

进一步地,所述输出层采用两层全连接层、一个线性回归层结构,神经元个数分别为4096、512、1个,同时在输出层使用Rectified Linear Units(ReLU)作为激活函数,以此来加快反向传播速率和梯度下降速率,利用Dropout方法防止网络出现过拟合现象,将每层全连接层的输出按0.5的概率进行设置,最终得到质量得分。

上述方案中,利用迁移学习和微调的思想,将单一池化方法利用多种池化联合的方式进行替换,提升了网络的性能,表现出较高的精确度,可以满足当前无参考图像质量评估的实际需要。实验结果表明,本发明的方法在标准图像质量评价库上的评估准确度高于单一的最大池策略。

附图说明

图1为NR-IQA模型整体架构。

图2为基于失真类型和失真水平生成的图片。

图3为双生网络模型。

图4为本发明实施例中改进的CNN网络模型图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。

模型整体架构

如图1所示是NR-IQA模型的整体框架,首先是利用高清的不带分值的非IQA数据集进行数据扩增,然后利用双生网络训练一个质量等级模型;其次,取双生网络的一支进行改进并放到IQA数据集上进行微调进而得到最终的图像质量得分。

数据扩增的原理和实现

对于NR-IQA问题,传统的方法是在IQA数据集上训练一个浅层的网络,然后直接在IQA数据集上去评估图像质量。这样虽然能解决IQA问题,但是由于现阶段IQA数据集资源比较溃泛,难以训练更深层次的网络,导致图像预测的准确度不是很理想,因此,为了提高评估的精准度,首先需要解决数据量的问题,为此,利用经典的Rank IQA方法来解决这个问题。具体如下:对于含有绝对分值的数据集相对来说,不易获取,但是对于一张图片,人为加以同种类型不同强度的失真之后,可以很容易的区分开哪张图像质量高,哪张图像质量低,这样就可以很容易的得到大量的已知图像相对质量的数据集。

例如,如图2所示,给定任意一张图片,分别加四种不同失真类型,并且每一种都对应着1、2、3、4种级别的失真(这四种级别也就是所谓的Rank),这样就可以得到大量的图像了。例如,假设这个数据集一共有100张图片,现在给这100张图片依次加上1、2、3、4这四个级别的高斯噪声(其中,级别越高图片越不清晰),这样就得到了400张图片。

具体来说,主要采用两种数据集:不带分值的Rank数据集和带分值的IQA数据集。对于Rank数据集,以Waterloo为基础作为原始图像,分别添加多种失真来扩增数据。具体来说,从LIVE五种失真类型中挑选出GB、GN、JPEG、JP2K这四种失真类型,添加到Waterloo中且每一种失真对应4个失真水平。对于IQA数据集,选用具有代表性的LIVE。

利用双生网络得到质量等级模型

双生网络模型如图3所示。它有两个网络分支,即网络1、网络2,每个分支都是一个卷积神经网络,同时这两个分支网络在模型训练期间共享权重w,这样大大减少了模型训练时间。网络的输入是一对图片,产生的两个输出传递到一个损失模块,利用反向传播算法计算模型所有参数的梯度,并利用随机梯度下降方法更新参数。

为此,给定图像x作为网络的输入,通过网络的最后一层激活函数,得到图像的特征表示,记为f(x;η),η表示网络参数。为了进行多图像之间的质量排序,损失函数选用性能较好的成对排序铰链损失函数,具体如下:

L(x

其中σ表示的是偏置项,假设图像1的质量高于图形2,可得到该损失函数的梯度如公式(2)所示。

利用改进的CNN得到质量得分模型

在利用双生网络对失真图像进行训练之后,得到一个可以根据图像质量对图像进行等级划分的模型,将这个模型作为下一步打分过程的初始化权重,以此来更好的解决NR-IQA问题。具体做法,首先,提取双生网络的一个网络分支作为基础架构,然后修改最后一个池化层为最大、最小、均值三者联合的方式进行池化,其次,将损失函数修改为均方误差(Mean Square Error,MSE)来更好的解决回归问题,公式如下:

其中,M代表图片总量,y

改进的CNN网络结构

提出的改进CNN模型结构,如图4所示,该模型由多个卷积、池化、激活和全连接层构成。其中,为了进一步获取到更全面的图像特征信息,在最后一个池化层中采用最大、最小、均值三者联合的方式来进行池化,以此来解决图像特征信息流失问题。

模型的输入图像为224x224的彩色图像,首先经过四个卷积层,每经过两次卷积之后进行最大池化和激活,然后经过9个卷积层,每经过三次卷积之后依次进行池化和激活操作,加起来一共需要池化三次,为了不影响模型整体的训练速度,选用一个折中的办法,只将最后一次池化使用三者联合的方式,而前两次继续使用最大池化,这样做不仅不会大幅度的影响模型训练速度,还巧妙的保留了部分图像信息,接下来,使用两个全连接层和激活函数进行全连接,最后通过线性回归得到图像的质量分数。

卷积层

卷积层利用卷积操作提取图像像素特征,在卷积操作过程中都采用了“0”填充方法,保证能提取角落或边缘的图像信息。整个卷积过程可以分为5块,第一块是两层64个3x3的卷积核进行卷积操作,得到2个224x224x64的特征图;第二块是采用两层128个3x3的卷积核进行卷积操作,得到2个112x112x128的特征图;第三块是采用三层256个3x3的卷积核,得到3个56x56x256的特征图;第四块是采用三层512个3x3的卷积核,得到3个28x28x512的特征图,第四块是采用三层512个3x3的卷积核,得到3个14x14x512的特征图。根据卷积神经网络算法,卷积核大小决定了神经元所控制的视野以及特征提取的有效性和复杂度。通过卷积操作之后,一张图像形成了三个14x14x512的特征图。

池化层

池化层也叫次采样或者下采样层,主要用来进一步提取来自卷积之后的特征。池化方法有很多,例如最大池化、平均池化、最小池化。但实际中用的最多的却只有最大池化,用来提取众多特征中影响最大的那一个,而丢弃剩下的。这样做虽然加快了模型的训练速度,但是由于丢弃的特征太多导致最终的评估效果并不是很理想,因此,为了保证在不影响模型整体训练速度又能提高质量评估性能的双条件下,选用一个折中的办法,只将最后一层池化使用最大、最小、均值三者联合的方式,其他均采用最大池化,这样做不仅不会大幅度的影响模型训练速度,还巧妙的保留了部分图像信息,具体如下:

P

P

P

其中M表示特征图,k表示卷积核数量,P

输出层

该模型采用两层全连接层、一个线性回归层结构,神经元个数分别为4096、512、1个。同时在输出层使用Rectified Linear Units(ReLU)作为激活函数,以此来加快反向传播速率和梯度下降速率,利用Dropout方法防止网络出现过拟合现象,将每层全连接层的输出按0.5的概率进行设置,最终得到质量得分。

实验结果与分析

衡量指标的选取

为了对客观评价值的分布、单调性、准确性等因素进行综合衡量,使用目前较为常用的斯皮尔曼秩相关系数(Spearman Rank Order Correlation Coefficient,SROCC)和线性相关系数(Linear Correlation Coefficient,LCC)来评价图像原始的DMOS值与CNN经过训练预测出来的质量得分之间的相关性。其中,SROCC用来反映该网络模型预测的单调性,取值范围为[-1,1],绝对值越接近于1,表明该网络模型的单调性越好;而LCC主要用来反映该网络模型预测的准确度,取值范围[-1,1],绝对值越接近于1表明该网络模型越精准。二者计算方法如下:

其中,d

其中,y

在LIVE图像库上的结果与分析

为了更好的体现算法的优越性,在LIVE进行实验。首先是对每一种失真类型进行实验,然后再将所有的失真放在一起进行实验,最后与常见的几种经典的方法在SROCC、LCC上进行对比,结果如表1、表2所示:(其中,加粗的代表所有方法中最优结果)

表1不同算法在LIVE上的SROCC对比

表2不同算法在LIVE上的LCC对比

从表1、表2可以清楚的看到,改进后的模型性能在不同失真上都得到了提升。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号