法律状态公告日
法律状态信息
法律状态
2018-11-16
授权
授权
2017-11-28
实质审查的生效 IPC(主分类):H04N17/00 申请日:20170725
实质审查的生效
2017-11-03
公开
公开
技术领域
本发明属于图像视频处理技术领域,更进一步涉及图像视频质量评估技术领域中的一种基于视觉显著区域和时空特性的视频质量评价方法。该发明可应用于视频编码、视频会议中所使用的视频,根据人眼对图像关注度不同的影响,提取视频显著区域,并考虑视频的时空特性,对视频进行客观质量评估。
背景技术
随着多媒体技术和计算机网络的快速发展,视频信号大量得应用在视频监控,视频会议等服务中。人们在接触到越来越多的视频时对视频相关服务的需求也在提升,另一方面视频从产生到传输到最终用户,中间的每一阶段都不可避免的产生了一定的失真,因而降低了用户体验质量。由于视频图像的最终接收者是人类,因此人们对视频图像的评估最为准确,但是这种主观评估方法耗时,费力,不适合大规模推广。因此设计客观视频质量评估方法是非常必要的。
目前客观视频质量评估方法主要有峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、结构相似度(Structure Similarity,SSIM)、均方误差MSE和S.Winkler等人提出来的感知失真方法(PDM)等。由于人眼视觉系统的复杂性,这些方法并没有与主观质量评估结果具有很好的一致性。总体而言,虽然视频质量评估虽然取得了一定的进展,但是依然存在着许多技术难题,需要进一步的发展与完善。
Sudeng Hu等人在其发表的论文“Objective Video Quality Assessment based on Perceptually Weighted Mean Squared Error”(IEEE Transactions on Circuits and Systems for Video Technology.2016)中提出了一种专门针对压缩失真的视频质量评价方法。该方法设计一个加入视觉注意的低通滤波器来模拟一个最重要人类视觉系统的特性--对比度敏感来去除掩盖失真,并针对掩蔽效应设计掩蔽调制机制来提高客观质量评估与主观的一致性。该方法虽然加入了HVS特性,但是仍然存在的不足之处是,该方法提出的浮动滤波器只能在空域实现,计算相当复杂,也没有考虑视频的时空统计特性,评估结果不能更好的符合主观评估的结果,并且只能针对压缩失真的视频,不能广泛应用到实际中。
中国科学院西安光学精密机械研究所申请的专利“基于3D-DCT域统计分析的无参考视频质量评价方法”(公开号:CN105991995A,公开日:2016年10月05日,申请日:2015年02月13日)中公开了一种基于3D-DCT域统计分析的视频质量评价方法。该方法通过局部3D-DCT变换获取代表视频时空信息的交流系数,对频域系数进行相应的处理获得四个简单的频域特征,通过PCA降维,支持向量机回归模型预测,最后进行质量评价。该方法是一种无参考视频质量评价方法,优点是考虑了视频的时空特性,更适合无参考客观视频质量评价。但是,该方法仍然存在的不足之处是,提取的几个简单特征不能代表视频的全部信息,也没有考虑人眼视觉特性对质量评价的影响,评价结果不能更好的符合主观评价的结果。
发明内容
本发明的目的在于克服上述现有技术的不足,提出一种基于视觉显著区域和时空特性的视频质量评价方法。
实现本发明目的的具体思路是,综合考虑人眼关注的视觉显著区域、视频的时空特性对视频质量评价的重要作用,首先提取视频的视觉显著区域,然后在3D-DCT域提取视频的时空统计特征,利用主成分析法PCA缩减特征维度,通过支持向量回归模型SVR-ε预测视频的质量分数,最后利用Matlab软件中corr函数计算预测分数与主观分数之间的相关系数,得到视频质量评价的评价指标,评价结果能更好地符合人的主观评价。
本发明的具体步骤包括如下:
(1)提取视频:
从视频质量评估数据库live中的160个视频中任意选取一个视频;
(2)从所选取的视频中任意选取一帧图像;
(3)提取图像的视觉显著区域:
(3a)从所选取的帧图像平面坐标系中分别选取最大灰度值和最小灰度值;
(3b)利用最大类间方差法OTSU确定一个最佳阈值;
(3c)将所选取的帧图像平面坐标系中的所有灰度值大于最小灰度值且小于最佳阈值的点所围成的区域作为非视觉显著区域;将所选取图像平面坐标中的所有灰度值大于最佳阈值且小于最大灰度值的点所围成的区域作为作为视觉显著区域;
(3d)对非视觉显著区域和视觉显著区域的图像的边界轮廓曲线进行平滑操作,去除边界轮廓曲线中狭窄的连接和细小的突出部分,保留边界轮廓曲线围成的视觉显著区域;
(3e)将非视觉显著区域的灰度值设为0,保持视觉显著区域的灰度值不变,得到提取视觉显著区域后的图像;
(4)判断是否从所选取的视频中提取完所有的帧图像,若是,则执行步骤(5),否则,执行步骤(2):
(5)将所选取视频的所有帧图像合成一个提取视觉显著区域后的视频;
(6)获取三维离散余弦变换3D-DCT系数:
(6a)将提取视觉显著区域后的视频分成R*C*P个视频时空信息的小立方体,其中,R表示横轴上小立方体的个数,*表示相乘操作,C、P分别表示纵轴,时间轴上小立方体的个数;
(6b)对所有小立方体进行三维离散余弦变换3D-DCT操作,得到R*C*P个所有视频时空信息的系数块;
(6c)去掉系数块中含0系数的数量超过该系数块中总系数一半以上的系数块,得到有效系数块;
(6d)利用Matlab软件中reshape函数将有效系数块转换成一维向量,去掉每个一维向量中的直流系数,得到63维交流系数向量;
(7)提取特征:
(7a)用广义高斯分布拟合63维交流系数向量每个维度的概率分布,得到63个形状参数,将63个形状参数构成63维形状参数特征向量;
(7b)按照下式,分别计算每个交流系数的频谱率,将63个频谱率构成63维频谱率特征向量;
其中,fk表示第k个交流系数的频谱率,k取值范围为1,2…,63,γk表示第k个交流系数的形状参数,Π表示连乘操作,γj表示第j个交流系数的形状参数,j取值范围为1,2…,63;
(7c)按照平均能量谱公式,分别计算每个交流系数的平均谱能量,将63个平均能量谱构成63维能量波动特征向量;
(7d)按照熵度量公式,分别计算每个交流系数的熵度量,将63个熵度量构成63维能量波动特征向量;
(7e)按照下式,分别计算每个交流系数与所有交流系数平均值之间的欧式距离,将63个欧氏距离构成63维分散度特征向量;
其中,dk表示第k个交流系数与所有交流系数平均值之间的欧式距离,表示平方根操作,∑表示求和操作,M表示交流系数向量的总数,|·|表示取绝对值操作,Ck(m)表示第m个交流系数向量中的第k个交流系数,μ(·)表示取平均值操作,Ck表示第k个交流系数;
(8)缩减特征维度:
采用主成分分析法PCA,分别对形状参数特征向量、频谱率特征向量、能量波动特征向量、分散度特征向量降维后组成一组质量评估特征向量;
(9)判断是否提取完视频质量评估数据库live中的160个视频,若是,则执行步骤(10),否则,执行步骤(1);
(10)预测质量分数:
(10a)从160组质量评估特征向量中随机提取128组特征向量作为训练集,将其余32组作为测试集,并获取每组特征向量对应视频的主观质量分数;
(10b)利用支持向量回归模型SVR-ε,对训练集中128组特征向量和其相应视频的主观质量分数进行训练,得到训练好的回归模型;
(10c)用训练好的回归模型对测试集中所有组特征向量进行测试,得到测试集中32组特征向量的相应视频的预测分数;
(11)计算视频相关系数:
(11a)利用Matlab软件的corr函数,计算所有预测分数与其对应视频的主观质量分数之间的斯皮尔曼等级相关系数SROCC;
(11b)利用Matlab软件的corr函数,计算所有预测分数与其对应视频的主观质量分数之间的皮尔逊线性相关系数PLCC;
(12)输出相关系数:
输出斯皮尔曼等级相关系数SROCC和皮尔逊线性相关系数PLCC。
与现有技术相比,本发明具有以下优点:
第一,由于本发明应用像素点灰度值信息,提取视觉显著区域,充分考虑了人眼的视觉感知,克服了现有技术视频质量评估方法中没有考虑人类视觉特性的问题,使得本发明具有在客观评估视频质量时更加符合人眼主观评估的优点。
第二,由于本发明在提取视频时空信息特征时,采用三维离散余弦变换变换3D-DCT得到频域系数,通过对频域系数的统计处理得到与视觉质量相关的特征,能够更完整地反映视频的时空信息,客服了现有技术中提取的特征不能完整反映视频信息的问题,使得本发明在客观评估视频质量时的结果更加精确优点。
附图说明
图1为本发明的流程图;
图2为本发明的仿真图。
具体实施方式
下面结合附图,对本发明做进一步的详细描述。
参照附图1,本发明的具体步骤如下。
步骤1,提取视频。
从视频质量评估数据库live中的160个视频中任意选取一个视频。
步骤2,从所选取的视频中任意选取一帧图像。
步骤3,提取图像的视觉显著区域。
从所选取的帧图像平面坐标系中分别选取最大灰度值和最小灰度值。
利用最大类间方差法OTSU确定一个最佳阈值。
最大类间方差法OTSU的具体步骤如下:
第1步,将灰度值的初始阈值设为60。
第2步,将所选取的帧图像平面坐标系中的所有灰度值大于最小灰度值且小于初始阈值的点所围成的区域作为背景区域;将所选取图像平面坐标中的所有灰度值大于初始阈值且小于最大灰度值的点所围成的区域作为目标区域。
第3步,按照下式,计算背景区域平面坐标系中所有点的灰度均值:
其中,u0表示背景区域平面坐标系中所有点的灰度均值,T表示初始阈值,∑表示求和操作,fmin表示背景区域平面坐标系中最小灰度值,i表示背景区域平面坐标系中第i个点的灰度值,P(i)表示背景区域平面坐标系中灰度值为i的所有点的概率,P0表示背景区域平面坐标系中所有点的总概率。
第4步,按照下式,计算目标区域平面坐标系中所有点的灰度均值:
其中,u1表示目标区域平面坐标系中所有点的灰度均值;fmax表示背景区域平面坐标系中最大灰度值,T表示初始阈值,n表示背景区域平面坐标系中第n个点的灰度值,P(n)表示目标区域平面坐标系中灰度值为n的所有点的概率,P1表示目标区域平面坐标系中所有点的总概率。
第5步,按照下式,计算所选取的帧图像平面坐标系中所有点的灰度均值:
u=P0u0+P1u1
其中,u表示所选取的帧图像平面坐标系中所有点的灰度均值。
第6步,按照下式,计算背景区域和目标区域间的方差值:
σ2=P0*(u-u0)2+P1*(u-u1)2
其中,σ2表示背景区域和目标区域间的方差值,*表示相乘操作。
第7步,将初始阈值T加2得到阈值Y。
第8步,判断阈值Y是否等于200,若是,得到所有背景区域和目标区域间方差,则执行本步骤的第9步,否则,执行本步骤的第1步。
第9步,从所有方差中选取最大值,将所选取的最大值对应的阈值Y作为最佳阈值。
将所选取的帧图像平面坐标系中的所有灰度值大于最小灰度值且小于最佳阈值的点所围成的区域作为非视觉显著区域;将所选取图像平面坐标中的所有灰度值大于最佳阈值且小于最大灰度值的点所围成的区域作为作为视觉显著区域。
对非视觉显著区域和视觉显著区域的图像的边界轮廓曲线进行平滑操作,去除边界轮廓曲线中狭窄的连接和细小的突出部分,保留边界轮廓曲线围成的视觉显著区域。
将非视觉显著区域的灰度值设为0,保持视觉显著区域的灰度值不变,得到提取视觉显著区域后的图像。
步骤4,判断是否从所选取的视频中提取完所有的帧图像,若是,则执行步骤5,否则,执行步骤2。
步骤5,将所选取视频的所有帧图像合成一个提取视觉显著区域后的视频。
步骤6,获取三维离散余弦变换3D-DCT系数。
第1步,将提取视觉显著区域后的视频分成R*C*P个视频时空信息的小立方体,其中,R表示横轴上小立方体的个数,*表示相乘操作,C、P分别表示纵轴,时间轴上小立方体的个数,每个小立方体的大小为4*4*4,每个立方体空间上重叠2个像素,时间维上不重叠。
第2步,对所有小立方体进行三维离散余弦变换3D-DCT操作,得到R*C*P个所有视频时空信息的系数块,其中,每个系数块包含一个直流系数和63个交流系数,每个交流系数对应一个交流频率,在每个视频中,一个交流频率对应RxCxP个交流系数。
第3步,去掉系数块中含0系数的数量超过该系数块中总系数一半以上的系数块,得到有效系数块。
第4步,利用Matlab软件中reshape函数将有效系数块转换成一维向量,去掉每个一维向量中的直流系数,得到63维交流系数向量。
步骤7,提取特征。
用广义高斯分布拟合63维交流系数向量每个维度的概率分布,得到63个形状参数,将63个形状参数构成63维形状参数特征向量。
采用下述的频谱率公式,分别计算每个交流系数的频谱率,将63个频谱率构成63维频谱率特征向量。
其中,fk表示第k个交流系数的频谱率,k取值范围为1,2…,63,γk表示第k个交流系数的形状参数,Π表示连乘操作,γj表示第j个交流系数的形状参数,j取值范围为1,2…,63。
采用下述的平均能量谱公式,分别计算每个交流系数的平均谱能量,将63个平均能量谱构成63维能量波动特征向量。
其中,rk表示第k个交流系数的基本谱能量,log2表示以2为底的对数操作。
采用下述的熵度量公式,分别计算每个交流系数的熵度量,将63个熵度量构成63维能量波动特征向量。
其中,ek表示第k个交流系数的熵度量值,pl(Ck)表示第k个交流系数Ck在第l段的概率,l表示M个交流系数向量中的最小值到最大值区间的等间值的40段中的第l段。
采用下述的欧式距离公式,分别计算每个交流系数与所有交流系数平均值之间的欧式距离,将63个欧氏距离构成63维分散度特征向量。
其中,dk表示第k个交流系数与所有交流系数平均值之间的欧式距离,表示平方根操作,∑表示求和操作,M表示交流系数向量的总数,·表示取绝对值操作,Ck(m)表示第m个交流系数向量中的第k个交流系数,μ(·)表示取平均值操作,Ck表示第k个交流系数。
步骤8,缩减特征维度。
采用主成分分析法PCA,分别对形状参数特征向量、频谱率特征向量、能量波动特征向量、分散度特征向量降维后组成一组反映视频时空特性的特征向量;
步骤9,判断是否提取完视频质量评估数据库live中的160个视频,若是,则执行步骤10,否则,执行步骤1。
步骤10,预测质量分数。
第1步,从160组质量评估特征向量中随机提取128组特征向量作为训练集,将其余32组作为测试集,并获取每组特征向量对应视频的主观质量分数。
第2步,利用支持向量回归模型SVR-ε,对训练集中128组特征向量和其相应视频的主观质量分数进行训练,得到训练好的回归模型。
第3步,用训练好的回归模型对测试集中所有组特征向量进行测试,得到测试集中32组特征向量的相应视频的预测分数。
步骤11,计算视频相关系数。
第1步,利用Matlab软件的corr函数,计算所有预测分数与其对应视频的主观质量分数之间的斯皮尔曼等级相关系数SROCC。
第2步,利用Matlab软件的corr函数,计算所有预测分数与其对应视频的主观质量分数之间的皮尔逊线性相关系数PLCC
步骤12,输出相关系数。
输出斯皮尔曼等级相关系数SROCC和皮尔逊线性相关系数PLCC
下面结合仿真图2对本发明的效果做进一步的描述。
1.仿真条件:
本发明是在中央处理器为Intel(R)Core(TM)i3-2350M CPU@2.30GHZ、内存10G、Windows 7操作系统上,运用MATLAB R2013b软件进行的仿真。
2.仿真内容及其结果分析:
图2为采用本发明方法在LIVE数据库上得到的预测质量分数对真实主观质量分数的散点图。图2中的横坐标表示视频的主观质量分数,纵坐标表示视频的预测质量分数,图2中的“×”表示以一个视频的主观质量分数为纵坐标,预测质量分数为横坐标的离散点。黑色的实线是Logistic函数对视频序列的客观评价结果与主观数据的线性拟合直线。由图2中所有的离散点均匀分布在拟合直线上及直线的附近,由此可见,采用本发明的基于视觉显著区域和时空特性的视频质量评估方法,预测分数与主观分数之间有很明显的线性关系,进一步验证了本发明评估结果与主观评价结果的一致性。
将本发明与现有技术的基于峰值信噪比方法PSNR,基于结构相似度方法SSIM,基于运动信息的视频整体质量估计方法MOVIE,以及最新的盲视频质量评价方法V-BLINDS和基于3D-DCT域统计分析的无参考视频质量评价方法S-Statistics性能比较,得到的斯皮尔曼等级相关系数SROCC和皮尔逊线性相关系数PLCC与现有技术的SROCC和PLCC统计结果如下表1所示。
表1总体SROCC和PLCC比较
由表1可见,在没有原始视频信息参考下,本发明的预测分数与主观质量分数之间的相关性依然高于现有的有参视频质量评价方法,同时也优于现有的无参视频质量评价方法V-BLINDS,S-Statistics,进一步验证了本发明评估结果更符合主观评价的结果。
机译: 基于离群模型的基于视觉描述符的视频质量评估
机译: 基于视觉的识别数据库的构建方法和基于视觉的识别装置的评估方法
机译: 基于内容复杂度的视频质量评估方法及装置