首页> 中国专利> 一种基于人工神经网络的视频质量评价方法

一种基于人工神经网络的视频质量评价方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种基于人工神经网络的视频质量评价方法属于计算机数字视频处理领域。该评价算法通过分析视频图像的空间特性(模糊、熵、块效应、频域能量分析、饱和度)和时间特性(帧间差)来计算图像的受损程度。色度空间饱和度作为无参考评价算法的参数之一可有效改善算法的评价效果。本系统是基于人工神经网络而设计的，因此算法的实现包含网络的训练过程和测试过程。对于所选择的训练样本(视频图像序列)，首先提取上述的六项参数，并通过主观评价获取训练样本在训练中的期望输出(主观评价结果)。训练样本的特征参数与对应的主观评价结果作为训练参数输入人工神经网络。依据实验表明，该客观评价系统所获取的评价结果与人眼的视觉感受高度一致。

著录项

公开/公告号CN101282481A

专利类型发明专利
公开/公告日2008-10-08

原文格式PDF
申请/专利权人中国传媒大学;
展开▼

申请/专利号CN200810106132.7
发明设计人姜秀华;孟放;许江波;周炜;
展开▼

申请日2008-05-09
分类号H04N7/26(20060101);H04N17/00(20060101);G06N3/02(20060101);
代理机构11203 北京思海天达知识产权代理有限公司;
代理人刘萍
地址 100024 北京市朝阳区定福庄东街1号
入库时间 2023-12-17 20:53:53

法律信息

法律状态公告日

法律状态信息

法律状态
2013-07-03

未缴年费专利权终止 IPC(主分类):H04N7/26 授权公告日:20091111 终止日期:20120509 申请日:20080509

专利权的终止
2009-11-11

授权

授权
2008-12-03

实质审查的生效

实质审查的生效
2008-10-08

公开

公开

说明书

技术领域

本发明涉及计算机数字视频处理领域，设计了一种基于人工神经网络的无参考数字视频质量评价方法。

背景技术

视频图像是可视化视觉信息的主要表现形式，视频图像处理是目前重要的研究领域之一。在视频图像应用领域的各个环节，如采集、压缩、传输、处理、存储等，都不可避免地会影响到图像质量。由于图像最终是供用户观看的，因此对于图像质量的正确评价是图像信息工程中的关键技术之一。

视频图像质量的评价方法可分为两大类：主观评价和客观评价。主观评价是直接利用观察者对被测图像的视觉感知来确定图像质量的一种测试，其测量结果可靠，且符合图像的实际观察质量，因此，在图像质量测量领域占据重要地位，目前已有相应的国际标准(如ITU-R BT.500，ITU-R BT.710)。但主观评价的测试环境要求极为严格，实现过程复杂，且不具有可重复性。随着视频图像应用领域的不断扩展，在某些应用环境下，无法进行有效的主观评价。而客观评价算法则通过分析视频处理算法和人类视觉特性来建立数学模型，以实现对图像质量的自动测量。此类算法可嵌入到视频处理的各个环节，对视频流质量进行定量分析并可进一步分析和调整系统参数以改善最终的图像显示效果。因此，图像质量客观评价算法是目前的一个研究热点。

传统的客观质量评价算法以MSE(均方误差)和PSNR(峰值信噪比)为代表。此类评价算法理论直观、计算简单，在一般情况下可获得较好的测量结果。但这种基于信号的客观评价算法并没有考虑人眼在观看图像时的感知特性，因此在某些情况下，所获得的测量结果与主观感觉并不一致。近几年来，在充分分析视频处理算法和视觉感知特性基础上，各研究机构提出了很多改进算法，根据算法对未失真图像的依赖程度，我们可将算法分为三种：

1.基于全参考帧(FR-Full Reference)的视频质量评价

无失真原始视频图像可完全用于图像质量的客观评价算法中，因此，测量结果相对准确。但存在以下问题：(1)考虑了原始视频的评价算法数据量庞大，运算复杂度高；(2)在很多应用场合，无失真图像在接收端不可获取；

2.基于缩减参考帧(RR-Reduced Reference)的视频质量评价

无失真原始视频图像的特征参数可用于图像质量的客观评价算法中。该算法首先定义并提取原始视频图像的各项特征参数，然后通过一个带宽较窄的辅助信道将这些参数传输到接收端。在接收端提取待测的受损图像的同样特征参数，通过对这两组特征参数的统计分析，获取受损图像质量的客观评价结果。相比较FR算法，该算法所需原始图像信息大量减少，实现复杂度降低；同时，由于考虑了原始图像，该算法仍然具有较高的可信度。但是存在以下问题：(1)从理论上分析，很可能一些受损视频图像的统计数据和对应无失真图像完全相同，但在主观视觉上却大不相同；(2)由于图像的统计数据易于随观看距离、亮度范围等因素的改变而改变，甚至得到完全不同的统计数据，而此类算法无法完全考虑这种情况；(3)在某些应用环境中，无法增加辅助信道来传输无失真图像的特征参数。

3.基于无参考帧(NR-No Reference)的视频质量评价

无需任何原始图像的信息，通过提取受损图像的各项特征参数，寻找诸如MPEG块边缘，点状噪声或图像模糊等图像缺陷，来获取图像质量的评价结果。此类方法不需要任何来自原始视频图像的数据，仅在接收端即可实现对受损视频图像的质量测量，并要求与主观评价结果具有较好的一致性，因此，此类算法的研究难度较大。由于不需要原始图像信息，无参考客观评价算法可以放入视频应用系统中的多个环节上进行在线测试。本系统也正是在此基础上提出了一套无参考的数字视频图像质量客观评价系统。

无参考算法的国内外研究现状

1.国内研究现状

王新岱等人于2004年提出了一种无参考视频质量评价算法，可较好应用于无线和IP等视频业务的质量评价。该方法通过提取事先嵌入到压缩视频中的水印，并与接收端存储的原始水印拷贝进行比较，从而实现对视频质量的评价。由于该系统需要在原始信号中添加水印信息，会在一定程度上破坏图像的质量，此外，在收端也需要有原始的水印信息作为对比，因此具有一定的应用限制性。

殷晓丽等人于2006年提出了一种基于半脆弱性数字水印算法的无参考图像质量评价方法。该系统评价结果较好，但具有如上述同样问题，此外该算法是基于静止图像的，无法对视频进行处理。

王正友等人于2006年从噪声检测的角度提出了一种基于掩盖效应的无参考图像质量评价方法。首先对Hosaka分块进行了改进，取消了该方法对图像尺寸的限制。通过分块，将图像以不同的频率成分区分开来，然后计算各个子块的噪声。根据图像的污染程度，提出了基于掩盖效应的无参考图像峰值信噪比NPSNR。实验结果表明，该方法具有无参考、运算复杂度低、主客观较一致等特点。这种方法只是基于噪声来分析图像质量，但是噪声主要是模拟电视系统中的主要损伤，因此它不适用于数字视频。

杨付正等人于2006年提出了一种适用于基于块编码视频的无参考质量评价方法。首先结合人类视觉的亮度掩盖和对比度掩盖特性提出了一个符合主观视觉感知的方块效应测度，然后根据滤波对方块效应的影响，给出了一种适合于使用不同压缩和处理算法的基于块编码重构视频的质量评价方法。实验表明该质量评价测度与主观质量评价有较好的一致性。但是该算法只对图像中的块效应进行了分析，而一个参数显然是不足以反映图像的整体质量的。而且该算法是基于人眼掩盖特性的，而要正确地将掩盖特性公式化也是非常困难的。

2.国外研究现状

Pina Marziliano等人于2002年提出了一种基于模糊程度分析的视频图像的无参考评价方法，这种方法是对图像边缘的扩展区域进行分析，根据主观感受来设定感知阈值。这种方法计算复杂度低，速度接近实时播放速度。由于该方法的评价性能要依赖于边缘检测的效果，因此算法的应用将受到一定限制。

Hanghang Tong等人于2004年提出了一种应用于JPEG2000的无参考图像质量评价方法，通过将图像中所有的边缘点归为受损的或者没有受损的，然后使用主成分分析法对给定的边缘像素点提取局部特征，以判断其是否模糊或者有振铃效应。同时还使用边缘像素点是否受损来判断局部图像的受损程度，可以应用于各类局部特征。这种方法的效果在很大程度上也依赖于边缘检测的效果，但是目前还没有非常完善的边缘检测算法，因此该算法的效果也将受到限制。而且这种算法也只能够针对静止图像进行分析，而不能处理视频。

Remco Muijs等人于2005年提出了一种基于特征分析的无参考图像质量评价方法。主要对图像中的块效应进行分析，因为它是影响基于分块压缩图像质量的一个重要因素。通过检测块的位置以及可观测性来判断块效应的程度。该算法是根据块边缘的位置来进行损伤分析的，但是图像的空间偏移将造成块边缘的偏移，而使得计算结果不准确。而且该方法仅仅只分析了图像中的一种损伤，即块效应，显然它是不足以反映图像的总体质量的。

国外的其他相关研究还包括通过回归算法计算主客观拟合参数和通过训练人工神经网络来实现无参考客观评价算法。但是均缺乏对视频图像特征参数的全面分析。目前算法多存在着一定局限性，无法给出图像或视频的整体质量，而且在应用中也会受到各种各样的限制。

发明内容

为了克服目前评价方法的不足，本发明设计了一种基于人工神经网络的无参考视频质量评价方法。这种评价方法综合考虑视频图像的各项特征参数，并结合人眼的视觉特性定义并抽取指定参数作为客观评价系统的输入集合，定义对应的主观评价结果作为评价系统的输出集合。通过选择测试样本，并获取测试样本的主观评价结果来实现对神经网络的训练。实验表明，训练后的人工神经网络可获取与主观评价结果高度一致的客观评价结果。

本发明的技术思路特征在于：

1、提出了一种无参考视频质量评价方法。该方法可通过分析视频图像的空间和时间统计特性来计算图像受损程度。这些特性包括：空间特征(模糊、熵、块效应、频域能量分析、饱和度)和时间特性(帧间差)。

2、考虑了色度空间的损伤。目前亮度信息在无参考评价算法设计中占主导地位，而色度空间几乎被忽略。本系统所分析的色度损伤，可有效改善评价结果。

3、分析视频图像的各项特性并进行组合，作为基于人工神经网络的评价系统的输入参数。

本发明的系统框架参见图1。由于该系统是基于人工神经网络设计的，因此包含训练和测试两个主要部分。参与训练的视频图像我们称之为“训练样本”，用于检测系统性能的视频图像命名为“测试样本”。该方法依次包括下述步骤：

1)、对于训练样本，我们首先提取视频图像的特征参数(提取过程如图2所示)，作为人工神经网络的输入参数；同时，通过主观评价获取训练样本的主观评价结果，作为人工神经网络的期望输出结果；

2)、将上述获取参数存入参数数据库，用于训练人工神经网络；

3)、执行人工神经网络的训练过程(神经网络的训练过程如图3所示)：对于每个输入样本，我们将其对应的六个特征参数作为系统的输入，分别对应于人工神经网络的六个输入节点，而该输入样本对应的期望输出(主观测试结果)作为系统的期望输出。根据期望输出与实际输出的差异值，即误差，来调整人工神经网络中各节点间的连接权值。

4)、当满足结束条件时(本系统以每次训练所有样本的累积误差作为控制条件，当某次训练中的累积误差小于指定的阈值，则训练过程结束)，基于人工神经网络的无参考评价模型即建立完成。之后，可通过测验样本来检测该模型的系统性能；阈值的指定一般在10^-4，但是具体的数值取决于参加训练的样本数目和特性，在不同的应用领域，训练停止条件需要根据实际情况调整。

5)、对于输入的测试样本，提取同样的特征参数(如图2所示)，然后输入到已训练好的模型中，即可获取对测试样本的质量评价结果(测试过程如图5所示)。

对于图1及上述步骤中各模块的说明则按照图编号的顺序进行。

特征提取模块：如图2所示，对于输入的视频图像，首先提取九个特征参数，分别为图像活性、平均梯度、边缘能量统计、过零率统计、熵、块效应、频域能量分布特性、饱和度八个空间特性参数和帧间差一个时间特性参数。其中，除了饱和度是统计色度空间的特征参数外，其他参数均来自视频图像的亮度空间。此外，我们将前四个空间特性进行平均加权，定义为图像的模糊参数。

图像活性Activity_image：是主要反映图像细节纹理的特征量，为图像在水平和垂直方向的图像亮度一阶差分统计。先对图像的每一行作前向差分，并计算其平方和，作为该行的统计结果，然后再将所有行的统计结果累加，得到该场的水平方向图像活性，如下式所示：

$D (i) = Σ_{j = 1}^{M - 1} {(Y (i, j) - Y (i, j - 1))}^{2}, (0 \leq i \leq N - 1) - - - (1)$

$H_{1} = Σ_{i = 0}^{N - 1} D (i) - - - (2)$

其中，Y是图像的亮度空间，Y(i，j)是图像第i行、j列像素所对应的亮度值。M、N分别为水平和垂直方向的像素数目(以下公式中，变量Y(i，j)、M、N的定义均与此相同)。D(i)为第i行的统计结果，H₁为水平方向的图像活性，用同样的方法可以得到垂直方向的图像活性V₁，将两者相加即可得到整幅图像的图像活性(Activity_image＝H₁+V₁)。

平均梯度Ave_Gradient：是反映图像细节纹理的特征量，通过求解像素二阶差分获取。具体计算如下，先求每个像素在水平和垂直方向上的二阶差分，然后求平方和，除以2，再计算平方根，最后对所有像素的梯度值进行累加，并除以总的像素数，得到整幅图像的平均梯度值。公式如下：

$G (i, j) = \sqrt{\frac{▿_{j}^{2} Y (i, j) + ▿_{i}^{2} Y (i, j)}{2}} - - - (3)$

$Ave_Gradient = \frac{Σ_{i = 1}^{N - 2} Σ_{j = 1}^{M - 2} G (i, j)}{(M - 2) \times (N - 2)} - - - (4)$

其中，▽_jY(i，j)和▽_iY(i，j)分别为图像像素在(i，j)位置的水平和垂直方向的梯度，如下计算：

▽_jY(i，j)＝(Y(i，j-1)-Y(i，j))-(Y(i，j)-Y(i，j+1)) (5)

▽_iY(i，j)＝(Y(i-1，j)-Y(i，j))-(Y(i，j)-Y(i+1，j)) (6)

边缘能量统计Edge_Energy：图像中一个很重要的特征就是图像的边缘特性，它的特征是沿边缘走向的像素变化平缓，而垂直于边缘走向的像素变化剧烈，根据这一特性，可以统计图像的边缘。边缘能量统计的定义公式如下，

e(i，j)＝E₁(Y(i，j))+E₂(Y(i，j)) (7)

$Edge_Energy = \frac{1}{(M - 2) \times (N - 2)} Σ_{i = 1}^{N - 2} Σ_{j = 1}^{M - 2} e^{2} (i, j) - - - (8)$

其中，E₁和E₂为两个3*3模板，具体取值： $E_{1} = (\begin{matrix} - 1 & - 1 & 1 \\ - 1 & 4 & - 1 \\ 1 & - 1 & - 1 \end{matrix}),$ $E_{2} = (\begin{matrix} 1 & - 1 & - 1 \\ - 1 & 4 & - 1 \\ - 1 & - 1 & 1 \end{matrix}) .$

过零率统计ZC：是反映图像边缘细节的特征量，通过比较相邻两个一阶差分的符号获取，对于水平和垂直方向的过零率分别统计。以水平方向的过零率计算为例，具体计算如下：先对每一行像素的亮度值进行一阶差分，然后比较相邻两个一阶差分的符号，如果相邻的两个一阶差分异号，则过零率的统计值就为1，否则为0。如下公式，

$Z_{h} = Σ_{i = 0}^{N - 1} Σ_{j = 1}^{M - 2} z_{h} (i, j) - - - (10)$

其中，Z_h为水平方向的过零率统计量，用同样的方法可以得到垂直方向的过零率统计量Z_v。将两者相加即可得到图像的过零率统计量(ZC＝Z_h+Z_v)。

这四个参数进行平均加权，可得到图像的第一个空间参数：模糊参数Blur_image(见图2)。计算公式如下：

${Blur}_{image} = \frac{{Activity}_{image} + Ave_Gradient + Edge_Energy + ZC}{4} - - - (11)$

熵Entropy_image：反映图像所含信息量大小的一个指标，计算方法如信息论中的熵求解公式。对亮度信息求解熵如下公式，

${Entropy}_{image} = Σ_{i = 1}^{L} p (x_{i}) \log_{2} \frac{1}{p (x_{i})} - - - (12)$

其中，L表示出现的灰度级的数目，p(x_i)表示该灰度级的概率(概率定义为该灰度级出现的次数除以图像的总像素数)，最后得到的Entropy_image就是整幅图像的熵值。

块效应Block_image：在视频编解码算法中，块效应所导致的伪边缘多表现为以8为周期的伪周期信号，因此可以从频谱上来对块效应进行分析。以水平方向为例，首先计算每行的一阶差分并求绝对值，如对第i行的求解公式如下，

f_i(j)＝|Y(i，j+1)-Y(i，j)| 0≤j≤M-2 (13)

如果块效应比较明显，则第i行信号f_i(j)中将有一个伪周期信号，周期为8。对f_i(j)进行补零，使其长度为2的整数次幂，得到f′_i(j)，然后对其进行快速傅立叶变换，并计算傅立叶系数的幅度谱，再对每一行都进行同样的操作，最后把所有行的傅立叶变换的幅度谱累加起来。这样就得到了一个水平方向的频域统计的数组，如下式

$F (n) = Σ_{i = 0}^{N - 1} FFT (f_{i}^{'} (j)), 0 \leq n \leq L - 1 - - - (14)$

设L为补零后的长度，对F(n)进行分析可以发现，如果块效应比较明显，则在F(n)长度的1/8倍数(L/8，L/4，L/2)的位置即特征频率位置上将出现峰值。块效应越明显，特征频率点的峰值越大，即周期为8的信号的强度越强。因为这些峰值的出现主要是由于块效应所造成的，所以反映在空间上为相邻块之间边缘的差距越大。在计算块效应程度时，可以在这些峰值可能出现的位置上进行分析，首先要确定它是个峰值，即该点的值大于左右两边的值；如果是峰值，则在该点进行中值滤波，滤波的窗口可以为3或者5，将峰值减去中值滤波后得到的值除以幅度谱的直流系数(F(0))，即得到反映图像的块效应在水平方向的特征值B_h。这样做主要是考虑人眼视觉特性中的掩蔽特性。因为在一阶差分后进行了取绝对值，所以直流系数越大，表明这一行像素间的相关性越小，即图像的变化越大，根据人眼的视觉特性，在边缘信息比较多的地方，即图像变化剧烈的地方，损伤就不容易被察觉。所以虽然相邻块边缘的差别一样，但是由于其块内的像素变化比较剧烈而变得不容易被察觉，而除以直流系数以后就可以更好的反应人眼的视觉特性。

将同样的方法用于垂直方向可得到块效应在垂直方向的特征值B_v，两者相加求平均即为总的块效应的特征值：

${Block}_{image} = \frac{B_{h} + B_{v}}{2} - - - (15)$

由于对每一行都进行傅立叶变换运算量比较大，比较耗时间，所以在此基础上做了进一步改进。还是以水平方向为例，在改进算法中，不是简单的对每行的一阶差分进行快速傅立叶变换，而是对若干行的一阶差分作累加后，再对累加的数组进行快速傅立叶变换，并计算傅立叶系数的幅度谱。在幅度谱的L/8的位置即特征频率位置按之前所介绍的方法进行分析，得到这几行的水平方向块效应特征值。对接下来的几行作同样的操作，并将所有水平方向的特征值相加求平均，即为块效应在水平方向的特征值。将几行累加起来再进行处理，一般为8-16行，可以反映一块区域的块效应程度，而不仅仅只是一行，这对于人眼视觉特性中的掩蔽特性来说，更为合理。按照同样的方法可以得到块效应垂直方向的特征值。改进后的方法在速度上有很大的提高，而且效果更好。在实验中，我们将16行的一阶差分累加后再进行快速傅立叶变换。

频域能量分析Fre_Energy：结合人类视觉系统(HSV)特性，考虑人眼对于图像中不同的频率分量有着不同的敏感程度，基于Mannos和Sakrison等人建立的对比度敏感函数(CSF)提取当前图像的频域能量分布特征。通过分析CSF特征曲线可以将多级带通滤波器，因此，在提取图像频域能量分布的过程中，可以先将图像分解为一组有方向性的带通滤波器，每个滤波器只对其中心频率附近一定区域内的空间频率和方向做出响应。在计算图像频域能量的时候，一般获取频域参数的DCT，FFT等变换均可用于分析图像的频域性质，但由于小波分解的数据结构与视觉感知的多通道特性有极大的相似性，因而我们这里采用小波变换作为分析工具。具体步骤如下：

对亮度图像进行四级小波变换，如图4(a)所示，在本文中，所使用的小波是W53小波，它的高通系数和低通系数分别为{0.25，-0.5，0.25}，{-0.125，0.25，0.75，0.25，-0.125}。对变化之后的小波系数的幅值分别进行统计，即求得同一级的小波幅值的平方和，并除以这一级的样点总数，得到的值即为这一级对应的频带上的能量E(Lx)，其中x取值为0，1，2，3，4。然后利用CSF的非线性带通特性，对小波分解后不同空间频带的小波系数进行加权，加权值为在相应频带内CSF曲线的平均值，见图4(b)。频域能量的计算如下式，

Fre_Energy即为得到图像的频域能量的分布特征。

Fre_Energy＝2.25×E(L0)+2.87×E(L1)+3.16×E(L2)+2.56×E(L3)+1.00×E(L4) (16)

在这个过程中，所得到的值反映的是图像中人眼敏感的成分所占的比例，如对于纯色的图像(只有最低频的分量)，或者全是噪声的图像(频域能量几乎全集中在最高频的部分)，人眼是不会看到什么感兴趣的内容的，当然也不会有敏感成分。

饱和度Chrome_image：图像质量在颜色上的损伤多表现为色度饱和度的下降。具体计算如下，利用图像像素的两个色度分量的模值，即计算U和V分量的平方和并求其平方根，再累加所有模值的统计结果，并除以色度分量的数目，即得到色度的饱和度。如下式所示，

${Chrome}_{image} = \frac{1}{M_{UV} \times N_{UV}} Σ_{i = 0}^{N_{UV} - 1} Σ_{j = 0}^{M_{UV} - 1} \sqrt{U^{2} (i, j) + V^{2} (i, j)} - - - (17)$

其中，U(i，j)和V(i，j)分别是图像第i行、j列色度信号所对应的色度取值，M_UV、N_UV是色度信号在水平和垂直方向像素数目。对于常见的四种色度采样格式，这两个变量的取值与M、N的关系如下：

当采样格式为4:4:4，M_UV＝M，N_UV＝N；

当采样格式为4:2:2， $M_{UV} = \frac{M}{2},$ N_UV＝N；

当采样格式为4:1:1， $M_{UV} = \frac{M}{4},$ N_UV＝N；

当采样格式为4:2:0， $M_{UV} = \frac{M}{2},$ $N_{UV} = \frac{N}{2};$

帧间差Diff_Frame：时间特征的提取，这是视频图像质量评价中一个很重要的参数。此特征求解基于前后两幅图像的亮度信息之差，如下式，

$Diff_Frame = \frac{Σ_{i = 0}^{N - 1} Σ_{j = 0}^{M - 1} | Y (i, j, t + 1) - Y (i, j, t) |}{M \times N} - - - (18)$

其中，变量t是视频序列的时间轴参数。帧间差这个参数求解的是，后一帧与前一帧对应像素的亮度差绝对值的平均信息。

特征提取模块输出的训练样本的六个特征参数作为人工神经网络的输入参数，同时，在训练过程中，还需要提供这些训练样本的主观评价结果，作为系统在训练阶段的期望输出数据。

附图说明

图1是视频质量评价系统的系统框图。

图2是特征参数提取模块的示意图。

图3是基于BP算法的人工神经网络框图。

图4是根据CSF曲线确定小波分解所得不同频带的对应加权系数的示意图。其中，图4(a)为四级小波变化后的不同空间频带及对应的加权系数的示意图，图4(b)为CSF曲线在相应空间频带加权值定义的示意图。

图5是测试序列进行客观评价的流程图。

图6是基于人工神经网络的视频评价算法的主界面。

图7是训练样本示意图。

图8是训练样本在测试过程中的主客观拟合性分析，其中横坐标是系统输出的客观评价结果，纵坐标是主观评价结果。

图9是测试样本示意图。

图10是测试样本在测试过程中的主客观拟合性分析，其中横坐标是系统输出的客观评价结果，纵坐标是主观评价结果。

具体实施方式

在图1的系统框图中，训练样本和测试样本均来自标准的视频测试序列，此类序列的选取应严格按照ITU-R BT.1210的标准，特别是训练样本。序列存储可采用YUV文件和其他标准形式。主观评价算法采用的是国际标准中的双刺激连续质量标度法，以DMOS(Difference Mean Opinion Score)作为样本所需的主观评价结果。此外，需要说明一点，在前面的系统框架及各模块介绍中，我们一帧图像作为一个基本的处理单元，但是对于隔行扫描的视频显示形式，计算的基本单位为一场，在处理过程中只对一帧画面的顶场进行上述处理即可。

视频质量评价主要通过软件来实现，包括特征参数提取、网络训练、输入序列的质量评价等。下面通过对高清晰度电视视频(以下简称“高清视频”)的客观评价来详细描述系统的实现过程。

本系统采用的是基于BP学习算法的多层神经网络，这里简称BP网络。

人工神经网络训练模块：如图3所示，本系统设计的BP网络只含有一个隐层；输入层定义六个输入节点，分别对应于六个特征参数；输出层只有一个节点，对应视频质量的评价结果，在训练阶段，此节点为期望输出，即对应训练样本的主观评价结果。这里定义的BP网络采用常规训练算法(最速梯度下降法)，这里不再详细介绍。训练好的人工神经网络即可实现对视频图像质量的客观评价，对于输入的测试序列，输入测试模块以检测该评价系统的性能。

测试模块：测试流程如图5所示。对于输入的测试序列，具体的实现步骤如下：

501：打开测试序列文件，准备读取图像数据；

502：读取当前帧F_C和下一帧F_N的图像数据；

503：提取前面定义的六项特征参数；

504：各特征参数分别求和，为计算整个序列的对应特征参数作准备；

505：判断F_N帧是否为本序列的最后一帧，如果是，转入506；如果不是，转入502；

506：根据序列的总帧数求解各特征参数的均值，即获取该序列对应的最终特征参数；

507：将上述求解的六个序列参数值作为人工神经网络的输入值，通过已训练好的网络计算输入序列的客观评价结果；

508：输出该测试序列视频质量的客观评价结果。

图6为系统主界面，可以实现待测量视频的预览、视频各项特征参数的计算、参数数据库的浏览，以及实现对测试序列的客观评价等操作。

首先我们选择满足测试要求的八段原始高清视频(YUV格式，4:2:0，10～14秒)，并通过MPEG2硬件编解码器获得8M、10M、12M、14M、16M、18M、20M和25M共八个压缩码流。加上未失真的原始序列，我们共有72个高清视频用于系统的建立与测试。

其次，我们通过双刺激连续质量标度法获取这些高清序列的主观评价结果。对于训练样本，主观评价结果作为模型训练过程中的期望输出，用于调整模型参数；对于测试样本，主观评价结果用于分析系统输出的客观评价结果的准确性，即通过计算主客观结果的相关系数，来判断该系统的评价性能。

训练过程：我们选择六个序列的所有码率作为训练样本集(该集合共54个训练样本)，六个训练序列的内容如图7所示。提取每个样本的六项参数、连同对应的主观评价结果一起存入参数数据库，用于神经网络的训练。在人工神经网络设计中，隐层的节点数定义为16个，动量因子0.95，学习率的初始值0.0001(在训练中会进行调整)，节点间连接权值的初始值为随机数。当满足训练终止条件时(目前实现中定义累计误差的阈值为0.0004)，模型训练完成。对于训练好的系统，我们再次输入训练样本，并分析系统输出的测量结果与主观评价结果的拟合程度，如图8所示，两组数据的相关系数为0.958。

测试过程：我们定义未参与训练的另外两个视频及其所有压缩码率作为测试样本集(共18个测试样本)，两个测试序列的内容如图9所示。同样地，先提取序列的六项参数，然后计算系统的输出评价结果，即客观评价结果。由于这些序列从未出现在训练过程中，因此，我们可以通过这个测试过程来评价系统在实际应用中的可靠性。图10给出了对于测试样本的图像质量，系统评价所得的客观评价结果与主观评价结果的相关性，即相关系数为0.930。

系统优势分析：基于人工神经网络的无参考视频质量客观评价系统可以有效结合公认的具有高可靠性的主观评价结果，因此能最大程度地拟合人眼视觉系统，使客观评价结果与主观评价结果具有较高的相关性。从而使得该系统可以在一定程度上取代费时、费力、成本昂贵的主观评价，这也是客观评价的意义所在。该系统在完成训练后，在实际的视频质量评价过程中不需要任何来自原始视频图像的数据，而仅仅在接收端即可实现对受损视频质量的快速准确测量，更进一步，该系统还可作为测量模块放在视频应用系统的多个中间环节上进行在线测试，以实现基于视频质量的应用系统规划和性能分析。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于人工神经网络的视频质量评价方法 [P] . 中国专利： CN100559881C . 2009.11.11
2. 一种基于特征融合和循环神经网络的无参考视频质量评价方法 [P] . 中国专利： CN110677639B . 2021.06.11
3. MULTIPLE LINEAR REGRESSION-ARTIFICIAL NEURAL NETWORK HYBRID MODEL FOR PREDICTING THE CRITICAL VOLUME OF PURE ORGANIC COMPOUNDS CAPABLE OF FORMING AN ARTIFICIAL NEURAL NETWORK OUTPUTTING THE CRITICAL VOLUME BASED ON THE VALUES OF MOLECULAR DESCRIPTORS CONTAINED IN A MULTIPLE LINEAR REGRESSION MODEL [P] . 韩国专利： KR20120085174A . 2012-07-31

机译：多个线性回归-人工神经网络混合模型，用于预测能够形成人工神经网络的纯有机化合物的临界体积，该纯神经化合物可以输出基于整数的基于整数的值的基于分子的临界体积
4. MULTIPLE LINEAR REGRESSION-ARTIFICIAL NEURAL NETWORK HYBRID MODEL FOR PREDICTING THE CRITICAL PRESSURES OF ORGANIC COMPOUNDS CAPABLE OF FORMING AN ARTIFICIAL NEURAL NETWORK OUTPUTTING THE ACENTRIC FACTORS BASED ON THE VALUES OF MOLECULAR DESCRIPTORS CONTAINED IN A MULTIPLE LINEAR REGRESSION MODEL [P] . 韩国专利： KR20120085167A . 2012-07-31

机译：多个线性回归-人工神经网络混合模型，用于预测能够形成人工神经网络的有机化合物的临界压力，所述人工神经网络输出的是基于多个因数分布的因数离散度的值
5. A method of providing product advertisement service based on artificial neural network on video content [P] . KR20210065374A . 2021-06-04

机译：一种基于人工神经网络在视频内容中提供产品广告服务的方法