法律状态公告日
法律状态信息
法律状态
2020-07-10
授权
授权
2018-07-24
实质审查的生效 IPC(主分类):H04N17/00 申请日:20180129
实质审查的生效
2018-06-29
公开
公开
技术领域
本发明涉及深海视频质量评价领域,具体涉及基于时空特征学习的深海视频客观质量评价方法,本方案通过对综合考虑深海复杂环境下拍摄的视频质量,根据深海视频质量主观评价结果,建立基于科学有用性语义度量的快速、准确的深海视频客观质量评价方法。
背景技术
图像/视频质量评价研究已有数十年的历史,建立了大量主、客观评价指标和方法。一些方法已经由ITU标准化,并被广泛应用于视频应用领域的各个方面。在水下图像/视频的质量方面,大量研究关注于水下图像增强和还原技术来提高图像可视性,方法包括:基于极化滤波补偿视觉损失、图像去雾Dehazing、色彩校正Color correction、基于几何学方法、基于多因素融合Fusion技术等
在一般视频质量主观评价领域,已建立了大量公开的主观质量评价数据集,如LIVE、EPFL-PoliMI等。这些数据库不仅是客观质量评价的基准,也为图像视频处理和优化算法提供了重要的数据来源。但是在水下视频质量主观评价方面,研究才刚刚起步。Moreno-Roldán等人在2015发表的论文中首次展示相关研究。他们根据ITU-T P.910标准ACR方法,雇用21名海洋、地质和生物方面的科学家,对56个水下视频场景的主观质量MOS和科学有用性(Scientific Utility)同时进行5级评分。
水下图像/视频的客观质量评估研究也非常有限。许多水下图像/视频增强技术沿用通用客观评价指标进行算法性能评估,如SNR和MSE、对比度准则等,有些使用直观图像对比,缺乏统一的标准和理论方法。Arredondo和Lebart提出了一套定量分析水下干扰图像质量的方法。通过在实验环境下系统化的仿真不同类型不同程度水下特定图像扰动建立模型,并应用于图像处理算法在水下条件的适用性评价,但是该方法对真实水下情况的适用性仍有待验证。在近期的一些研究中,Yang和Sowmya于2014年基于对比度对数功率谱以及块图像平均清晰度来计算灰度水下图像的质量度量模型CQ;进而于2015年首次提出了基于色差、饱和度和对比度线性组合的水下彩色图像质量度量模型UCIQE。2016年Lu等针对高浑浊水体中图像质量提出基于色彩和结构相似性的全参考质量评价指标Q。这些方法都是从图像质量的角度出发,仅考虑了空间信息上的补偿和差异,没有考虑视频时间动态性带来的质量变化。水下环境,特别是深海环境下,视频传输主要通过水声传感网络(USN)。受USN条件限制,传输带宽、时延、丢包等造成的数据损伤也是深海视频质量评价的关键。在ITU的推荐标准中,基于网络服务参数(码率、帧率和丢包率)的视频质量评价模型G.1070是为视频通话而设计的。Moreno-Roldán等人的一项早期实验显示这一模型对水下视频质量的预测与主观质量评分存在巨大差异。因此急需研究可靠的深海视频质量评价模型。
中国专利文献CN201310292740.2,申请日20130712,专利名称为:一种时空联合的无参考视频质量检测方法,通过码流感知评价由丢包引发的视频质量损伤,考虑视频的时域特性和空域特性,并将时域和空域联合,从而来评价图像质量,最后考虑人眼的视觉特征结合每帧图像的质量得到视频的质量。
上述专利文献解决的技术问题是:针对实时性要求高的网络视频传输,研究一种高效的视频质量检测方法。但是关于一种面向深海视频应用于海底探测和海洋科学研究领域所面临的质量需求,拟提出基于科学有性的深海视频质量客观评价新理论和新方法,提出一种基于科学有用性语义类别度量深海视频数据集下,结合深海视频特有的空间和运动特征分析与深度学习在图像分类中的理论思想结合的轻量级深度特征学习的深海视频质量客观评价模型的技术方案则无相应的公开。
综上所述,需要一种面向深海视频应用于海底探测和海洋科学研究领域所面临的质量需求,拟提出基于科学有性的深海视频质量客观评价新理论和新方法,提出一种基于科学有用性语义类别度量深海视频数据集下,结合深海视频特有的空间和运动特征分析与深度学习在图像分类中的理论思想结合的轻量级深度特征学习的深海视频质量客观评价模型。而关于这种视频质量评估模型目前还未见报道。
发明内容
本发明的目的是针对现有技术中的不足,提供一种面向深海视频应用于海底探测和海洋科学研究领域所面临的质量需求,拟提出基于科学有性的深海视频质量客观评价新理论和新方法,提出一种基于科学有用性语义类别度量深海视频数据集下,结合深海视频特有的空间和运动特征分析与深度学习在图像分类中的理论思想结合的轻量级深度特征学习的深海视频质量客观评价模型。
为实现上述目的,本发明采取的技术方案是:
一种基于时空特征的深海视频质量客观评价模型,所述的评价模型包括以下步骤:
步骤S1、深海视频样本集进行时间域学习,提取基于时间域维度的特征向量;
步骤S2、深海视频样本集进行空间域学习,提取基于空间域维度的特征向量;
步骤S3、时间域和空间域的特征融合,构成最终的深海视频质量分类的数据集;
步骤S4、半监督深海视频质量分类器分类;
步骤S5、深海视频质量客观评价模型建立。
将质量评价看作分类问题,构建针对深海视频特点的时、空间特征学习和特征融合网络及分类器,基于标记和未标记深海视频质量评价样本集,采用半监督学习训练并生成客观评价模型。
步骤S1、深海视频样本集进行时间域学习,提取基于时间域维度的特征向量;
步骤S11、假设两层DCT卷积层的滤波器大小均为k×k,则输入视频帧
步骤S12、选择一组DCT基变换,与边界补零后的输入帧卷积,产生与输入同等大小的输出
这里,p=1,2,...pl,pl是l层的滤波器数量,
步骤S13、对第二层的每个输出矩阵都进行二值处理,得到只包含整数和零的矩阵,然后对其进行二值化哈希编码
步骤S14、对产生的图像分成B个不重叠块,统计并级联其直方图特征。
为适应不同分辨率输入视频,可通过固定滤波窗口与图像分辨率的比例,动态调整滤波器尺寸。
步骤S2、深海视频样本集进行空间域学习,提取基于空间域维度的特征向量。
基于DCT卷积结合LSTM方案
步骤S21、首先将视频帧转换为灰度图像;
步骤S22、计算相邻帧之间的光流得到位移向量;
步骤S23、步骤S2、位移向量经横向和纵向分解,形成一个的光流矩阵,其中为视频分辨率;
步骤S24、用与空间特征学习相同的DCT卷积神经网络实现对时间特征进行自动学习;
步骤S25、LSTM学习捕获当前运动对一定时间内连续运动的影响(或相关性);
步骤S26、得到时间维度深海视频特征向量。
基于近、中、远时间相关生三维DCT卷积方案
步骤S21、分别计算当前帧与相邻,,之间的光流向量,建立对近、中、远期
三个时间段的运动相关性矩阵
步骤S22、采用DCT滤波卷积网络学习其时间特征
步骤S3、时间域和空间域的特征融合,构成最终的深海视频质量分类的数
据集
主要通过正则化神经网络实现时空联合特征的学习。
步骤S31、假设训练视频样本总数为N,其第i个样本经过DCT卷积层后可以被表达为一个三元组
步骤S32、以g(·)表示神经网络输入与输出间的映射函数,神经网络训练的最终目标可以定义为最小化下面的损失函数
其中,第一项以经验损失函数衡量(分类或者回归)模型对第i个样本的预测值g(Xi;W)和真实的标签yi之前的误差,最小化训练误差。为减小模型测试误差小,第二项利用F范数规则化来避免过拟合。进一步考虑将两组特征整合为统一的特征表达,第三项以L2范数规则表示参数间的相关性,函数中,
步骤S4、半监督深海视频质量分类器分类
假设已标记样本集Dl={A1,A2,...,Al},未标记的样本集为Du={B1,B2,...,Bu},已标
记样本的总量远小于未标记样本量l<<u。自训练法的基本步骤是:
步骤S41、用Dl中的少量标记样本训练分类器h;
步骤S42、用训练好的模型对未标记数据Du样本分类;
步骤S43、选择若干分类置信度最高的未标记样本
步骤S44、重复以上步骤直到满足某个停止标准。
步骤S5、深海视频质量客观评价模型建立
结合考虑深海视频压缩编码冗余性导致的模型效率问题以及提升模型鲁棒
性,本发明提出简单的解决思路如下:
步骤S51、以10s为一个视频质量判断区间,因为主体一般在10s内对视频质量做出评价,且这个长度可包含足够丰富内容信息。
步骤S52、分别为空间和时间特征学习设置N1,N2个输入层结点。本发明取N1=30,是10s帧率30fps视频总帧数N的十分之一,首先确定视频中的关键帧数量Nk及其位置,因为视频关键帧包含大量信息。在关键帧之间按一定间隔r取N1-Nk个中间帧,由关键帧和选择的中间帧共同组成输入数据。这样,即保留了最重要的信息也减少信息冗余。
步骤S53、对于时间特征学习在确定关键帧后,每组近、中、长期光流运动帧的提取要在两个关键帧之间进行。那么,当接近下一关键帧时,帧间的中、长期运动相关性可能无法获得,此时可直接重复近期运动相关性或补零,这也反映当前帧出对未来帧的影响减弱或消失。
步骤S54、针对不同帧率的适应性,需要对输入帧进行缩放。当总帧数N小于等于N1,N2时(例如,帧率为2,N=20),所有帧按顺序输入,剩余输入结点补零;当总帧数N大于N1,N2时,根据帧数计算中间帧选择时的间隔r,公式如下。更优化的方法是同时考虑关键帧相对位置,动态调整每段关键帧之间的中间帧选取间隔。
本发明优点在于:
1、本发明的一种基于时空特征的深海视频质量客观评价模型,建立深海视频质量客观评估模型,提供面向公众的客观质量评价服务。将实现对各类水下图像/视频增强算法应用于深海视频质量的改善效果进行评估,提高基于深海视频研究的工作效率。
2、在深海视频空间特征学习过程中,将UV分量合并为一个通道,该通道大小与Y通道一致,提高了算法效率。
3、通过固定滤波窗口与图像分辨率的比例,动态调整滤波器尺寸,适应不同分辨率输入视频。
4、通过实验,可对各层DCT滤波器数量和扫描策略等进行优化,提高学习精度和速度。
5、通过省略最低频率分量或平均值的DC分量可以改善所提取的特征相对于全局照明变化的鲁棒性。
6、为了降低S中错误标记样本的影响,一是提高标记过程(ii)中对未训练样本集的预测可靠性,例如,以抗噪性好的多重直推法(multifold transduction)分类器或者通过归纳式分类器多重交叉验证产生高置信度的预测。二是优化(iii)中
7、能够利用冗余性降低计算复杂度,设计巧妙。
8、在关键帧之间按一定间隔r取N1-Nk个中间帧,由关键帧和选择的中间帧共同组成输入数据。这样,即保留了最重要的信息也减少信息冗余。
9、能够对输入帧进行缩放,适用于不同帧率。
10、根据帧数计算中间帧选择时的间隔r时,优化的方法是同时考虑关键帧相对位置,动态调整每段关键帧之间的中间帧选取间隔。
附图说明
附图1是本发明的一种基于时空特征的深海视频质量客观评价模型的流程框图。
附图2是具体展示了空间维度特征学习网络示意图。
附图3为时间维度特征学习网络示意图
具体实施方式
下面结合附图对本发明提供的具体实施方式作详细说明。
请参照图1,图1是本发明的一种基于时空特征的深海视频质量客观评价模型的流程框图。一种基于时空特征的深海视频质量客观评价模型,所述时空特征的深海视频质量客观评价模型包括以下步骤:
步骤S1:深海视频样本集进行时间域学习,提取基于时间域维度的特征向量。
本发明基于DCTNet结构学习深海视频帧的空间信息特征,遵循三级谱直方图流水线:利用主成分分析(PCA)学习多级滤波器组,然后进行非线性二值化和编码,最后以块方式直方图进行特征池化。它能产生PCA高排名特征向量的良好近似,且没有数据依赖性。具体理论依据如下:
请参照图2,图2是具体展示了空间维度特征学习网络示意图。假设两层DCT卷积层的滤波器大小均为k×k,输入视频帧
这里,p=1,2,...pl,pl是l层的滤波器数量,
接下来,对第二层的每个输出矩阵都进行二值处理,得到只包含整数和零的矩阵,然后对其进行二值化哈希编码
最后,为适应不同分辨率输入视频,可通过固定滤波窗口与图像分辨率的比例,动态调整滤波器尺寸。此外,通过实验,可对各层DCT滤波器数量和扫描策略等进行优化,提高学习精度和速度。例如,省略最低频率分量或平均值的DC分量可以改善所提取的特征相对于全局照明变化的鲁棒性。
步骤S2、深海视频样本集进行空间域学习,提取基于空间域维度的特征向量。
视频随时间变化呈现出的主要形态为运动,包括了视频中对象的运动和背景的变化。为了对视频在时间维度上的高层特征进行学习,需要将视频的运动图层转化。光流法一种常用的方法,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来计算出相邻帧之间物体的运动信息的一种方法。本发明首先将视频帧转换为灰度图像,通过计算相邻帧之间的光流得到位移向量,再经横向和纵向分解,形成一个m×n×2的光流矩阵,其中m×n为视频分辨率。
请参照图3,附图3为时间维度特征学习网络示意图:基于DCT卷积结合LSTM方案(左),基于近、中、远时间相关性三维DCT卷积方案(右)。本发明对深海视频的时间特征进行自动学习采用的网络有两种方案,一种是基于DCT卷积结合LSTM方案,基于光流法的图层转换只能表示短时运动特性,而长短期记忆网络(LSTM),可以有效学习长期依赖关系,很好的表达出长时运动特性。在学习短时运动特征的基础上应用LSTM学习能够捕获当前运动对一定时间内连续运动的影响(或相关性)。另一种是基于近、中、远时间相关生三维DCT卷积方案。
步骤S3、时间域和空间域的特征融合,构成最终的深海视频质量分类的数据集。
独立学习的时间、空间维度特征需经过有效特征融合学习,产生更高层的联合特征表达用于质量分类,该联合特征既要利用时空相关性,又要保留独有特征信息。本发明拟通过正则化神经网络实现时空联合特征的学习。
假设训练视频样本总数为N,其第i个样本经过DCT卷积层后可以被表达为一个三元组
以g(·)表示神经网络输入与输出间的映射函数,神经网络训练的最终目标可以定义为最小化下面的损失函数
其中,第一项以经验损失函数衡量(分类或者回归)模型对第i个样本的预测值g(Xi;W)和真实的标签yi之前的误差,最小化训练误差。为减小模型测试误差小,第二项利用F范数规则化来避免过拟合。进一步考虑将两组特征整合为统一的特征表达,第三项以L2范数规则表示参数间的相关性,函数中,
步骤S4、半监督深海视频质量分类器分类;
本发明基于自训练法(self-training)半监督学习解决深海视频客观质量分类问题。
假设已标记样本集Dl={A1,A2,...,Al},未标记的样本集为Du={B1,B2,...,Bu},已标记样本的总量远小于未标记样本量l<<u。
自训练法的基本步骤是:
(i)用Dl中的少量标记样本训练分类器h;
(ii)用训练好的模型对未标记数据Du样本分类;
(iii)选择若干分类置信度最高的未标记样本
(iv)重复以上步骤直到满足某个停止标准。
自训练法虽然简单,但缺点是当底层分类精度不足,特别是初始标记的数据稀疏时,S中可能包含错误分类的样本,这些误标记样本在其后的训练过程中会产生严重噪声积累问题。解决这一问题的关键是降低S中错误标记样本的影响。对应于自训练法的步骤,解决思路包括两方面:
一是提高标记过程(ii)中对未训练样本集的预测可靠性,例如,以抗噪性好的多重直推法(multifold transduction)分类器或者通过归纳式分类器多重
交叉验证产生高置信度的预测;
二是优化(iii)中
步骤S5、深海视频质量客观评价模型建立
视频客观质量评价模型设计的一个重要问题是效率。以30帧/秒的帧率计算,一个10s的视频片断由300帧图像序列构成,若以图像方式逐帧对视频进行处理,计算量大巨大。然而,视频连续帧之间存在大量时空冗余信息,这种冗余性也是视频压缩编码的理论基础,因此本发明充分利用这种冗余性降低计算复杂度。模型设计的另一个重要问题是鲁棒性。深海视频在不同拍摄条件下,画面分辨率、帧率均不同,要求模型能够适应这些变化做出客观质量评价。
针对这两方面的问题,简单的解决思路如下:
(1)以10s为一个视频质量判断区间,因为主体一般在10s内对视频质量做出评价,且这个长度可包含足够丰富内容信息。
(2)分别为空间和时间特征学习设置N1,N2个输入层结点。本发明取N1=30,是10s帧率30fps视频总帧数N的十分之一,首先确定视频中的关键帧数量Nk及其位置,因为视频关键帧包含大量信息。在关键帧之间按一定间隔r取N1-Nk个中间帧,由关键帧和选择的中间帧共同组成输入数据。这样,即保留了最重要的信息也减少信息冗余。
(3)对于时间特征学习在确定关键帧后,每组近、中、长期光流运动帧的提取要在两个关键帧之间进行。那么,当接近下一关键帧时,帧间的中、长期运动相关性可能无法获得,此时可直接重复近期运动相关性或补零,这也反映当前帧出对未来帧的影响减弱或消失。
(4)针对不同帧率的适应性,需要对输入帧进行缩放。当总帧数N小于等于N1,N2时(例如,帧率为2,N=20),所有帧按顺序输入,剩余输入结点补零;当总帧数N大于N1,N2时,根据帧数计算中间帧选择时的间隔r,公式如下。更优化的方法是同时考虑关键帧相对位置,动态调整每段关键帧之间的中间帧选取间隔。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。
机译: 一种视频质量客观评估的方法和装置
机译: 基于连续丢包可见性估计的客观视频质量评估方法和装置
机译: 基于小波变换的立体视频质量客观评估方法