公开/公告号CN103634600A
专利类型发明专利
公开/公告日2014-03-12
原文格式PDF
申请/专利权人 中国科学院声学研究所;
申请/专利号CN201210301141.8
申请日2012-08-22
分类号H04N19/147;H04N19/19;
代理机构北京法思腾知识产权代理有限公司;
代理人杨小蓉
地址 100190 北京市海淀区北四环西路21号
入库时间 2024-02-19 23:36:50
法律状态公告日
法律状态信息
法律状态
2020-08-07
未缴年费专利权终止 IPC(主分类):H04N19/147 授权公告日:20160928 终止日期:20190822 申请日:20120822
专利权的终止
2016-09-28
授权
授权
2014-04-09
实质审查的生效 IPC(主分类):H04N19/147 申请日:20120822
实质审查的生效
2014-03-12
公开
公开
技术领域
本发明涉及视频编码与通信领域,特别涉及一种基于SSIM评价的视频编码模式选择方法、系统。
背景技术
随着网络技术的快速发展,多媒体应用,特别是视频应用得越来越广泛。由于传输带宽的限制,视频编码与压缩对高效的视频通信起着重要的作用。H.264/AVC编码已经取得了很好的压缩性能和广泛的应用。H.264/AVC标准其较好地编码性能得益于它所采用的率失真优化(rate-distortion optimization,RDO)模型与一系列的编码模式等。所述率失真优化RDO中所采用的客观的失真描述方式(如SAD,MSE等)具有计算简单实现简单的优点,但其并不能很好的体现人的视觉特性,因此H.264/AVC中已有的RDO模型并没有很好的考虑到人类的视觉特性。
近年来的研究表明,主观视觉结构相似性SSIM在视频质量评价中相对于以往的失真评价方法在人类视觉特性匹配上具有一定的优越性。因此现有技术将主观视觉结构相似性SSIM引入到了H.264/AVC编码的预测模式和宏块模式选择中,实验结果表明主观视觉结构相似性SSIM的引入在一定程度上提高了编码性能,较以往的SAD等失真描述方式,在相同的码率下,更能够提高人视觉感知到的视频质量。
但是,虽然现有技术将主观视觉结构相似性SSIM作为RDO模式选择的失真度量被引入到了H.264/AVC的编码过程中,提高了编码后的重构视频的视觉感知质量,但目前的方法都引入了一定的计算复杂度,文献[Huang,Y.H.,Ou,T.S.,Su,P.Y.,Chen,H.:Perceptual rate-distortion optimization using structural similarity index asquality metric.IEEE Trans.CSV T,1614-1624(November 2010)]中,作者采用对关键帧重复编码两次的方式来预测以后几帧的拉格朗日因子,并不利于实时编码的应用。特别是在率失真优化模型中拉格朗日因子决策过程中,其与视频内容相关的特性,以及传统基于均方误差评价的率失真优化模型中拉格朗日因子的优势没有被很好的利用,导致现有技术并不能取得最优的编码性能。
发明内容
本发明的目的在于,解决如何利用SSIM指导,进行低复杂度主观率失真优化视频编码,提高视频编码的主观质量,即本发明提供一种基于SSIM评价的视频编码模式选择方法、系统。
为了实现上述目的,本发明提供了一种基于SSIM评价的视频编码模式选择方法,所述的方法包含:
步骤101)采用以下公式建立率失真优化模型,用于对每一个待编码的宏块获取其各种编码模式的拉格朗日代价值:
>
其中,J表示某种编码模式的拉格朗日代价值,
步骤102)根据当前待编码宏块所属帧的前两帧的基于SSE评价的失真值和基于SSIM评价的失真值之间比值的平均值,确定该帧的帧层次的拉格朗日因子
步骤103)依据获取的当前待编码宏块的
其中,所述编码模式包含:帧内16×16,帧内8×8,帧内4×4,帧间16×16,帧间16×8,帧间8×16,帧间8×8,帧间8×4,帧间4×8,帧间4×4,跳过模式以及直接模式。
上述技术方案中,所述步骤101)还包含:
用于获取每个宏块的基于SSIM评价的失真值
>
其中,n为待编码视频图像信号中的任意一帧的帧序号,m为该帧中的某个宏块的序号,fn,m为第n帧原始图像第m个宏块的图像信号,
上述技术方案中,步骤102)所述的帧层次的拉格朗日因子具体采用如下方式获取:
首先,按如下公式计算当前待编码宏块所属帧的前两帧的基于SSE评价失真值和基于SSIM评价的失真值的比值的预测值si′,其中i=2,3,4…:
>
>
其中,i表示帧序号;
然后,利用如下公式得到当前待编码宏块所属帧的帧层次的拉格朗日因子:
>
其中,
上述技术方案中,步骤102)所述的宏块层的拉格朗日因子具体采用如下方式获取:
首先,利用当前待编码宏块的前一帧中对应位置的宏块以及周围相邻宏块的码率分布情况预测当前宏块编码比特数,具体预测公式如下:
Bc=ρp·Bp+ρu·Bu+ρd·Bd+ρl·Bl+ρr·Br,
其中,Bc,Bp,Bu,Bd,Bl,Br分别表示当前待编码宏块c,当前待编码宏块c所属帧的前一帧中对应位置宏块p以及它周围的宏块u,d,l和r的编码比特数;ρp,ρu,ρd,ρl和ρr分别表示每一个宏块的权重,且它们满足ρp+ρu+ρd+ρl+ρr=1;
然后,通过预测的当前待编码宏块的编码比特数,估计当前待编码宏块在其所属帧中的视觉感知重要性Ic,且该重要性计算公式如下:
>
其中,AVG_Bp表示当前待编码宏块所属帧的前一帧的平均的宏块编码比特数,也表示当前待编码宏块所属帧的平均的宏块编码比特数的预测值;
最后,根据当前待编码宏块的视觉感知重要性值Ic,依据以下公式确定当前待编码宏块层的拉格朗日因子:
>
其中,
基于上述方法本发明还提供了一种基于SSIM评价的视频编码模式选择系统,所述系统包含:
模型建立及结果输出模块,用于采用以下公式建立所有待编码宏块的率失真优化模型,并根据该模型各参数的具体取值输出待编码宏块对应的各种编码模式的拉格朗日代价值:
>
其中,J表示待编码宏块对应的某种编码模式的拉格朗日代价值,
参数值确定模块,用于确定拉格朗日代价值所涉及的基于SSIM评价的失真值
编码模式选择决策模块,用于选取拉格朗日代价值最小的编码模式作为待编码宏块的编码方式对其进行编码。
上述技术方案中,所述参数值确定模块进一步包含:
基于SSIM评价失真和SSE评价失真值计算模块,用于对图像每一帧的SSIM失真值和SSE失真值进行计算;和
帧层次拉格朗日因子确定模块,用于利用当前待编码宏块所属帧的前两帧的SSE失真和SSIM失真比例的平均值,缩放拉格朗日因子得到帧层次的拉格朗日因子。
所述参数取值确定模块还包含:
宏块层的拉格朗日因子决策模块,用于利用当前待编码宏块所属帧的前一帧的对应宏块的码率预测当前待编码宏块在当前待编码宏块所属帧中的视觉重要性,进而对所述帧层次拉格朗日因子再一次进行缩放,作为宏块层的拉格朗日因子,并将该宏块层的拉格朗日因子作为计算拉格朗日代价值的拉格朗日因子值。和
基于待编码宏块的SSIM评价的失真值获取模块,用于依据下式计算该失真值:
>
其中,n为待编码视频图像信号中的任意一帧的帧序号,m为该帧中的某个宏块的序号,fn,m为第n帧原始图像第m个宏块的图像信号,
总之针对现有技术的问题,本发明提供一种视频编码中基于SSIM评价的低复杂度率失真优化模式选择方法、系统。
在第一方面,本发明实施例提供一种视频编码中基于结构相似性SSIM主观评价的低复杂度的率失真优化视频编码模式选择方法,所述方法包括:在编码过程中计算SSIM失真和SSE失真;利用待编码宏块所属帧的前两帧的SSE失真和SSIM失真的关系和当前编码帧基于SSE评价的传统率失真优化拉格朗日因子,决策当前待编码宏块所属帧的层次的拉格朗日因子;利用待编码宏块所属帧的前一帧编码的宏块码率预测当前待编码宏块在其所属帧中的视觉重要性,进而依据该视觉重要性调整当前编码宏块的拉格朗日因子;利用得到的当前编码宏块的拉格朗日因子进行率失真优化的编码模式选择,并进行编码。
在第二方面,本发明实施例还提供一种视频编码中的基于结构相似性SSIM主观评价的低复杂度率失真优化视频编码模式选择系统,所述系统包括:失真值计算模块,用于在编码端进行基于SSIM失真和SSE失真计算;帧层次拉格朗日因子决策模块,用于利用前两帧的SSE失真和SSIM失真之间的比例关系以及当前编码传统的基于SSE失真评价的率失真优化拉格朗日因子,计算当前帧的基于SSIM失真评价的拉格朗日因子;宏块层拉格朗日因子决策模块,用于在编码当前宏块时,利用该宏块所属帧的前一帧编码的宏块码率来预测当前编码宏块在当前帧中的视觉重要性,决策当前编码宏块的率失真优化拉格朗日因子;编码模式选择模块,利用得到的拉格朗日因子对待编码宏块的每种模式进行拉格朗日代价计算,然后选择拉格朗日代价最小的模式进行编码。
与现有技术相比,本发明的技术优势在于,本发明解决了在主观率失真优化编码中如何随着视频内容变化选择拉格朗日因子,同时不增加计算复杂度的问题。本发明能够快速的确定拉格朗日因子,增强主观率失真优化编码性能。最终本发明提供的视频编码中的低复杂度主观SSIM失真评价的率失真优化模式选择方法,能有效的提高视频编码的主观质量。
附图说明
图1-a是SSIM失真和SSE失真的关系示意图;
图1-b是SSIM失真和SSE失真的关系示意图;
图2是宏块编码的对应位置关系示意图;
图3是视频编码中基于主观SSIM失真评价的低复杂度率失真优化模式选择方法示意图;
图4是本发明的视频编码中基于主观SSIM失真评价的低复杂度率失真优化模式选择系统示意图。
具体实施方式
下面结合附图对本发明的技术内容作出如下详细阐述。
本发明提供了一种视频编码中基于SSIM评价的低复杂度率失真优化的模式选择方法,该方法通过计算SSIM失真和SSE失真,利用前后帧的内容相关性,在帧编码层次和宏块编码层次决策率失真优化的拉格朗日优化因子,进行率失真优化的编码模式选择,进而实现一种低复杂度的主观率失真优化模式选择编码方法,优化视频编码的主观质量。
本发明提供的一种视频编码中基于SSIM评价的低复杂度率失真优化模式选择方法,该方法计算SSIM失真和SSE失真,利用前后帧视频内容的相关性,计算前两帧的SSE失真与SSIM失真的比例关系,用这个比例关系来缩放传统的拉格朗日因子,作为当前编码帧的拉格朗日因子以进行编码中的码率与失真的均衡,进而选择最优的编码模式。为了在宏块编码层次进一步优化拉格朗日因子,本发明提出利用前一帧(即,帧级的比例关系是利用当前帧的前两帧进行估计,宏块级的宏块视觉重要性是利用当前帧的前一帧进行估计的)的编码宏块码率来预测当前待编码宏块所在帧中的视觉重要性,来继续缩放拉格朗日因子,所提出的方法包含以下步骤,
步骤1):利用传统基于SSE评价的拉格朗日因子编码第1帧,在编码过程中进行基于SSIM评价的失真计算和SSE失真计算,建立率失真优化模型。
其中,所述的基于SSIM评价的失真
>
其中,n为帧序号(该处只是待编码视频图像信号的第n帧中第m个宏块的SSIM失真的计算公式,不特指哪一帧),m为第n帧中对应某个宏块的宏块序号,fn,m为第n帧原始图像第m个宏块图像信号,
上述的SSIM(x,y)是表示图像块x和y之间结构相似性度量,可以按如下公式计算:
>
其中,μx和μy为图像块x和图像块y的均值,σx和σy为图像块x和图像块y的标准差,σxy为图像块x和图像块y之间的协方差。其中,所述图像块x和图像块y分别对应所述参量fn,m和参量
所述建立的率失真优化模型如下:
>
其中,J表示待编码宏块对应的某种编码模式的拉格朗日代价值,(本发明通过利用该代价的大小对候选的编码模式进行选择),
在后续第ith(i=2,3,4.....)帧编码时,在编码过程中进行基于上述的SSIM评价的失真计算和SSE失真计算。
步骤2):编码后续第ith(i=2,3,4.....)时,计算帧编码层次的拉格朗日因子。
首先,按如下公式计算当前编码帧ith(i=2,3,4.....)的前两帧的SSE失真和SSIM失真的比例关系的预测值si′:
>
>
其中,i表示帧序号;对第1帧,本发明采用传统的基于SSE评价的率失真优化编码,对s1直接进行计算;
然后,利用如下公式得到当前帧的拉格朗日因子:
>
其中,
步骤3):计算宏块编码层次的拉格朗日因子。
首先,利用当前编码宏块的前一帧中对应位置的宏块以及周围相邻宏块的码率分布情况来预测当前宏块编码比特数,具体预测如下:
Bc=ρp·Bp+ρu·Bu+ρd·Bd+ρl·Bl+ρr·Br,
其中,Bc,Bp,Bu,Bd,Bl,Br分别表示当前宏块c,前一帧中对应位置宏块p以及它周围的宏块u,d,l和r的编码比特数.;ρp,ρu,ρd,ρl和ρr分别表示每一个宏块的权重,且他们满足ρp+ρu+ρd+ρl+ρr=1(即,四者之和满足等于1的固定关系,其每个的值是经验设定的)。
通过预测的当前宏块编码比特数,估计当前宏块在整帧中的视觉感知重要性Ic,具体估计公式如下:
>
其中,AVG_Bp表示整帧(这里指当前帧的前一帧)中平均宏块的比特数,它代表了当前宏块所属帧的平均宏块的比特数的预测值。
然后,根据当前宏块的视觉感知重要性,宏块编码层次的拉格朗日因子决策如下:
>
其中,
最后,针对当前编码宏块的每个候选编码模式,利用以上描述的计算SSIM失真的方式计算其基于SSIM的编码失真,统计其编码码率,并利用以上得到的拉格朗日因子可得出该编码模式的拉格朗日代价,进而选择最小拉格朗日代价的编码模式作为当前宏块的编码模式进行编码。
本发明的优点在于可以实现一种视频编码中的低复杂度的基于主观失真评价的率失真优化方法,使得视频编码的主观率失真性能较好。本发明提供的率失真优化编码方法可以应用于快速的实时视频编码平台,特别是针对实时应用的硬件编码平台。
现有技术的率失真优化视频编码方法采用SSE(均方误差和)作为编码失真的评价标准,尽管SSE可以刻画信号方面的损失情况,但是并不能很好的反应人类视觉对视频质量的感知情况。SSIM作为结构相似性的评价准则,能够很好的体现人类主观视觉的感知情况。但是SSIM和视频内容有很大的相关性。并且传统的率失真优化拉格朗日因子对码率和SSE失真有很好的均衡效果。通过SSE失真和SSIM失真的比例关系,缩放传统的率失真优化拉格朗日因子可以很好的在帧编码层做到模式选择的优化效果。通过比较宏块的视觉感知重要性,在宏块编码层可以继续优化拉格朗日因子,提高编码的主观率失真效果。详细的拉格朗日因子决策过程参考附图3。
实施例
首先,利用传统的率失真优化拉格朗日因子编码第1帧,并计算SSE失真和SSIM失真的比例s1。当编码第2帧时,首先决定帧层的基于SSIM失真评价的率失真优化拉格朗日因子,然后决定宏块层的率失真拉格朗日因子,其中基于SSIM评价的失真计算具体步骤如下:
步骤1):在每一帧编码过程中进行基于SSIM评价的失真计算和SSE失真计算,建立率失真优化模型。所述基于SSIM评价的失真采用如下公式进行计算:
>
其中,n为帧号,m为宏块号,fn,m为第n帧原始图像第m个宏块图像信号,
所述的SSIM(x,y)是表示图像x和y之间结构相似性度量,可以按如下公式计算。
>
其中,μx和μy为x和y的均值,σx和σy为x和y的标准差,σxy为x和y之间的协方差。将fn,m和
所述率失真优化模型建立如下:
>
其中,J表示某种编码模式的拉格朗日代价值,
步骤2):计算帧编码层次的拉格朗日因子。
对于不同的视频序列,编码后的SSIM失真和SSE失真会随着帧的变化而变化,并不保持一个恒定的关系,参考附图1-a和图1-b,且图1-a和图1-b两个图分别展示了两个不同序列(Soccer和Football)在量化参数(QP)为37时的SSIM失真和SSE失真随着视频内容变化的变化情况。为了准确的预测当前帧的SSE失真和SSIM失真的比例关系,我们利用当前帧的前两帧的SSE失真和SSIM失真的比例平均值作为当前的SSE失真和SSIM失真的比例,且具体按如下公式计算当前编码帧ith(i=2,3,4.....)SSIM失真和SSE失真的比例关系的预测值si′,
>
>
其中,i表示帧序号。对第1帧,我们采用传统的基于SSE评价的率失真优化编码,对s1直接进行计算。
然后利用如下公式得到当前帧的拉格朗日因子,
>
其中,
步骤3):计算宏块编码层次的拉格朗日因子。
首先利用当前编码宏块的前一帧中对应位置的宏块以及周围相邻宏块的码率分布情况来预测当前宏块编码比特数。具体预测如下,
Bc=ρp·Bp+ρu·Bu+ρd·Bd+ρl·Bl+ρr·Br,
其中Bc,Bp,Bu,Bd,Bl,Br分别表示当前宏块c,前一帧中对应位置宏块p以及它周围的宏块u,d,l和r的编码比特数.ρp,ρu,ρd,ρl和ρr分别表示每一个宏块的权重,且他们满足ρp+ρu+ρd+ρl+ρr=1,经验的设定ρp=1/2,ρu=ρd=ρi=ρr=1/8。所述的上述宏块的位置关系参考如附图2所示。
通过预测的比特数Bc,我们来估计当前宏块在整帧中的视觉感知重要性Ic,估计公式如下:
>
其中,AVG_Bp表示整帧(这里指当前帧的前一帧)中平均宏块的比特数,由于前后帧的内容相关性很大,它也代表了当前待编码宏块所属帧的编码比特数的预测值。
根据当前宏块的视觉感知重要性Ic,宏块编码层次的拉格朗日因子决策如下,
>
其中,
最后,针对当前编码宏块的每个候选编码模式,利用以上步骤1)描述的计算SSIM失真的方式计算其基于SSIM的编码失真统计其编码码率R,并利用步骤1)建立的得到率失真优化模型可得出每个编码模式的拉格朗日代价,进而选择最小拉格朗日代价的编码模式作为当前宏块的编码模式进行编码。
图4是视频编码中的基于主观SSIM失真评价的低复杂度率失真优化模式选择系统示意图。所述系统包括:SSIM失真和SSE失真计算模块300,用于在编码每一帧时进行基于SSIM失真和SSE失真的计算,便于后续对传统拉格朗日因子进行内容自适应的缩放做准备;帧层次拉格朗日因子计算模块302,用于在帧编码这一层次初步决定拉格朗日因子;宏块编码层次拉格朗日因子计算模块304,用于在宏块编码是继续优化初步决定的拉格朗日因子,提高编码效率;宏块层编码模式选择模块306,利用上述模块得到的拉格朗日因子进行拉格朗日优化找到最优的编码模式进行编码。
总之,本发明提供的一种视频编码中基于主观视觉结构相似性(SSIM)评价的低复杂度的率失真优化模式选择方法。所述方法包括利用SSIM作为失真的评价标准,在编码模式决策过程中计算SSIM失真和SSE(均方误差和)失真;根据前后帧的内容相关性,利用当前编码帧的前两帧的SSE和SSIM失真之间的比例的平均值,在帧编码层次对传统的拉格朗日因子进行缩放作为当前帧编码的拉格朗日因子;通过计算前一帧对应位置的宏块在整帧中的视觉重要性,在宏块编码层次来调整当前编码宏块的拉格朗日因子;最后利用所得的拉格朗日因子对当前宏块进行编码模式选择。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元、器件可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 视频中每个宏块的最佳编码模式的选择方法和系统
机译: 移动通信系统中基于有限反馈的联合处理与编码模式选择方法及装置
机译: 基于块的编码系统的编码模式选择方法和装置。