首页> 中国专利> 基于残差宏块自适应下采样立体视频压缩编码方法

基于残差宏块自适应下采样立体视频压缩编码方法

摘要

基于残差宏块自适应下采样立体视频压缩编码方法,通过对立体视频左右视点视频信息时间、空间相关性及左右视点间相关性分析,采用基于联合补偿预测的立体视频编码方案。其中,根据人眼视觉抑制理论——构成立体视频图像对的两幅图像,高分辨率图像能够抑制低分辨率图像中的模糊部分,最终获得的立体感觉主要依赖于高分辨率图像。基于此理论,本发明提出了一种基于残差宏块下采样方法,根据图像不同方向的运动情况,分别采用三种下采样方式,减小采样失真度。然后根据立体视频编码中运动补偿预测、视差补偿预测和联合补偿预测三种不同的预测模式,来判断当前编码块的运动剧烈程度,实现了自适应的残差宏块下采样方法,提高了编码效率。

著录项

  • 公开/公告号CN101668205A

    专利类型发明专利

  • 公开/公告日2010-03-10

    原文格式PDF

  • 申请/专利权人 南京邮电大学;

    申请/专利号CN200910035493.1

  • 申请日2009-09-25

  • 分类号H04N7/26(20060101);H04N7/50(20060101);H04N13/00(20060101);

  • 代理机构32200 南京经纬专利商标代理有限公司;

  • 代理人叶连生

  • 地址 210003 江苏省南京市新模范马路66号

  • 入库时间 2023-12-17 23:31:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-10-29

    专利权的转移 IPC(主分类):H04N7/26 变更前: 变更后: 登记生效日:20141011 申请日:20090925

    专利申请权、专利权的转移

  • 2011-04-20

    授权

    授权

  • 2010-04-28

    实质审查的生效 IPC(主分类):H04N7/26 申请日:20090925

    实质审查的生效

  • 2010-03-10

    公开

    公开

说明书

技术领域

本发明涉及到立体视频信号的编码压缩方法,尤其是涉及视频信号的时间相关性与立体视频信号左右视点间相关性分析的基于残差宏块下采样的视频信号压缩方法。

背景技术

在下一代视频技术中,立体视频作为一种比普通视频提供更多信息内容和具有更多数据量的数字媒体,因其具有强烈的立体感和纵深感特性越来越受到人们的关注。尤其是进入21世纪,人们对视频信息的感受逐渐地从模拟、平面视频转化到数字、立体视频。数字化的立体视频在数字电影、数字电视、自动导航、虚拟现实等领域将有着广阔的应用前景。立体视频信息编码理论和技术的研究体现了下一代数字视频研究领域的方向发展。

立体视频是利用人眼的双目视差原理,让双目各自独立地接收来自同一场景、特定摄像点的左右眼图像,从而获取具有深度感的信息。由于人眼双目各自独立接收信息,因此与单目视频相比,它在给人们带来真实感受的同时,也带来了一系列问题,最为明显的就是数据量和处理复杂程度的成倍增加,使得立体视频在远程通信、信息存储、信息处理等应用领域面临巨大考验。如在有限带宽的条件下,不采用任何技术处理的立体视频信息远程传输几乎是不可能的。因此,高效的立体视频信息编码技术是立体视频走向实际应用的关键。

由于立体视频通过双目同时得到物体的两幅图像而使用户产生深度的感觉,或者说,双目所得到的图像是同一场景、同对象在同一时刻的左右眼图像,其信息具有高度的相关性。除了单目视频信息所具有的时间相关、空间相关等相关性之外,更为重要的是存在双目视差。于是,便可对左右通道视频图像采用分层编码的思想和具体不同的编码策略,如对左眼得到的图像(或称左通道图像)采用传统的基于运动补偿预测的帧间预测编码和帧内变换编码相结合的混合编码技术来处理,并将左通道信息作为基本层码流;而对右眼得到的图像(或称右通道图像)采用传统的混合编码和消除视差相关性编码的联合补偿预测编码技术,并将右通道信息作为增强层码流,同时使得左右通道码流很容易做到与H.264编码标准兼容,从而大大减少立体视频信息之间的冗余,使得立体视频信息压缩编码后具有实际应用的价值。虽然采用对右视点图像序列采用联合补偿预测的编码模式进行编码,但最终形成的立体视频的数据量相对于现有网络带宽而言还是很大,并且根据人眼的视觉抑制理论——人的3D感觉是通过相距为瞳孔长度的双眼获得图像在大脑皮层进行融合成一个图像时,一只眼睛的视觉特性受另外一只眼睛的视觉特性抑制,两只眼睛融合的图像主观质量接近与两只眼睛的平均质量,同时并指出高分辨率图像能够抑制低分辨率图像中的模糊部分。基于这个理论,本发明采用一种新的立体视频的压缩算法来降低立体视频的数据量。

发明内容

技术问题:本发明所要解决的技术问题是提供一种基于残差宏块自适应下采样立体视频压缩编码方法,在不降低编码质量的同时,提高编码的效率。

技术方案:本发明基于残差宏块自适应下采样立体视频压缩编码方法是,将编码器设置成视频预测编码模块、全局视差计算模块、采样模式判决模块、残差图像下采样编码模块和解码图像上采样重建模块共四个功能模块,对左右视点的视频序列采用非对称的视频编码方法,即右视点采用联合补偿预测编码,该方法处理流程包括以下步骤:

步骤1:对输入的立体视频信号,对左视点视频序列不考虑视差估计模块,而是直接采用基于运动补偿预测编码和离散余弦变换编码相结合的H.264多模式多参考帧编码方案进行编码,并且进行重建,

步骤2:对于右视点视频信号,首先判断出每个图片组中的立即刷新帧,然后对该立即刷新帧图像的残差宏块采用直接离散余弦变换的编码方法,即不需要对残差宏块进行下采样,同时在全局视差计算模块中计算立即刷新帧图像的全局视差,并以次全局视差作为每个图片组中的每个帧的全局视差,

步骤3:对右视点视频信号中的每个图片组中除立即刷新帧之外的图像采用基于运动补偿预测和视差补偿预测编码相结合的联合补偿预测方案,对当前编码块的编码预测模式进行估计,右视点视频图像块编码预测模式为视差补偿预测模式,或运动补偿预测模式,或联合补偿预测模式中的其中一种模式,

步骤4:通过获得的编码预测模式和全局视差的值束判断当前编码块选择其中一种下采样编码模式,下采样编码模式有水平下采样编码模式、垂直下采样编码模式和四分之一下采样编码模式,

步骤5:通过步骤4得到的下采样编码模式,首先对残差宏块进行下采样,然后进行离散余弦变换、量化和熵编码,

步骤6:为重建图像,需要对码流进行解码重建时采用反量化,反离散余弦变换,然后对解码对图像进行选择其中一种上采样重建方式进行重建;上采样重建模式与下采样编码方式对应,有水平上采样方式、垂直上采样方式和水平垂直的2倍上采样方式。

其中:

左右视点的视频序列采用非对称的视频编码方法,左视点视频序列不考虑视差估计模块。

在全局视差计算模块中充分利用每个图片组的立即刷信息减少视差估计的误差。

右视点视频的图像块编码预测模式为视差补偿预测模式,或运动补偿预测,或联合补偿预测模式中的其中一种,利用运动补偿预测模式、视差补偿预测模式或联合补偿预测模式的特点,获得残差宏块的编码预测模式,并用来判断图像块的运动剧烈程度。

获得的编码预测模式和全局视差的值作为残差宏块下采样方式选择的条件之一。

对码流进行解码重建时采用反量化、反余弦变换,并对变换之后图像数据进行上采样重建。

本发明针对立体视频的高数据量,提出了基于残差宏块自适应下采样立体视频压缩编码框架,根据图像的运动剧烈程度自适应的对残差数据进行动态的下采样,在减少图像数据的同时,降低由于下采样的引入带来的图像的失真。

有益效果:与现有技术相比,本发明的优点在于利用人眼的视觉特性,并根据运动剧烈程度选择下采样方式,通过自适应的残差宏块下采样算法来降低立体视频的编码数据量,但同时又不降低右眼的图像质量,能很好地与当前的单目视频更好的兼容。

附图说明

图1为残差宏块下采样视频编码框图,

图2水平下采样编码方法,

图3垂直下采样编码方法,

图4四分之一下采样编码方法,

图5全局视差的计算图,

图6自适应选择下采样模式算法流程图,

图7基于残差宏块自适应下采样中booksale序列部分的率失真曲线图,

图8基于残差宏块自适应下采样中soccer序列部分的率失真曲线图。

方法1:联合多视点视频参考模型;方法2:四分之一下采样方法;方法3:水平下采样方法;方法4:垂直下采样方法;方法5:自适应下采样方法。

具体实施方式

将编码器设置成视频预测编码模块,全局视差计算模块,采样模式判决模块,残差图像下采样编码模块和解码图像上采样重建模块共四个功能模块。①在编码的初始,先对左视点视频信号采用传统的基于H.264多模式多参考帧编码方案进行编码,并且进行重建,用作右视点信号的参考帧。②对于右视点视频信号,首先判断出每个GOP组中的IDR帧,对IDR帧图像采用原始的编码方法,即不需要对残差宏块进行下采样,同时计算IDR帧的全局视差——相对于左视点的同时刻图像的整体运动,并作为GOP组中其它帧的全局视差。对每个GOP中的除IDR帧之外的图像采用联合补偿预测方案对当前块的估计模式进行判断,估计模式为视差估计、运动估计和联合估计中的一种。③通过获得的估计模式和全局视差的值来判断当前块何种下采样方式。④通过判断得到的采用模式,对残差宏块进行下采样,然后进行DCT变换、量化和熵编码。⑤为重建图像,需要对量化后的图像进行反量化,反DCT变换,然后对解码图像进行上采样重建。

所述的视频预测编码模式可以分为三大类,第1类为适用于以时间相关性为主的立体视频信号的预测编码模式,该类预测编码模式以运动补偿预测为主;第2类为适用于以视点间相关性为主的立体视频信号的预测编码模式,该类预测编码模式以视差补偿预测为主;第3类为适用于时间相关性和视点间相关性均衡的立体视频信号的预测编码模式,该类预测编码模式为兼顾时、空域的联合预测编码模式。

所述的全局视差计算模块是对右视点中的每个GOP中的IDR帧图像全局视差相对于左视点的同时刻图像的整体运动,并将计算的全局视差作为整个GOP组的全局视差。

所述的采样模式判断模块是首先判断当前块的预测编码模式,然后通过预测编码模式和所算得的视差值与全局矢量相比来判断当前块的残差采用何种下采样方式。

所述的残差图像上下采样模式中,是通过所获得当前块的残差采样模式,对当前编码块的残差进行下采样,然后进行DCT变换、量化和熵编码。对反量化,反DCT变换后的数据进行相应的上采样用于图像的重建。

图1中为残差宏块下采样视频编码框图,相对于基于分层的视频编码方案,主要是增加了残差宏块的上下采样模块。在基于分层的立体视频编码过程中,左视点图像采用H.264标准编码。右视点图像经过联合补偿预测的多模式编码方案,从中选择预测误差较小的一种预测方式获取残差数据,并对16×16残差数据块进行4×4DCT变换、量化和熵编码。在基于残差宏块编码算法中,先对残差宏块进行下采样,同时可以根据图像的运动情况使得16×16大小的残差宏块自适应被下采样为8×8、8×16或者16×8的块,然后再进行DCT变换、量化和熵编码。这样原来对一个残差宏块需要进行16次DCT变换、量化和熵编码将减少为4次或8次,最终视频的码率将会降低。对右视点的当前帧进行重建或解码过程与编码过程相反,对解码后的数据进行反量化和反DCT(IDCT)变换后,再经过上采样模块使其还原为16×16大小的残差宏块,然后根据运动搜索的信息进行块重建。

图2中为水平下采样模式,为了减少图像的失真度,我们利用宏块间的空间相关性,对残差宏块进行整体水平下采样。16×16亮度残差宏块被下采样为8×16的块,对下采样后的8个4×4的块进行DCT变换、量化和熵编码。

图3中为垂直下采样模式,16×16残差宏块被下采样为16×8的块,对下采样后的8个4×4的块进行DCT变换、量化和熵编码。

图4中为垂直下采样模式,16×16残差宏块被下采样为16×8的块,对下采样后的8个4×4的块进行DCT变换、量化和熵编码。

图5中为全局视差的计算图,它主要是假定左右两幅图像的移动主要是相机的整体的平行移动,以降低编码的计算复杂度。

平行相机的参数模型可以设为:

u=x+a0

v=y+b0

其中(u,v)为左视点图像的像素值,(x,y)为右视点图像的像素值。(a,b)为相机的全局运动矢量值。GDVx和GDVy为相机的水平移动分量和垂直移动分量,即全局视差的水平分量和垂直分量。具体计算公式为:

>(GDVx,GDVy)=minx,y[Σi,jR|img0(i,j)-img1(i-x,j-y)|R]---(1)>

其中img0(i,j)为0视点图像的像素值,img1(i,j)为1视点图像的像素值。R为0视点图像和1视点图像重叠部分的像素个数。当在单位面积上的差值最小时的(x,y)即为全局矢量的值。特别对于水平移动的相机,其在y分量上值可以看作为零。

图6中为自适应选择下采样模式算法的流程图。其算法步骤为:

(1)首先判断当前块的补偿模式;

(2)如果采用运动补偿预测的话,就直接采用用8×8下采样方式;

(3)如果是视差补偿预测,通过与全局视差的比较来判断是前景图像还是背景图像,如果是前景图像通过比较视差矢量在水平方向上的值与垂直方向上的值的大小,如|GDV.x-CDV.x|>1且|GDV.y-CDV.y|>1,则为前景图像块,其中CDV为当前块的视差矢量。对于前景图像块,可以根据其运动方向的不同采用不同的采样方式。如果水平分量大,则采用8×16下采样模式,如果是垂直分量大,则采用16×8下采样模式。但如果是背景图像,则直接采用8×8下采样模式。

(4)如果是联合补偿预测,则表明当前块是图像的边缘区域,则按照原来的块尺度进行编码,而不需要进行任何下采样。

(5)根据模式选择的结果,对当前宏块进行相应的下采样,并对采样后的图像进行残差编码。

图7、8为采用基于残差宏块自适应下采样中测试序列的率失真曲线图。其中左视点图像由于采用相同的编码方法,所以R-D曲线图只是代表右视点图像编码的率失真曲线。其中JMVM为原始编码方法得到的实验结果,JMVM_RQ为四分之一残差宏块下采样方法得到的实验结果,JMVM_RH为水平残差宏块下采样方法得到的实验结果,JMVM_RV为垂直残差宏块下采样方法得到的实验结果,JMVM_ADAPTIVE为自适应残差宏块下采样方法得到的实验结果。从Booksale和soccer的率失真图中可以看出,与JMVM算法相比,本算法在相同的信噪比情况下有更低的码率。Booksale视频图像主要是缓慢的水平运动,并且在水平方向运动的比垂直方向上剧烈,所以垂直下采样模式比水平采样模式有较好的效果,并且由于Booksale图像有很多的背景区域,采用的运动估计的比例占大部分,所以四分之一下采样模式有更好的效果。但是对于soccer图像而言,图像运动比较剧烈,所以采用的运动估计的比例相对来讲比较小,且由于相机和图像一起运动,相邻帧之间运动较剧烈,所以四分之一下采样模式具有更大的失真。但对两幅序列而言,根据图像的运动情况来自适应的选择采样模式,都具有更好的率失真曲线图。

综上所述,与现有技术相比,本发明的优点是利用运动估计、视差估计和联合估计作用的不同特征点,以及全局视差的应用来判断当前块的运动剧烈程度,选择适当的下采样方式来减少数据量的同时不降低视频的图像质量。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号