首页> 中国专利> 基于感兴趣区域的快速降尺寸转码方法

基于感兴趣区域的快速降尺寸转码方法

摘要

基于感兴趣区域的快速降尺寸转码方法,属于计算机数字视频转码技术领域。本发明步骤:(1)获取输入H.264编码码流中的编码信息,包括:帧间编码模式、运动矢量和离散余弦变换系数;将CIF格式像素的视频降尺寸为QCIF格式,即176像素×144像素;(2)根据图像纹理特征,利用运动边缘检测划分运动区域和背景区域;(3)对位于不同区域内的宏块,根据其运动特征采用相应的帧间模式;对位于运动区域的宏块,根据其运动差异性分别选择自适应运动矢量下采样方法或者最严重加权法进行运动矢量重建,对位于背景区域的宏块采用平均加权法进行运动矢量重建,对位于运动目标边缘和内部的宏块进行运动搜索。本方法既能够保证转码后视频质量,又解决了降尺寸转码实时性问题。

著录项

  • 公开/公告号CN102510496A

    专利类型发明专利

  • 公开/公告日2012-06-20

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN201110312504.3

  • 发明设计人 贾克斌;吕卓逸;刘鹏宇;

    申请日2011-10-14

  • 分类号H04N7/26(20060101);H04N7/50(20060101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人刘萍

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-12-18 05:38:43

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-11-13

    授权

    授权

  • 2012-07-18

    实质审查的生效 IPC(主分类):H04N7/26 申请日:20111014

    实质审查的生效

  • 2012-06-20

    公开

    公开

说明书

技术领域

本发明属于计算机数字视频转码技术领域,具体涉及一种基于感兴趣区域针对H.264编码标准的视频进行降尺寸转码的方法。

背景技术

随着视频编码技术和网络技术的发展,基于网络的多媒体通信,如视频会议,Internet视频点播,数字电视等已被广泛应用于社会和人们的日常生活中,在个人多媒体设备上接收和播放高清晰数字视频的服务受到人们的青睐。由于网络种类的多样性,如Internet网、电信网和蜂窝无线网等,终端设备性能,如显示分辨率、处理能力和存储能力等的差异以及视频编码标准,如MPEG2、MPEG4、H.264等的不同,使得提高视频流在不同应用环境之间的兼容性变得十分重要。为了解决网络带宽与接收终端显示材料的限制,原始的高分辨率视频码流往往需要被转换为适合接收端显示的低分辨率码流之后进行传输,由此引入了降低空间分辨率的视频转码技术。

同类视频转码,尤其是基于H.264编码标准的视频转码成为近年来国内外研究的热点。H.264/AVC是一个面向未来IP和无线环境下的视频压缩标准,它采用多模式的帧内预测,可变块尺寸的运动预测,以及更精细像素的运动估计与补偿有效地减少图像序列空间和时间冗余,在视频压缩效率方面比目前所有的视频压缩标准都有显著的提高。由于运动估计和运动补偿需要占用H.264编码中60%的编码时间,显然,如果在转码中重新对宏块进行运动矢量预测和修正,计算量太大,难以满足实时性要求。为此,利用输入码流中的信息来减少计算量,提高转码速度是一个有效的途径。在帧间模式选择方法的研究中,提出过利用残差宏块和边缘块亮度值,以及利用DCT域内低频的三个变换系数来提前判决帧间预测模式。LEE J和JEON B提出一种结合帧内预测与帧间预测的快速模式选择方法。利用平均加权法、最佳加权法和最严重加权法计算新运动矢量可以有效降低重新编码的计算量,但是当宏块运动较分散时会造成转码质量下降。FUNG K T等人提出一种运动矢量重估计的体系结构AMVR-DIM,利用运动矢量的多样性和宏块的重要性来控制目标宏块的重编码模式。针对视频序列运动程度的不同,尤其是场景和物体剧烈运动的情况,目前方法的适用范围仍然受到一定局限,应用效果不是十分理想。

发明内容

本发明的目的是充分利用输入编码码流中的编码信息,解决宏块运动不一致造成的运动预测不精确的问题,提出一种基于感兴趣区域的对于不同运动程度的视频都具有较高转码质量的快速降尺寸转码方法。

为了解决上述技术问题,本发明提供了一种基于感兴趣区域的快速降尺寸转码方法,其特征在于:利用输入H.264编码码流中的编码信息,将视频数据基于图像纹理特征利用运动边缘检测划分为运动区域和背景区域,对位于不同区域内的宏块根据其运动特征采用相应的转码策略,具体包括下述步骤:

1)获取H.264编码码流中的编码信息,包括:帧间编码模式,运动矢量和离散余弦变换系数,即DCT系数;将CIF格式,即352像素×288像素的视频降尺寸为QCIF格式,即176像素×144像素;

2)利用DCT系数,通过如下公式得到运动边缘:

式中表示向下取整运算,i代表原始视频中与当前宏块对应的上、下、左、右四个相邻宏块,DCTi表示宏块i不为零的DCT系数的个数,通过垂直、水平方向逐行的块搜索,在降尺寸后的视频各帧中标记每行最左端和最右端该值大于0的当前宏块位置,以及每列最上端和最下端该值大于0的当前宏块位置,由各帧中被标记的宏块组成运动边缘序列;

3)根据步骤2)得到的运动边缘序列,将各帧图像分为运动区域和背景区域,分别采用不同的帧间模式选择方法和运动矢量重建及修正方法进行转码。

在本发明所提供的基于感兴趣区域的快速降尺寸转码方法中,所述的帧间模式选择方法包括下述步骤:

对位于运动区域内的宏块,计算其运动程度MAi

>MAi=14Σi=03(|mviv|+|mvih|)>

式中,mvih,mviv代表宏块MBi在水平和垂直方向上的运动矢量。

将MAi与预设的高低两个阈值TA_low=16和TA_high=32进行比较。如果MAi≤TA_low,则从四个候选模式,即原始视频中与当前宏块对应的上、下、左、右四个相邻宏块的模式中选择属于大块模式,即属于16×16,16×8和8×16三个中的模式,并分别计算其率失真代价,然后选择率失真代价最小的模式作为最终编码模式。如果没有16×16,16×8或8×16三个中的任何一种模式则选用残差最大,即原始视频中与当前宏块对应的上、下、左、右四个相邻宏块中不为零的DCT系数个数最多宏块的模式作为最终编码模式。

如果TA_low<MAi≤TA_high,则从原始视频中与当前宏块对应的上、下、左、右四个相邻宏块的模式中选择属于小块模式,即属于8×8,4×8,8×4和4×4四个中的模式,并分别计算其率失真代价,然后选择率失真代价最小的模式作为最终编码模式。如果没有8×8,4×8,8×4,4×4四个中的任何一种模式则选用残差最大,即原始视频中与当前宏块对应的上、下、左、右四个相邻宏块中不为零的DCT系数个数最多宏块的模式作为最终编码模式。

如果MAi>TA_high,则选择帧内预测模式Intra 16×16和Intra 4×4,并分别计算其率失真代价,选择率失真代价最小的模式作为最终编码模式。

对位于背景区域内的宏块,如果原始视频中与当前宏块对应的上、下、左、右四个相邻宏块的模式中有不少于2个直接复制模式,即SKIP模式,则选择SKIP模式作为最终编码模式。否则选用残差最大,即原始视频中与当前宏块对应的上、下、左、右四个相邻宏块中不为零的DCT系数个数最多宏块的模式作为最终编码模式。

在本发明所提供的基于感兴趣区域的快速降尺寸转码方法中,所述的运动矢量重建及修正方法包括下述步骤:

对于位于运动区域的宏块,利用计算方差的方法定义当前宏块MBj的运动差异性difj

>difj=Σi=03(mvih-mvh)2+(mviv-mvv)2>

其中,i代表原始视频中与当前宏块对应的上、下、左、右四个相邻宏块,mvih和mviv分别为宏块i水平及垂直方向上的运动矢量,和分别为原始视频中与当前宏块对应的上、下、左、右四个相邻宏块水平及垂直方向上的运动矢量平均值;通过将当前宏块的运动差异性与差异性平均值的比较设置差异性因子MDj

>MDj=high,difj1NΣj=0N-1difj1low,difj1NΣj=0N-1difj<1zero,difj=0>

其中,N为一帧中的宏块数量。

如果MDj的值为high,则表明原始视频中与当前宏块对应的上、下、左、右四个相邻宏块的运动较分散,采用自适应运动矢量下采样,英文名称为Adaptive Motion Vector Re-sampling,缩写为AMVR的方法重建运动矢量mv’:

>mv=12Σi=03mviDCTiΣi=03DCTi>

其中,mvi为原始视频中与当前宏块对应的上、下、左、右四个相邻宏块的运动矢量,DCTi分别为原始视频中与当前宏块对应的上、下、左、右四个相邻宏块不为零的DCT系数的个数。

如果MDj的值不为high,采用最严重加权法,英文名称为Align-to-worstWeighting,缩写为AWW的方法重建运动矢量mv’:

>mv=12mvMAX{DCTi,i=0,1,2,3}>

其中,mvMax{DCTi,i=0,1,2,3}表示选取原始视频中与当前宏块对应的上、下、左、右四个相邻宏块中不为零的DCT系数个数最多宏块的运动矢量。

在获得重建的运动矢量后,以重建的运动矢量为搜索中心,在±2像素的范围内进行运动搜索,最终获得最匹配的运动矢量。输出降尺寸转码后的码流。

对位于背景区域的宏块,采用平均加权法,英文名称为Align-to-averageWeighting,缩写为AAW的方法重建运动矢量mv’:

>mv=12Σi=03mvi4>

其中,mvi为原始视频中与当前宏块对应的上、下、左、右四个相邻宏块的运动矢量。直接将重建的运动矢量作为最终的运动矢量,并输出降尺寸转码后的码流。

本发明的有益效果在于,所提出的方法既能够保证转码后视频质量,又有效解决了降尺寸转码实时性问题,取得了更优的编码效果和更广泛的适用性。

附图说明

图1是将CIF格式的视频降尺寸为QCIF格式视频示意图,图a是CIF格式的视频,图b是QCIF格式的视频。图b中当前宏块MB和图a中上、下、左、右四个相邻宏块A、B、C和D相对应;

图2是降尺寸后视频和原始视频中对应帧的残差图,以及降尺寸后视频中当前宏块和原始视频中对应的上、下、左、右四个相邻宏块的示意,图a是CIF格式的图像残差图,图b是QCIF格式的图像残差图;

图3是图像行方向边缘宏块搜索示意图;

图4是图像列方向边缘宏块搜索示意图;

图5是本发明采用的基于感兴趣区域的快速降尺寸转码方法整体流程图;

图6是本发明采用的帧间模式选择方法的流程图;

图7是本发明采用的运动矢量合成及修正方法的流程图;

图8是Foreman序列实验结果PSNR-Bitrate曲线图;

图9是Paris序列实验结果PSNR-Bitrate曲线图;

图10是Silent序列实验结果PSNR-Bitrate曲线图;

图11是耗费运算时间的实验结果对比图。

具体实施方式

本发明提供了一种基于感兴趣区域的快速降尺寸转码方法,其具体实施例详细步骤如下:

采用H.264/AVC的测试模型JM12.2,实验平台采用Visual C++6.0。首先将CIF格式,即352像素×288像素的视频降尺寸为QCIF格式,即176像素×144像素;其次对CIF格式视频在JM12.2上编码再解码,在解码过程中读取编码信息并将其写入TXT格式的外部文件中,在对降尺寸以后的视频进行编码时通过读取外部文件获得编码信息;然后调用本发明中提到的方法来完成对降尺寸视频具体的编码工作。每个序列选取前50帧进行转码,编码方式采用首帧为帧内编码,后续帧为帧间编码。

具体实施中,在计算机中完成以下程序:

第一步:读取txt文件中的编码信息,包括:帧间编码模式,运动矢量和离散余弦变换系数,即DCT系数;将CIF格式的视频降尺寸为QCIF格式。

第二步:计算原始视频中与当前宏块对应的上、下、左、右四个相邻宏块不为零的DCT系数个数的均值。

第三步:在垂直和水平方向上进行逐行的块搜索,在降尺寸后视频各帧中标记每行最左端和最右端不为零DCT系数个数的均值大于0的宏块位置,以及每列最上端和最下端该值大于0的宏块位置,由各帧中被标记的宏块组成运动边缘序列。

第三步:根据以上得到的运动边缘序列划分出各帧图像的运动区域与背景区域,对位于运动区域和背景区域的宏块采用不同的帧间模式选择和运动矢量重建与修正策略。

第四步:帧间模式选择按照如下步骤进行:

对位于运动区域内的宏块,计算其在原始视频中对应的上、下、左、右四个相邻宏块运动矢量的均值,与预设的高低两个阈值进行比较,在本发明中低阈值设为16,高阈值设为32,大于高阈值则通过率失真优化算法从帧内预测模式Intra 16×16和Intra 4×4中选取最优编码模式;该值界于高低阈值之间,则通过率失真优化算法从原始视频中与当前宏块对应的上、下、左、右四个相邻宏块模式中属于8×8,4×8,8×4,4×4四个模式中选取最优编码模式;该值小于低阈值,则通过率失真优化算法从原始视频中与当前宏块对应的上、下、左、右四个相邻宏块模式中属于16×16,16×8,8×16三个模式中选取最优编码模式;否则采用原始视频中与当前宏块对应的上、下、左、右四个相邻宏块中不为零的DCT系数个数最多宏块的编码模式;

对位于背景区域的宏块,如果原始视频中与当前宏块对应的上、下、左、右四个相邻宏块模式中有不少于2个的SKIP模式,则采用SKIP模式作为最终编码模式,否则采用原始视频中与当前宏块对应的上、下、左、右四个相邻宏块中不为零的DCT系数个数最多宏块的编码模式。

第五步:按照如下步骤进行运动矢量重建:

对位于运动区域内的宏块,计算其在原始视频中与当前宏块对应的上、下、左、右四个相邻宏块运动矢量的方差,并定义为宏块的运动差异性,与此帧中宏块运动差异的均值比较,如果大于均值说明原始视频中与当前宏块对应的上、下、左、右四个相邻宏块运动较分散,利用不为零的DCT系数个数对原始视频中与当前宏块对应的上、下、左、右四个相邻宏块的运动矢量进行加权计算合成新的运动矢量。

如果运动差异性小于均值说明原始视频中与当前宏块对应的上、下、左、右四个相邻宏块运动一致,利用原始视频中与当前宏块对应的上、下、左、右四个相邻宏块中不为零的DCT系数个数最多宏块的运动矢量作为新的运动矢量。

在获得重建的运动矢量后,以重建的运动矢量为搜索中心,在±2像素的范围内进行运动搜索,最终获得最匹配的运动矢量。最后输出降尺寸转码后的码流。

对位于背景区域的宏块,采用平均加权法计算运动矢量。最后输出降尺寸转码后的码流。

为了验证本发明所提出方法的普遍适用性和高效性,以下给出实验结果。实验选取3个具有不同运动程度的CIF格式的测试序列,分别为Silent.yuv,Foreman.yuv和Paris.yuv序列,将其缩减为QCIF格式视频。每个序列选取前50帧进行转码,编码方式采用首帧为帧内编码,后续帧为帧间编码。

将本发明所提出的基于感兴趣区域的快速降尺寸转码方法,与全搜索转码,以及在现有方法中转码效果最好的最严重加权法在编码质量和编码效率两方面进行转码效果的比较。

由图8,9,10所示的PSNR-Bitrate曲线可以看出,与全搜索转码相比,最严重加权法的编码质量下降严重。本发明方法,对于不同运动程度的视频序列在PSNR方面比最严重加权法算法有平均0.1dB至0.2dB的提高。

图11所示的是耗费运算时间的比较,可以看出,全搜索转码的运算复杂度非常大,因此降低转码中运动估计占用的运算时间是解决转码实时性问题的关键因素。最严重加权法方法可将编码速度平均提高97.20%,本发明方法编码速度平均提高96.73%,而转码后的图像质量要比使用最严重加权法方法有很大提高。综合考虑编码质量和编码速度双方面的因素,本发明方法在有效解决了降尺寸转码实时性问题的同时,与现有方法相比,取得了更优的编码效果和更广泛的适用性。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号