首页> 中国专利> 基于运动向量外推及运动向量搜索的视频差错掩盖方法

基于运动向量外推及运动向量搜索的视频差错掩盖方法

摘要

本发明公开了一种基于运动向量外推及运动向量搜索的视频差错掩盖方法。当发生传输差错时,对视频解码时存储的正确运动向量信息按运动趋势进行外推,以外推宏块与受损区域的重叠面积估算出受损图像块(8×8像素)运动向量,进行图像差错掩盖。当受损区域周围存在正确信息时,可以与边框匹配以及运动向量搜索优化相结合,得到最优的运动向量估算值,以此进行更为精确的掩盖。该方法可有效地掩盖和恢复丢失及损坏的视频图像信息,甚至当整帧图像丢失或损坏时,仍能够较为满意地得到恢复。利用本发明方法能显著地提高视频传输的可靠性,改善视频图像的质量,尤其适合于具有较差传输性能的PSTN或无线信道。

著录项

  • 公开/公告号CN1455596A

    专利类型发明专利

  • 公开/公告日2003-11-12

    原文格式PDF

  • 申请/专利权人 西南交通大学;

    申请/专利号CN03117377.2

  • 发明设计人 彭强;杨天武;诸昌钤;

    申请日2003-03-03

  • 分类号H04N7/24;H04N7/64;H04N7/32;H04M1/00;

  • 代理机构51208 成都博通专利事务所;

  • 代理人陈树明

  • 地址 610031 四川省成都市二环路北一段111号

  • 入库时间 2023-12-17 15:01:15

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2010-08-04

    未缴年费专利权终止 IPC(主分类):H04N7/24 授权公告日:20060809 申请日:20030303

    专利权的终止

  • 2006-08-09

    授权

    授权

  • 2005-08-10

    实质审查的生效

    实质审查的生效

  • 2003-11-12

    公开

    公开

说明书

所属技术领域

本发明属于数字视频通信领域,尤其涉及公共电话交换网(PSTN)、无线移动通信等低速率及恶劣环境下的数字视频传输的差错掩盖与恢复技术。

背景技术

当前,公共电话交换网(PSTN)和移动通信环境下的可视电话研究正在引起国内外的广泛关注,然而,由于目前数字视频电话所采用压缩技术和标准都是以运动补偿预测编码(Motion Compensation Prediction)以及变长编码(VariableLength Coding)作为压缩的核心技术,用这类技术压缩后的数据流在极易发生干扰的环境中传输时,信息丢失产生的影响会迅速地在时间和空间上扩散,从而导致视频质量明显下降,甚至产生极差的视觉效果。目前已有许多差错控制技术用来对抗视频传输干扰影响,其中,差错掩盖(Error concealment)技术便是在解码器中广泛采用的一种改善视频效果的方法。

从已有的研究成果来看,差错掩盖技术可分为空间掩盖和时域掩盖两种。

当视频图像受损区域为帧内(Intra)编码时,可用其周围的空域(spatial)信息或频域(frequency)信息进行插值掩盖,但这类技术容易产生明显的“块状”现象,不易恢复图像的细节。

当受损区域为帧间(Inter)编码时,则主要采用时域(temporal)掩盖,即根据周围正确的运动向量信息来估算并恢复差错丢失的图像信息。时域掩盖处理过程分为“运动向量(Motion Vector,简称MV)估算”和“补偿替代”两个阶段,其成功的关键是如何正确地找出受损图像块的运动向量。

目前,受损运动向量的估算主要是利用空间的相关特性。例如,当运动向量损坏或丢失时,可将运动向量设为零,进行简单地时域替代(Temporal Replacement,简称TR),它对于相对静止的区域,如背景等,效果很好,但对快速运动的区域效果极差。丢失的运动向量也可用其周围邻块运动向量的平均值(Average,简称AV)或中值(Median)来估计,或用其上下、左右、对角等方向的插值来替代。这些方法在平滑的运动区域效果很好,但在非平滑的运动区域,如不同方向的运动、物体边界等,则掩盖效果较差。

边界匹配(Side Matching)技术是一种较好的运动向量估算方法,它以边界匹配失真度(Side Match Distortion)最小为准则,从一组候选运动向量中选择最合适的运动向量。这种用图像受损区域边界的连续性来判断运动向量的主要优点是运动向量估算基于失真度测量,缺点是在具有特殊纹理的运动区域以及物体边界处,容易造成掩盖失败。

上述这些方法,主要是利用受损宏块(Macroblock,简称MB)与其周围邻近宏块的运动向量具有一定的相关性这一特征,当受损宏块周围运动向量正确时较为有效。但如果连续多行的宏块受损或整帧图像丢失,则上述方法会失效,通常只能采取简单的时域掩盖方法。在基于IP的Internet视频应用或移动通信环境中,数据丢失率通常都很高,在这种情况下,多个宏块损坏甚至一帧图像受损都是有可能发生的。由于实时视频传输的限制,这些受损的图像又不可能采用重新传送的方法来恢复。

本发明的目的是提出一种基于运动向量外推及运动向量搜索的视频差错掩盖方法,它能在连续多行的宏块受损或整帧图像丢失情况下进行视频图像的差错掩盖,恢复受损图像,克服现有技术的不足,提高数字视频电话传输的图像质量。

发明内容

本发明解决其技术问题,所采用的技术方案是:

一种基于运动向量外推及运动向量搜索的视频差错掩盖方法,由接收端视频解码的差错检测、运动向量外推、时域掩盖等步骤组成,其特点是:差错检测前,存储记录下当前帧所有的运动向量;当差错检测发现传输差错时,将图像受损区域划分成8×8像素的受损块;然后再进行运动向量外推;具体方法是:

如果编码器是以16×16像素的宏块进行编码,则将参考帧中所有16×16像素的宏块运动向量外推,依照其运动趋势得到外推预测宏块;判断外推预测宏块与受损块之间重叠的面积,重叠面积最大的外推宏块的运动向量设为受损块的运动向量,从而估算出受损块的运动向量;如果编码器是以8×8像素的块进行编码,则将块的运动向量进行外推,得到外推预测块,将其运动向量设为受损块的运动向量,从而估算出受损块的运动向量;

根据上述步骤估算出的运动向量,用参考帧中的相应位置的图像块替代损坏的图像块。

本发明的有益效果是:基于时域外推的块掩盖方法,在连续多行的宏块受损或整帧图像丢失情况下,利用参考帧的有效信息,较好地解决了整个图像帧丢失时的掩盖问题,可以明显地提高数字视频图像传输的可靠性,改善图像的显示效果;并且本发明与H.26X标准兼容,适用范围广。

上述的基于运动向量外推及运动向量搜索的视频差错掩盖方法,当受损或丢失图像区域在相邻空间上存在正确接收到的信息时,可与边框匹配相结合,优化预测估算出的运动向量,其具体作法是:

将受损块周围正确块的运动向量、受损块在参考帧中对应位置及其周围相邻的正确运动向量,以及估算出的受损块的运动向量,组成候选运动向量集合;从候选运动向量集合中依次选择一个运动向量,在参考帧中得到相应位置的图像块,将图像块四周边界向外扩展1到2个像素,形成边框;并将受损图像块边框与所形成的图像块边框进行匹配,边框匹配最好的一个运动向量为优化后的运动向量。

上述基于运动向量外推及运动向量搜索的视频差错掩盖方法,还可对优化后的运动向量通过搜索再进行最优选择,即根据优化后的运动向量,在参考帧中确定出补偿块的中心位置,作为起始点;运用全搜索或快速搜索原则,对其周围一定范围内的所有相邻象素点进行搜索,依据边框匹配原则最终确立最优的运动向量。

运用运动向量搜索和边框比配方法,在一定程度上克服了在物体边界上产生不正确替代的缺点,进一步改善图像的显示效果。

附图说明:

下面结合附图和具体实施方式对本发明作进一步详细描述。

图1是本发明实施例的流程框图

图2是实施例的外推运动向量及插值预测宏块示例。

图3是实施例的最大的重叠区域和估算的块运动向量示意图。

图4是实施例的候选运动向量集示意图。

图5是实施例的基于块的边框匹配示意图。

图6是实施例的视频测试序列“Foreman”在115帧丢失整帧以及不同丢包率情况下各种掩盖方法客观性能比较。

图7是实施例的视频测试序列“Foreman”第115帧全部丢失,进行差错掩盖后,扩散到第118帧的主观图像质量。

图8是实施例的视频测试序列“Foreman”15%的丢包率下,进行差错掩盖后的第86帧的图像效果。

实施例:

在数字视频电话系统实现解码时,首先需要考虑可能出现的各种信息干扰和丢包问题,增加大量异常控制,如,判断数据包的时间戳或序号是否正确,或判断每个编码基本单位的运动向量是否超出了可能的范围、接收到的压缩编码数据是否超出规定范围、判断解码时查表入口地址是否为非法、解码后的数据是否正常、每个数据块中的个数是否大于正常等等。在基于包的传输中一旦发生传输干扰,则整个数据包都会被丢弃;在基于数据流的传输中,当解码器确定发生差错后,通常不可能精确地确定差错发生的实际位置,只能在数据流中向前搜索,寻找有别于正常视频数据的重同步字,一旦找到,解码器便又重新得到同步。在这两个同步字之间,则不得不丢弃部分数据信息。无论何种情况,都必须采用差错掩盖技术来弥补丢失的数据。

当发现数据丢失后,对于帧内编码图像,则进行空域或频域掩盖;

对于帧间编码图像,由于连续的视频图像帧之间具有很强的相关性,前面帧中所表现的物体运动,通常会在后续帧中继续沿着原方向运动,只有在运动物体出现、消失、或视频场景切换时才会例外。因此,当图像区域甚至整帧图像丢失时,本发明就是利用此规律来估计和恢复运动向量,进而进行时域掩盖恢复,改善图像质量的。

图1示出了本发明实施例处理步骤:

视频解码时(差错检测前),存储记录下当前帧所有的运动向量;差错检测发现传输差错时,进行运动向量外推,依照其运动趋势得到外推预测宏块,将外推预测宏块与受损块之间重叠的面积最大的外推宏块的运动向量设为受损块的运动向量,作为估算出的运动向量;当周围图像块正确时,进行边框匹配以及运动向量搜索;然后根据最优运动向量进行时域掩盖。

具体来说,本实施例详细过程如下:

差错检测前,存储记录当前帧运动向量(只需记录一帧图像的运动向量);发现传输差错时,为了更加精确地补偿和掩盖,将图像受损区域划分成8×8像素的受损块,以块作为掩盖的基本单元;然后再进行运动向量外推,如图2所示。

当编码器是以16×16像素的块进行编码,则将参考帧中所有16×16像素的宏块运动向量外推,依照其运动趋势得到外推预测宏块;判断外推预测宏块与受损块之间重叠的面积,重叠面积最大的外推宏块的运动向量设为受损块的运动向量,从而估算出受损块的运动向量,如图3所示。举例来说,假设MB 29在较短时间内以恒定不变的平移速度从第n-2帧运动到第n-1帧,再外推至第n帧,由此在第n帧中建立起外推预测宏块。根据外推预测宏块占据受损块的面积,即统计重叠区域中像素的个数,受损块的运动向量便可以确定。如果受损块与所有的外推预测宏块都不重叠,则该块的运动向量设为等于其左边块的运动向量。如果是图像左边界的块或帧内编码块,则其运动向量设置为0。

当编码器是以8×8像素的块进行编码,则将块的运动向量进行外推,得到外推预测块,将其运动向量设为受损块的运动向量,从而估算出受损块的运动向量;

根据以上步骤估算出的运动向量,用参考帧中的相应位置的图像块替代损坏的图像块。

当受损或丢失图像区域在相邻空间上存在正确接收到的信息(即图像受损部分不是整幅图像)时,可与边框匹配相结合,优化预测估算出的运动向量,充分利用周围正确区域的信息,进一步提高掩盖块的正确性,具体步骤包括:

a)将受损块周围正确块的运动向量、受损块在参考帧中对应位置及其周围相邻的正确运动向量,以及估算出的受损块的运动向量,组成候选运动向量集合;

通常情况下,受损块左右的数据都不可靠,为此,在选择候选MV时,按如下方案选择:对于当前帧:选受损块上、下6个块的运动向量,再加上本块估算出的运动向量;对于参考帧:对应位置及其周围9个块的MV;候选运动向量集中共计16个,如图4所示。

b)从候选运动向量集合中依次选择一个运动向量,在参考帧中得到相应位置的图像块,将图像块四周边界向外扩展1到2个像素,形成边框,如图5所示。

已有的一些研究文献提出的边界匹配原则是判断受损宏块周围相邻象素与掩盖替代的运动补偿宏块边界象素之间误差最小(即连续性最好),其缺点是不能较好地保证物体边缘的连续性。为此,本发明方法对基于块的边界匹配,采用了修改的边界匹配原则。即不再判断受损块边界是否连续,而是将参考帧中的运动补偿块周围扩大1-2个象素宽度(称为边框匹配),判断这些边框与当前帧中受损图像块周围是否最匹配(平均方差最小,简称MSE)。同时,适当考虑周围相邻块的正确程度,对于正确的相邻块的MSE给以较大的权值。

c)将受损图像块边框与所形成的图像块边框进行匹配,边框匹配最好的一个运动向量为优化后的运动向量。考虑到实时运算的需要,通常只考虑三个方向的边框,匹配失真度计算如公式(1)

                   DT=wUDU+WLDL+wDDD                        (1)

即边框失真度DT为受损的图像块上、下、左边三个方向相邻的边界象素与运动补偿块之间边框失真度加权之和。如果相邻块为正确接收的,则权值w=1,如果为外推掩盖得到的,则权植w=1/4。三个相邻边框(1个像素宽度)失真度定义如公式(2): >>>D>L>>=>>Σ>>i>=>0>>7>>>>[>ver>>f>^>>n>>>(>p>->i>,>q>+>1>)>>->>f>n>>>(>p>->i>,>q>+>1>)>>]>>2>>>s> >>>D>U>>=>>Σ>>i>=>0>>7>>>>[>ver>>f>^>>n>>>(>p>+>i>,>q>->1>)>>->>f>n>>>(>p>+>i>,>q>->1>)>>]>>2>>>s> >>>D>D>>=>>Σ>>i>=>0>>7>>>>[>ver>>f>^>>n>>>(>p>+>i>,>q>+>8>)>>->>f>n>>>(>p>+>i>,>q>+>8>)>>]>>2>>->->->>(>2>)>>>s>

这里, >>ver>>f>^>>n>>>(>p>,>q>)>>=>>f>>n>->1>>>>(>p>+>>d>x>>>(>B>)>>,>q>+>>d>y>>>(>B>)>>)>>,>>s>即等于第n帧中的像素fn(p,q)在第n-1帧中的运动补偿值。d(B)为8×8的受损图像块的候选运动向量。按照这些运动向量,得到运动补偿块,再进行边框匹配,将边框最匹配的作为优化后的运动向量。

本发明对优化后的运动向量还可以通过运动向量搜索再进行最优选择,即根据优化后的运动向量,在参考帧中确定出补偿块的中心位置,作为起始点;运用全搜索或快速搜索原则,对其周围一定范围内的所有相邻象素点进行搜索,依据边框匹配原则最终确立最优的运动向量。

最后,根据最优运动向量,从参考帧中找到运动补偿块,替代当前受损的块,完成差错掩盖。

下面结合一个具体图例对本发明方法作更加具体的解释:

将172×144大小的QCIF(Quarter Common Intermediate Format)视频测试序列,用ITU-T视频压缩标准H.263+的测试模型TMN8编码器进行压缩,采用缺省方式,每个MB一个运动向量,编码的帧频为30帧/秒,参考帧频为30帧/秒,缺省的量化步长为13,只有第一帧为I帧。

为了便于在Internet环境下的视频传输,使用了GOB(Group of Block,1行9个MB作为1个GOB)交织(interleaved)封装策略,将一帧视频流的奇数、偶数GOB分别对应两个UDP数据包,并且在数据包外层再封装RFC2429 RTP(Real-time Transport Protocol)协议。在剧烈运动情况下,平均每个IP数据包大约有500字节左右。该方法具有较高的传输效率和健壮性(Robustness),在丢失一个包的情况下,仍然有可能够根据上下GOB的数据,对丢失的GOB进行掩盖恢复。

在此仅以一个宏块中的1个块的丢失来说明本发明掩盖方法。

假定第114帧正确接收并解码,第115帧的奇数GOB丢失,现在来考察第3个GOB中的第30#MB中的第3#块的恢复和掩盖情况(图3)。如果图像第1行第1列的像素点坐为(0,0),则30#MB左上角的坐标为(96,32),其中的第3#块的坐标为(96,40),29#MB的左上角坐标为(80,32)。

第1步:将第114帧所有宏块依据其运动向量进行外推,(实际上由于H.263+对运动向量限制在±16像素范围内,只需要对30#及其周围8个宏块进行外推),例如29#MB,其正确接收到的运动向量为(5,3),按照运动趋势,则该宏块外推的运动预测宏块左上角为(85,35)。

第2步:根据30#MB中的第3#块的坐标和大小(8×8像素),可计算得到重叠区域为5×8=40像素。经过计算比较,在这个块中,该外推预测区域所占的重叠面积最大,则将其运动向量(5,3)作为这个受损块的运动向量。

第3步:用114帧中左上角为(96-5=91,30-3=37)的8×8区域块来替代已经损坏或丢失的图像数据。

第4步:由于奇数GOB受损,30#MB左右的宏块均丢失,但其上下的宏块是正确的。因此,对3#块周围上边、左边的边框匹配度的权值取1/4,而下边的权值为1。在第115帧,选取该块上面3个、下面3个块的运动向量以及恢复出的运动向量(5,3),再取114帧中与该块对应空间位置及其周围8个块的运动向量。将这16个运动向量依次作为受损块的运动向量,找到114帧中对应块的边框,与115帧30#MB中3#块的3个边框按公式(1)(2)进行计算,最后找到失真度最小的一个运动向量;

第5步:对此运动向量为中心,再按照逆时针方向从内向外逐点搜索距中心周围±4个的所有象素点,找出边框匹配失真度最小的运动向量,作为最优的运动向量,并用114帧中对应的数据块来掩盖损坏的图像数据。

对所有丢失的块均按照上述步骤处理,即可掩盖所有的出错图像信息。如果是整帧图像完全丢失(连续奇偶GOB均丢失),则由于丢失块周围无可信任的信息,因此,也就不必再进行第4、5步边框匹配计算。

为客观评价本方法,采用重建图像峰值信噪比PSNR作为评价参数。单帧图像的峰值信噪比PSNR按公式(3)计算。一个视频测试序列的PSNR按公式(4)计算。 >>PSNR>=>10>>log>10>>>>255>2>>>>1>K>>>Σ>>x>,>y>>>>>(>>ψ>1>>>(>x>,>y>)>>->>ψ>2>>>(>x>,>y>)>>)>>2>>>>->->->>(>3>)>>>s> >>10>PSNR>=>>>10>log>>10>>>>255>2>>>>1>>K>·>N>>>>Σ>n>>>Σ>>x>,>y>>>>>(>>ψ>1>>>(>x>,>y>,>n>)>>->>ψ>2>>>(>x>,>y>,>n>)>>)>>2>>>>->->->>(>4>)>>>s>

这里,ψ1为原始视频图像像素值,ψ2为解压缩后重建图像像素值,K为一帧像素的总和,N为视频序列总的帧数。

为对比实验,本实施例还实现了用受损MB上方3个运动向量平均值作为估算运动向量的AV方法。以及假设图像丢失后所有运动向量都完全正确恢复这种特殊情况,这实际上是时域掩盖方法的上限。如果出现整帧图像丢失,由于不存在空间相邻MB,则AV方法被运动向量为0的时域替代方法,即用前一帧来替代。对于不同的随机丢包率的重复实验30次,去掉两个最高和两个最低的峰值信噪比(PSNR),计算其余24次PSNR的平均值。

图6给出了本发明方法对剧烈运动测试序列“Foreman”的实验结果,图7给出了第115帧全部丢失进行差错掩盖后第118帧图像的视频主观效果,图8为15%丢包率下第86帧的视频效果。

本发明的方法,较好地解决了高误码率情况下图像帧受损而带来的严重扩散问题,具有较好强视频数据掩盖和恢复能力。计算复杂度低,特别适合于干扰严重情况下的实时视频传输应用。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号