首页> 中国专利> 用于对视频序列的画面组进行编码的方法和设备，其中每个组包括一幅帧内编码的画面和两幅以上的预测编码的画面

用于对视频序列的画面组进行编码的方法和设备，其中每个组包括一幅帧内编码的画面和两幅以上的预测编码的画面

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

在已知的视频编码标准中，基本上有三类画面：I、P和B。视频序列通常以画面组(GOPi)的结构来编码，其中，将一些P或B画面在一幅I画面之后编码。然而，此GOP结构在差错复原和存储介质记录方面具有某些弱点。如果P画面丢失(例如由于传输通道差错)，则后续的P画面不能正确重建，并且差错将沿时间传播并引起不愉快的缺陷。此GOP结构被设计为仅仅适用于向前播放，而反向播放操作很复杂。根据本发明，可反向的GOP结构用于视频编码和解码。RGOP结构包括两条编码链，即向前编码链和向后编码链。RGOP结构中的每幅画面仅被分配至这些链中的一条，并且相邻的RGOP链的视频画面是交错的。

著录项

公开/公告号CN101601297A

专利类型发明专利
公开/公告日2009-12-09

原文格式PDF
申请/专利权人汤姆逊许可公司;
展开▼

申请/专利号CN200680055787.5
发明设计人陈衢清;陈志波;顾晓东;
展开▼

申请日2006-09-07
分类号H04N7/26(20060101);
代理机构11240 北京康信知识产权代理有限责任公司;
代理人余刚;吴孟秋
地址法国布洛涅
入库时间 2023-12-17 23:10:12

法律信息

法律状态公告日

法律状态信息

法律状态
2019-02-26

专利权的转移 IPC(主分类):H04N7/26 登记生效日:20190131 变更前: 变更后: 申请日:20060907

专利申请权、专利权的转移
2019-02-26

专利权人的姓名或者名称、地址的变更 IPC(主分类):H04N7/26 变更前: 变更后: 申请日:20060907

专利权人的姓名或者名称、地址的变更
2011-09-14

授权

授权
2010-02-03

实质审查的生效

实质审查的生效
2009-12-09

公开

公开

说明书

技术领域

本发明涉及一种用于对视频序列的画面组进行编码的方法和设备，其中每个所述组包括一幅帧内编码的画面和使用向前预测以及向后预测的两幅以上的预测编码的画面。

背景技术

在已知的MPEG/H.26x视频编码标准(例如，MPEG-1、MPEG-2、MPEG-4、MPEG-4AVC/H.264、H.263、VC-1)中，基本上有三类画面：I(帧内(intraframe)编码)画面、P(帧间(interframe)编码)画面以及B(双向预测)画面。I画面不使用其它画面作为参考，使其可以在易于出错的视频传输中用作为再同步点(re-synchronisation-point)。I画面也可以用作视频编辑和快速向前/向后播放中的随机访问点。P画面可以使用一幅或多幅之前的画面来作为参考，这样，由于预测而增加了编码效率。B画面可以使用之前和之后的画面来预测，并进一步提高编码效率。

如图1中所示，视频序列通常以画面组(group of picture)(GOP)结构来编码，其中，在一幅I画面之后对多幅P(P1、P2、P3)和/或B画面进行编码。然而，该GOP结构有一些缺点，尤其在下述的两种应用中：

a)差错复原(error resilience)

如果画面P1丢失(例如，由于传输通道差错)，那么随后的P画面不能被正确地重建，且差错将沿时间传播，并引起一些不愉快的缺陷(artefact)。尽管在解码器侧可以采用差错消除，但由于丢失了某些重要信息，所以不能非常好的去除缺陷。

b)例如在DVD或VCR上的存储介质记录

DVD(数字通用磁盘)或VCR(录像机)通常需要类似于向前、向后、停止、暂停、快速向前、快速向后和随机访问的功能。然而，已知的MPEG GOP结构被设计为仅用于向前播放，而反向播放操作很复杂。仅仅通过向后方向访问I画面即可实现简单的快速向后播放，但是如果期望平滑的一幅画面接一幅画面地反向播放，则需要更大的复杂性、带宽、和/或存储器缓冲区。例如，人们可以对GOP进行解码至当前帧，然后回退以再次从GOP开始解码至将要显示的下一帧。然而，这需要高带宽的吞吐量。否则，如果期望比特流仅被解码一次，则需要大量的存储器缓冲。

已经提出了一些不同的GOP结构以解决上述问题。对于差错复原，在S.Wenger，、G.Knorr、J.Ott、F.Kossentini的″Error ResilienceSupport in H.263+″，IEEE Transactions on Circuits and Systems forVideo Technol-ogy，Vol.8，No.7，November 1998(用于H.263+编码译码应用)中已经提出了视频冗余编码方法。此方法以下列方式将视频序列划分为两条或更多的链：每幅画面均被分配至这些链中的一条。每条链独立编码。在图2中示出了使用两条预测链的GOP结构。在这些链中的一条由于数据包丢失而损坏的情况下，剩下的链仍保持完好并且可以被解码和显示。可以通过使用其它未损坏链中的信息继续对损坏的链进行解码，或者进行一些差错消除，这仅导致轻微的主观质量(subjective quality)减退。也可以停止对损坏链的解码，而这仅导致帧速度的降低，这对主观质量的影响要比其它的差错缺陷小。两种情况下作为结果的差错复原性能均比图1中的GOP预测结构更好。然而，此结构不支持反向播放的功能。

对于反向播放，C.W.Lin、J.Zhou、J.Youn、M.T.Sun在″MPEG Video Streaming with VCR Functionality″，IEEE Transac-tions on Circuits and Systems for Video Technology，Vol.11，No.3，March 2001中已经提出了，在服务器中，即，在编码过程中加入反向编码比特流。一旦完成了编码并且到达视频序列的最后画面，视频画面就以反向顺序编码，从而产生反向编码比特流。如果服务器仅有向前编码比特流(即，原始序列不可得)，则每次沿反向方向(即，从最后GOP至第一GOP)将向前比特流解码至两幅GOP，然后，以反向顺序重新对视频序列进行编码。离线执行反向编码比特流的生成。然而，每幅画面被编码了两次并因此比特流大小几乎翻倍。

T.Fang、L.P.Chau在″An error-resilient GOP structure for robustvideo transmission″，IEEE Transactions on Multimedia，Vol.7，No.6，December 2005中已经提出了一种新的GOP结构，其考虑了差错复原和VCR反向播放。通过将I画面(I_n)放置在每个GOP的中间，经预测的P画面被分为两个部分：如图3中相应的GOP结构(没有B画面)所示，它们中的一半(P_n-1，…P_m+i+1)被向后预测(backward-predicted)编码，而它们的另一半(P_n+1，…P_n+j)被向前预测(forward-predicted)编码。下标是原始视频序列中画面的时间编号，在原始视频序列中下标按照i＞1，n-1＞m+i+1，j＞1，和k-1＞n+j+1单调递增。如果包括了B画面，将不会在实质上影响该结构。显然地，如果一幅P画面被破坏，至多将仅仅影响GOP的一半，而排列在画面I_n的另一侧的GOP的另一半将不会受影响。事实上，此GOP结构是两条预测链的另一种形式，其中，一条链向前而另一条向后。

一方面，由于GOP中P帧的一半已经被反向编码，所以此GOP结构使反向播放变得相对容易。另一方面，该GOP结构在差错复原和反向播放这两方面仍然具有缺点。如果丢失了P_m+1，则P_m+1至P_m+i均被破坏，且在这个时间段内将会注意到差错缺陷。尽管画面链P_n-1至P_m+i+1可以被正确地接收，但其不会有助于对时间段P_m+1至P_m+i内的画面进行解码。因此，此GOP结构不能提供如图2中所描述的GOP结构那样的差错复原性能。此外，此GOP结构不能提供连续的反向播放功能，因为连续P帧的一半仍然是向前编码的。详细来说，反向播放的处理顺序为：I_k→P_k-1→…→P_n+j+1→I_n→P_n-1→…→P_m+i+1→I_m…。因此，在P_n+j至P_n+1和P_m+i至P_m+1之间有空隙，这将在反向播放中引起大的抖动。如果确实需要显示从P_n+j至P_n+1和从P_m+i至P_m+1的画面，这就需要常规的多通道解码或巨量缓冲，这与标准GOP结构中的问题相同。

发明内容

本发明将要解决的问题是提供一种GOP结构，其增强视频传输的差错复原并实现流畅的反向播放功能。

此问题由权利要求1和3中所公开的方法解决。在权利要求2和4中披露有使用这些方法的设备。

根据本发明，可反向的GOP(RGOP)结构用于视频编码和解码。RGOP结构包括向前编码链和向后编码链两条链。RGOP结构中的每幅画面仅被分配给这些链中的一条，并且两条链的视频画面是交错的(interleaved)。

此RGOP结构改善了差错复原，因为如果一条预测链被破坏而其它的预测链完好，视频序列仍然能够被解码并流畅显示，而没有任何明显的缺陷，如下面所解释的。此RGOP结构也提供了用于记录应用的简单和流畅的反向播放功能。

本发明的处理的额外代价是编码效率的少量降低，这是由编码中的预测没有使用最近的帧而造成的。但是冗余比特可用于增强差错复原或恢复。

原则上，本发明的编码方法适合于对视频序列的画面组编码，每个所述组包括一幅帧内编码画面和两幅以上的预测编码画面，其中，所述预测编码画面的一部分从所述帧内编码画面开始向后预测编码，而所述预测编码画面的另一部分从所述帧内编码画面开始向前预测编码，由此，在这些向前和向后预测编码画面链中忽略了画面，因而所述视频序列的每两幅相邻画面组以重叠方式排列，使得在当前画面组中的向前和向后预测编码画面链中的所述丢失的画面以交错的方式包括在一个所述的相邻重叠画面组之中。

原则上，本发明的编码设备适合于对视频序列的画面组编码，每个所述组包括一幅帧内编码画面和两幅以上的预测编码画面，所述设备包括用于将所述预测编码画面的一部分从所述帧内编码画面开始向后预测编码、以及用于将所述预测编码画面的另一部分从所述帧内编码画面开始向前预测编码的装置，由此，在这些向前和向后预测编码画面链中忽略了画面，因而所述视频序列的每两个相邻画面组以重叠的方式排列，使得在当前画面组中的向前和向后预测编码画面链中的所述丢失的画面以交错的方式包括在一个所述相邻重叠画面组之中。

原则上，本发明的解码方法适合于对视频序列的画面组解码，每个所述组包括一幅帧内编码画面和两幅以上的预测编码画面，其中，所述预测编码画面的一部分从所述帧内编码画面开始向后预测编码，而所述预测编码画面的另一部分从所述帧内编码画面开始向前编码，并且所述画面的所述解码以对应的顺序进行，由此，在这些向前和向后预测编码画面链中忽略了画面，因而所述视频序列的每两个相邻画面组以重叠的方式排列，使得在当前画面组中的向前和向后预测编码画面链中的所述丢失的画面以交错的方式包括在一个所述相邻重叠画面组中，并且在所述解码中，将对应的解码画面以所述视频序列的原始画面顺序组合为解码输出信号。

原则上，本发明的解码设备适合于对视频序列的画面组解码，每个所述组包括一幅帧内编码画面和两幅以上的预测编码画面，其中，所述预测编码画面的一部分从所述帧内编码画面开始向后预测编码，而所述预测编码画面的另一部分从所述帧内编码画面开始向前预测编码，由此，在这些向前和向后预测编码画面链中忽略了画面，因而所述视频序列的每两个相邻画面组以重叠的方式排列，使得在当前画面组中的向前和向后预测编码画面链中的所述丢失的画面以交错的方式包括在一个所述相邻重叠画面组中，所述设备包括用于以对应的顺序对所述画面组的画面解码，并将对应的解码画面以所述视频序列的原始画面顺序组合成为解码输出信号的装置。

对应的从属权利要求中披露了本发明的有利的其它实施例。

附图说明

参考附图描述本发明的示例性实施例，在图中示出了：

图1示出了典型的MPEG GOP结构；

图2示出了具有两个预测链的已知的GOP结构；

图3示出了其中I画面排列在GOP中间的已知的GOP结构；

图4示出了本发明的RGOP结构；

图5示出了本发明的RGOP结构的另一实例；

图6示出了具有不规则交错的本发明的RGOP结构；

图7示出了包含有B画面的本发明的RGOP结构；

图8示出了本发明的编码器的实例；

图9示出了本发明的解码器的实例；

具体实施方式

在RGOP结构中，一组时间上连续的画面被交错地重新调度(re-schedule)为两条预测链。即，画面的一半通过从前一I画面开始的预测而被向前编码，而剩下的画面通过从后一I画面开始的预测而被向后编码。优选地，在向前编码画面的比特流之后发送反向画面的比特流，从而形成新的RGOP。

在图4中示出了一种典型的RGOP结构。在原始的视频序列中包含画面I_m、P_m+1、P_m+2、P_m+3、P_m+4、…、P_n-2、P_n-1、I_n、P_n+1、P_n+2、P_n+3、P_n+4、…、P_k-2、P_k-1、I_k、…，并具有两幅GOP的长度，选择画面P_m+2、P_m+4、…、P_n-1用于从画面I_n开始向后方进行的反向预测编码链，而选择画面P_n+1、P_n+3、…、P_k-2用于从画面I_n开始向前方进行的向前预测编码链。这两条链一起构建了新的RGOP_i。

相应地，画面P_m+1、P_m+3、…、P_n-2形成了前一RGOP_i-1中的向前预测编码链，而画面P_n+2、P_n+4、…、P_k-1形成了下一RGOP_i+1中的向后预测编码链，即，每个RGOP包括向后预测编码链以及向前预测编码链。邻近的RGOP和它们的画面是交错的，即，在视频序列的GOP长度部分之内，每隔一幅的画面属于当前RGOP_i而其中间的画面属于对应的相邻RGOP_i-1或RGOP_i+1。

每个RGOP的比特流包括I画面、向后预测编码链、以及向前预测编码链。这可以表示为{I，{向后预测编码链}，{向前预测编码链}}。对于图4的情况，传输顺序为：

{RGOP_i-2}，{I_m，{…}，{P_m+1，P_m+3，…，P_n-2}}，

{I_n，{P_n-1，…，P_m+4，P_m+2}，{P_n+1，P_n+3，…，P_k-2}}，

{I_k，{P_k-1，…，P_n+4，P_n+2}，{…}}，{RGOP_i+2}。

对于差错复原或恢复，如果在一条预测链中的一幅画面(例如P_m+1)丢失了，则随后进入下一个GOP中的下一幅I画面(例如I_n)，并随后向后或反向解码。因此，可以对P_n-1、…、P_m+4、P_m+2进行正确解码。通过使用这些正确解码的画面，画面{P_m+1，P_m+3，…，P_n-2}可以通过差错消除或插值法来更好地恢复。即使没有使用差错消除算法，也可以显示帧速率较低的序列{P_m+2，P_m+4，…，P_n-1}作为替代，而不会产生很多令人烦恼的缺陷。

此外，此RGOP结构具有良好的容量，以克服广泛出现在无线传输中的突发差错。在时间方向上连续的画面P_m+1、P_m+2、P_m+3、P_m+4、…、P_n-2被分配给不同的RGOP，使得在{P_m+1、P_m+3、…、P_n-2}和{P_n-1、…、P_m+4、P_m+2}的传输之间有延时。当一条预测链中发生突发差错时，其它的链通常是完好的，因而几乎可以完全保持解码后的视频序列的质量。

并且，由于包括了向前预测链和向后预测链，所以本发明的RGOP结构可以容易地提供向前播放和反向播放。

图5描述了本发明的RGOP结构的第二实施例，该RGOP结构具有与图4中描述的相同的特征。画面{P_m+2，P_m+4，…，P_n-1}和{P_n+2，P_n+4，…，P_k-1}被向前预测编码以形成向前预测链，而画面{P_n-2，…，P_m+3，P_m+1}和{P_k-2，…，P_n+3，P_n+1}被反向预测编码以形成向后预测链。传送顺序为：

{RGOP_i-2}，{I_m，{…}，{P_m+2，P_m+4，…，P_n-1}}，{I_n，{P_n-2，…，P_m+3，P_m+1}，{P_n+2，P_n+4，…，P_k-1}}，{I_k，{P_k-2，…，P_n+3，P_n+1}，{…}}，{RGOP_i+2}。

图6示出了发明性RGOP结构，在该结构中，交错是不规则的。即，向前预测链中的画面数量大于向后预测链中的画面数量。画面{P_m+1，P_m+2，P_m+4，P_m+5，…，P_k-3，P_k-2}被向前预测编码以形成向前预测链，而画面{P_k-1，…，P_m+6，P_m+3}被反向预测编码以形成向后预测链。此结构对向前播放比反向播放更有利。向前编码画面与反向编码画面的比例可以根据应用需求而变化。

可以在向前预测和向后预测链的每一个中采用多重参考帧。但是在向前预测链中的画面不能根据向后预测链画面来预测，反之亦然。

本发明的RGOP结构可以推广至视频序列包括B画面的情况。图7中示出了一个实例。这对于差错复原视频编码与DVD和VCR应用来说是有用的。画面{P_m+1，P_m+3，P_m+5，P_m+7，P_m+9…，P_k-2}被向前预测编码以形成向前预测链，而画面{P_k-1，…，P_m+10，P_m+8，P_m+6，P_m+4，P_m+2}被向后预测编码以形成向后预测链。这些链也可以以相应的B画面来开始和/或结束。

图8中的像素块编码器的视频数据输入信号IE包括用于编码的宏模块数据。以对应于图6或图7中所描述的方式来处理画面。对于帧内视频数据的情况，减法器SUB简单地允许这些数据通过。它们在变换(transform)装置T和量化装置Q中处理，并送入熵编码器ECOD，熵编码器输出编码器输出信号OE。例如，ECOD可以实现系数的哈夫曼编码(Huffman coding)并加入标题信息和动态矢量数据。对于帧间视频数据的情况，在减法器SUB内，从输入信号IE中减去预测块或宏模块数据PMD，且差值数据通过变换装置T和量化装置Q送入熵编码器ECOD中。Q的输出信号还在反向量化装置Q_E^-1中处理，其输出信号通过反向变换装置T_E^-1以重建的块或宏模块的差值数据RMDD的形式送入合并器ADDE。ADDE的输出信号缓存在动态估计和补偿装置FS_MC_E中的帧存储器中，其沿图6或7中描述的方向来执行重建的块或宏模块数据的动态补偿，并将以此方式预测的块或宏模块数据PMD输出至SUB的减法输入端以及输出至合并器ADDE的另一输入端。量化装置Q和反向量化装置Q_E^-1可以由编码器缓冲器ENCB的占空等级来控制。ADDE的输出信号作为重建帧数据REC而被编码器COD输出。SUB的输出信号作为残留帧数据RES而被编码器COD输出。

在图9中，编码的像素数据输入信号ID通过熵解码装置EDEC、反向量化装置Q_D^-1和反向变换装置T_D^-1而作为残留帧数据RES送入合并器ADDD，所述合并器输出重建后像素数据输出信号OD。以对应于图6或图7所描述的方式来处理画面。例如，EDEC可以对系数执行哈夫曼解码并解码和/或估计标题信息和动态矢量数据。Q_E^-1、Q_D^-1、T_E^-1、T_D^-1和EDEC具有与Q、T和ECOD功能相对应的逆功能。ADDD的输出信号被缓存在动态补偿装置FS_MC_D的帧存储器中。FS_MC_D按照图6或图7中描述的方向对重建的块或宏模块数据实现动态补偿。在帧间解码块或宏模块数据的情况下，在FS_MC_D中预测的块或宏模块数据PMD被送至合并器ADDE的第二输入端。在帧内解码块或宏模块数据的情况下，合并器ADDD简单地传递来自T_D^-1的输出信号。如果差错信号ES表示向后或向前预测链中的画面(即，至少一幅画面)没有被正确接收，则在对应的预测链中的剩余画面不能被解码，而是使用相邻画面组中对应的交错解码画面来消除或插值，以生成所述视频序列(IE)的丢失输出画面，或者对应的预测链中的剩余画面没有被解码，但是对接下来的帧内编码画面持续解码，且当前链输出信号OD在其帧速率上可以相应调整。

图8和9中的转换和逆转换可以分别是DCT或逆DCT。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于对视频序列的画面组进行编码的方法和设备，其中每个组包括一幅帧内编码的画面和两幅以上的预测编码的画面 [P] . 中国专利： CN101601297A . 2009-12-09
2. 用于帧内预测编码/解码包括画面数据的编码单元的方法和设备，所述帧内预测编码取决于预测树和变换树 [P] . 中国专利： CN108702508A . 2018-10-23
3. Method and apparatus for encoding groups of pictures of a video sequence, each of said groups including an intra encoded picture and more than two encoded pictures [P] . 美国专利： US8335252B2 . 2012-12-18

机译：用于对视频序列的图片组进行编码的方法和设备，所述组中的每个组包括帧内编码图片和两个以上的编码图片
4. Method and apparatus for each group to encode a group of pictures of the video series, including predictive coded picture more than two intra-coded picture [P] . 日本专利： JP2010503296A . 2010-01-28

机译：用于每个组的对视频系列的一组图片进行编码的方法和设备，包括多于两个帧内编码图片的预测编码图片
5. Method and apparatus for each group to encode a group of pictures of the video sequence, including a predictive coded picture of more than two and the intra-coded picture [P] . 日本专利： JP5190059B2 . 2013-04-24

机译：用于每个组的方法和设备对视频序列的一组图片进行编码，包括多于两个的预测编码图片和内部编码图片