首页> 中国专利> 面向交互式应用的多视点视频编码方法

面向交互式应用的多视点视频编码方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及多视点视频编码技术领域，公开了一种面向交互式应用的多视点视频编码方法。为提高多视点视频的交互式性能，本发明首先修改了关键帧图像视点间的预测关系，并将视差补偿预测只应用于关键帧图像，而对非关键帧图像只进行运动补偿预测。其次，多视点视频除了视频内容具有高度相关性外，视点间参考图像的运动信息同样具有高度依赖性。根据这个原理，本发明又提出一种运动信息跳过模式的自适应运动矢量精细化算法，用于优化非关键帧图像的运动补偿预测的性能。本发明在保证高压缩效率的前提下，优化多视点视频随机访问性能，支持快速的视点切换，从而提高多视点视频的交互式性能。

著录项

公开/公告号CN101867813A

专利类型发明专利
公开/公告日2010-10-20

原文格式PDF
申请/专利权人南京邮电大学;
展开▼

申请/专利号CN201010155912.8
发明设计人刘峰;郑海棠;
展开▼

申请日2010-04-23
分类号H04N7/26(20060101);H04N7/32(20060101);
代理机构32200 南京经纬专利商标代理有限公司;
代理人叶连生
地址 210003 江苏省南京市新模范马路66号
入库时间 2023-12-18 01:05:14

法律信息

法律状态公告日

法律状态信息

法律状态
2023-03-31

未缴年费专利权终止 IPC(主分类):H04N 7/26 专利号:ZL2010101559128 申请日:20100423 授权公告日:20120509

专利权的终止
2018-02-09

专利实施许可合同备案的注销 IPC(主分类):H04N7/26 合同备案号:2016320000208 让与人:南京邮电大学受让人:江苏南邮物联网科技园有限公司解除日:20180116 申请日:20100423

专利实施许可合同备案的生效、变更及注销
2016-12-14

专利实施许可合同备案的生效 IPC(主分类):H04N7/26 合同备案号:2016320000208 让与人:南京邮电大学受让人:江苏南邮物联网科技园有限公司发明名称:面向交互式应用的多视点视频编码方法申请公布日:20101020 授权公告日:20120509 许可种类:普通许可备案日期:20161110 申请日:20100423

专利实施许可合同备案的生效、变更及注销
2012-05-09

授权

授权
2010-12-01

实质审查的生效 IPC(主分类):H04N7/26 申请日:20100423

实质审查的生效
2010-10-20

公开

公开

查看全部

说明书

技术领域

本发明涉及到多视点视频信号的编码压缩方法，尤其是涉及基于运动信息跳过编码的面向交互式应用的视频信号压缩方法。

背景技术

多视点视频是当前多媒体领域的研究热点。作为FTV(自由视点电视)、3DTV(三维电视)等三维音视频应用中的核心技术，多视点视频技术旨在解决3D交互式视频的压缩、交互、存储和传输等问题。多视点视频信号是由相机阵列对实际场景进行拍摄得到的一组视频信号，它能提供拍摄场景不同角度的视频图像信息，利用其中的一个或多个视频信息可以合成任意视点的信息，使用户在观看时可以任意改变视点或者视角，以实现对同一场景进行的多方位体验。因此，多视点视频将广泛应用于面向带宽与高密度存储介质的交互式多媒体应用领域，如数字娱乐、远程监控、远程教育等。

多视点视频系统可以进行多视点视频信号的采集、编码压缩、传输、接收、解码、显示等，而其中多视点视频信号的编码压缩是整个系统的核心部分。一方面，多视点视频信号存在着数据量巨大，不利于网络传输和存储，如何高效地压缩多视点视频数据是其应用面临的一个重要挑战。另一方面，多视点视频是一种具有立体感和交互操作功能的视频序列，在保证视频高压缩率同时，也要关注其交互式性能，使系统具有灵活的随机访问、部分解码和绘制等性能。

利用多视点视频信号的时间相关性、视点间相关性，采用运动补偿预测、视差补偿预测是进行多视点视频信号编码压缩的基本思路。目前大量的研究集中于寻找一种能最大限度地去除多视点视频序列时间上和视点间冗余的编码方案，如图2所示的基于空间-时间分层B帧的多视点视频编码方案。但是对于大多数多视点视频序列而言，虽然存在时间相关性和视点间相关性，但时间相关性却占了主导地位，所以对于基于空间-时间的分层B帧预测结构，在关键帧图像利用视点间预测关系的情况下，再对非关键帧进行视点间预测对压缩效率改善不明显，并且反过来会大大增加编码复杂度以及在解码端由于视点间的密切耦合会大大降低了视点的随机访问性能。

另外，多视点视频序列除了具有相似的视频内容外，还具有相似的运动特性，即其运动信息同样具有高度的空间相关性，特别对运动剧烈的区域，其运动信息的空间相关性要大于时间相关性。运动信息跳过模式利用了这个原理，即通过全局视差矢量找到相邻视点中当前宏块的对应宏块，并导出对应宏块的运动信息作为当前宏块的运动信息。运动信息跳过模式对传统的运动补偿预测进行优化。当运动信息跳过模式为当前编码宏块的最佳编码模式时，只需要用一个模式标志位表明，而不需要对残差进行编码，从而能减少需要传输的比特数，提高压缩效率。然而通过全局视差有时不能得到当前编码宏块的最佳运动匹配信息。

针对以上问题，本发明采用一种面向交互式应用的多视点视频编码方法，在保证高压缩效率的条件下获得了低复杂度利低时延随机访问性能。

发明内容

技术问题：本发明所要解决的技术是提供一种面向交互式应用的多视点视频编码方法，在保证高压缩率的同时，改善多视点视频的交互式性能。

技术方案：本发明面向交互式应用的多视点视频编码方法，包括以下步骤：

步骤1：多视点视频序列分为基本视点和增强视点，每个视点序列都分为关键帧和非关键帧，选择中间视点为基本视点，并确定各视频序列关键帧的视点间参考关系，

步骤2：基本视点不参考其它视点，关键帧采用帧内预测编码方法；非关键帧选择本视点内的时间方向帧为参考帧，进行运动补偿预测编码，

步骤3：增强视点的关键帧参考其它视点的关键帧，采用帧内预测编码方法或视差补偿预测法进行编码，同时计算出与参考视点的关键帧之间的全局视差，

步骤4：对增强视点的非关键帧，利用前后相邻两个关键帧图像的全局视差进行插值计算得到每个非关键帧图像与参考视点同一时刻非关键帧之间的全局视差，

步骤5：增强视点的非关键帧不进行视差补偿预测，只进行运动补偿预测，在传统的H.264的宏块编码模式的基础上，根据运动信息的视点间高度相关性原理，采用自适应运动矢量精细化的运动信息跳过编码对图像进行编码，

步骤6：增强视点非关键帧编码后设置每个宏块的运动信息跳过模式标志位，并写入码流发送到解码端。

步骤7：在解码端进行图像重建，首先根据判断当前帧图像类型，对参考视点进行部分解码，然后再解码当前帧图像。

对多视点视频序列分为基本视点和增强视点，基本视点不参考其它视点，增强视点可参考其它视点，包括基本视点或其它增强视点。

所述步骤4中对增强视点的非关键帧，利用前后相邻两个关键帧图像的全局视差进行插值计算得到每个非关键帧图像与参考视点同一时刻非关键帧之间的全局视差：前后相邻两个关键帧图像，即为当前图像组的第一帧以及下一个图像组的第一帧，全局视差的插值计算是以当前非关键帧在图像组中的序列号为依据的。

所述步骤5中增强视点的非关键帧根据运动信息的视点间高度相关性原理，采用自适应运动矢量精细化的运动信息跳过模式对图像进行编码：首先通过全局视差找到当前编码宏块在参考视点中的对应宏块，并导出对应宏块的运动信息，包括宏块分割模式、运动矢量等，作为当前宏块的候选编码模式和运动矢量；然后对当前宏块和对应宏块进行图像区域判断，决定是否扩大搜索范围，即是否要把参考视点中对应宏块的8个相邻宏块的编码模式和运动矢量，作为当前宏块的候选编码模式和运动矢量；最后利用所有候选编码模式和运动矢量，在本视点内进行运动补偿预测。

自适应运动矢量精细化的运动信息跳过模式对当前宏块和对应宏块进行图像区域判断，决定是否扩大搜索范围：如果当前宏块通过传统运动补偿预测后得到的最佳编码模式以及参考视点的对应宏块的编码模式都属于背景静态模式，则不扩大搜索范围，即将对应宏块的运动信息作为当前编码宏块的运动信息；否则则扩大搜索范围。

在解码端进行图像重建，首先根据判断帧图像类型，对参考视点进行部分解码，然后再解码当前图像：要解码关键帧图像，要先对其参考视点的关键帧进行完全解码；要解码非关键帧图像，只需先对其参考视点的对应帧进行解析得到参考帧的运动信息，不需要对参考视点的对应帧进行完全解码。

有益效果：本发明针对多视点视频的交互式应用，提出了一种面对交互式应用的多视点视频编码方法，修改了帧图像视点间的预测关系，并采用一种自适应运动矢量精细化的运动信息跳过模式，优化非关键帧图像的运动补偿预测的性能。

与现有技术相比，本发明的优点在于在保证高压缩效率的前提下，优化多视点视频随机访问性能，支持快速的视点切换，从而提高多视点视频的交互式性能。

附图说明

图1为多视点视频系统示意图；

图2为空间-时间分层B帧多视点视频预测结构示意图；

图3为本发明的面向交互视应用的多视点视频预测结构示意图；

图4为运动信息跳过模式预测编码示意图；

图5为H.264/AVC标准中可变宏块分割图；

图6为运动信息跳过模式的自适应运动矢量精细化算法的流程图；

图7为自适应运动矢量精细化算法示意图；

图8为增强视点的解码流程图；

图9为测试用例Ballroom在不同多视点视频编码方法下的率失真曲线；

图10为测试用例Racel在不同多视点视频编码方法下的率失真曲线。

方法一为基于空间-时间分层B帧的多视点视频编码方案，

方法二为图3中对非关键帧不进行视点间预测的多视点视频编码方案。

方法三为图3中对非关键帧应用原始运动信息跳过模式。

方法四为图3中对非关键帧应用基于自适应运动矢量精细化的运动信息跳过模式。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述，这里以8×8多视点图像组结构为例(如图3所示，每个图像组共有8个视点、8个时刻，共64帧)。

参照图1，多视点视频编码中，由具有N个摄像机的多视点采集系统从不同角度拍摄同一场景得到的一组视频，即N路原始视点；N路原始视点视频经过多视点视频编解码系统后得到N路恢复视点。多视点视频编解码系统中，发送端通过多视点视频编码器，在保证信息质量和传输安全的情况下，编码压缩数据，传输到接收端后，由多视点视频解码器解码。

参照图3，给出了本发明的一种面向交互式应用的图像组GOP长度为8的多视点视频预测结构示意图。首先选择中间视点为基本视点；其次，确定关键帧图像视点间的参考关系为P-P-B-I-B-P-B-P，则此多视点视频序列的编码顺序为S4-S2-S3-S1-S6-S5-S8-S7；而对非关键帧只进行运动补偿预测法，在本视点内的参考关系采用分层B帧预测结构单视点内的预测关系，在视点间根据对应的关键帧图像的视点间参考关系，利用视点间参考图像的运动信息依赖性原理，运用运动信息跳过模式编码视点图像(如图3中虚线所示)，模式标志位为motion_skip_flag。编码后获得的当前图像的运动信息都存储在运动信息缓存区中作为后续图像编码的信息参考。

参照图4，给出了运动信息跳过模式的预测编码示意图。运动信息跳过模式主要分成两个步骤：

(1)通过GDV找到相邻视点的对应宏块。

(2)从这个对应宏块中拷贝其运动信息为当前宏块的运动信息，包括宏块分割模式、运动矢量以及图像参考索引号。

非关键帧处的全局视差则是对前后相邻的两个关键帧的全局视差加权平均得到的，如式(1)所示。

其中，GDV_ahead和GDV_behind为当前非关键帧前后相邻两个关键帧的全局视差矢量，POC_cur、POC_ahead和POC_behind分别表示当前非关键帧、前关键帧和后关键帧在时间轴上的图像序列号。

图5为H.264/AVC标准中可变宏块分割技术。一般来说，大尺寸的宏块编码模式通常用于背景静态区域，如P_Skip、B_skip、Direct、Inter 16×16编码模式。而小尺寸的宏块编码模式通常用于前景运动区域，如Inter 16×8、Inter 8×16、Inter 8×8等编码模式。则我们称P_Skip、B_skip、Direct以及Inter 16×16编码模式为背景静态模式，其他编码模式则为前景运动模式。

图6为运动信息跳过模式的自适应运动矢量精细化算法的流程图，该算法的主要步骤为：

1)对非关键帧图像进行传统的运动补偿预测，其中当前宏块的运动矢量预测值MV_P为其相邻宏块的运动矢量的中值，通过率失真最优化技术得到最佳的编码宏块模式MODE_{cur_opt}和运动矢量MV_{cur_opt}。

通过全局视差得到的参考视点的对应宏块，提取该对应宏块的运动信息，即宏块编码模式MODE_co以及运动矢量MV_co。从参考视点中得到当前宏块的候选编码模式和运动矢量。若MODE_{cur_opt}和MODE_co相同且都属于背景静态模式，则可判断通过全局视差所导出的运动信息是准确的，则对应宏块导出的编码模式MODE_co和MV_co直接作为当前宏块的候选编码模式和运动矢量；否则认为通过全局视差所得到的运动信息是不精确的，此时则扩大搜索窗口，提取对应宏块的MODE_co和MV_co，同时将该对应宏块的8个相邻宏块的编码模式和MV提取出来，作为当前宏块的候选编码模式和运动矢量。对于一些编码模式，每个宏块被分割成多个子块，则每个子块拥有各自的运动矢量，假如所得到的对应宏块的宏块分割模式为16×8模式，则当前宏块也被分割成两个16×8，并分别提取各自对应的运动矢量，其他模式也是依此类推。

2)对得到的每个候选编码模式以及其对应的运动矢量，分别在时间参考帧中进行运动估计找到一个匹配块，最后根据率失真最优化技术确定运动信息跳过模式的最佳编码模式MODE_{ms_opt}和MV_{ms_opt}。

通过以上方法得到运动信息跳过模式的最佳编码模式MODE_{ms_opt}和MV_{ms_opt}后，再根据率失真最优化技术，与传统的运动补偿预测所得的MODE_{cur_opt}和MV_{cur_opt}进行比较得到当前宏块所用的最终的最优编码模式和运动矢量。

图7为自适应运动矢量精细化算法示意图。I_S，T中为视点S在T时刻的非关键帧，I_Sref，T为I_S，T在其参考视点S_ref中同一时刻的参考帧。I_S，T中当前编码宏块(x_i，y_i)，通过全局视差矢量GDV(x_G，y_G)找到I_Sref，T中的对应宏块(x_i+x_G，y_i+y_G)后，经过自适应运动矢量精细化算法得到当前编码宏块的最佳运动信息匹配宏块为宏块(x_i+x_G+Δx_i，y_i+y_G+Δy_i)，则视差偏移量为ΔDi(Δxi，Δyi)，若当前编码宏块的最佳运动信息匹配块为其对应宏块(x_i+x_G，y_i+y_G)，则视差偏移量ΔDi设为0。把每个宏块的视差偏移量传输到解码端，用于图像的重建。

图8为增强视点的解码流程图。解码当前图像，首先要判断帧图像类型，当当前帧为关键帧时，要对其参考帧进行解码；当当前帧为非关键帧时，不需要对其参考帧进行解码，只需要对其进行解析，通过全局视差矢量GDV以及视差偏移量ΔD找到对应宏块，并从存放运动信息缓存区中得到对应宏块的运动信息。解码后得到的当前图像的运动信息存储在运动信息缓存区中作为后续图像解码的信息参考。

以下就本实施例进行多视点视频编码的性能进行说明：

1)面向交互式应用的多视点视频编码方法的率失真性能

图9和图10分别为测试用例Ballroom和Racel在不同多视点视频编码方法下的率失真曲线，其横坐标和纵坐标分别表示8个视频序列的平均比特率和平均信噪比。其中JMVM为基于空间-时间分层B帧的多视点编码方案(如图2所示)，JMVM_AP为图3中只对关键帧进行视点间预测的编码方案，JMVM_MS为图3中对非关键帧应用原始的运动信息跳过模式，JMVM_AFMS则是应用了采用自适应运动矢量精细化的运动信息跳过模式。JMVM_AP中所有视点都不对非关键帧图像进行视点间预测，JMVM中只有对B视点中的非关键帧图像进行视点间预测，而JMVM_MS和JMVM_AFMA中的运动信息跳过模式应用于所有增强视点的非关键帧图像。

由图9可知，由于Ballroom视频序列运动较平缓、时域相关性大，视点间的参考关系对非关键帧图像的编码性能影响不大，所以这4种编码方案的压缩性能相差不大。而对于Racel视频序列，由于镜头移动、运动剧烈且存在时间全局运动，导致时间预测的有效性差。因此，视点间的参考关系以及它的准确性对压缩性能是至关重要的。从图10可知，不采用非关键帧视点间参考关系的JMVM_AP的压缩性能最差，而本发明所提的JMVM_AFMS能得到当前编码宏块更为匹配的运动矢量，与JMVM_MS相比编码性能改善明显，在相同的比特率条件下其平均PSNR最大增加了0.2dB，与JMVM相比最大增加了0.35dB。因此，本发明所提算法对于Ballroom等运动缓慢的视频序列，其压缩性能接近基于空间-时间分层B帧的多视点编码方案，而对于racel等运动剧烈的视频序列其压缩性能优于基于空间-时间分层B帧的多视点视频编码方案。

2)面向交互式应用的多视点视频编码方法的随机访问性能

为了评价多视点视频的随机访问性能，我们使用F_AV和F_MAX来分别表示随机访问一帧所需要解码的平均和最大帧数。假设现要访问(i，j)处的帧，其随机访问代价F_AV和F_MAX可分别用式(2)和式(3)定义。

$F_{AV} = Σ_{i = 1}^{n} Σ_{j = 1}^{m} x_{i, j} p_{i, j} - - - (2)$

F_MAX＝max{x_i，j|0＜i≤n，0＜j≤m} (3)

其中，n为一个GOP包含的帧数，m为总的视点数。x_i，j表示访问该帧之前所必须要解码的帧数，p_i，j为用户选择观看该帧的概率，通常p_i，j＝1/(n×m)。

由于运动信息跳过模式不影响随机访问性能，所以本发明所提的编码方案JMVM_AFMS与JMVM_AP具有相同的随机访问性能。表1给出了本发明所提编码方案和基于空间-时间分层B帧的多视点编码方案在随机访问性能方面的比较。从表1可知本发明所提的编码方法的随机访问性能明显优于JMVM，平均提高了36.6％/44.4％。

表1 随机访问性能比较

编码方案 JMVM JMVM_AFMS 改进(％) RA(F_AV/F_MAX)/frame 10.1/18.0 6.4/10.0 36.6/44.4

综上所述，与现有技术相比，本发明的优点在于在保证高压缩效率的前提下，优化多视点视频随机访问性能，支持快速的视点切换，从而提高多视点视频的交互式性能。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 面向交互式应用的多视点视频编码方法 [P] . 中国专利： CN101867813B . 2012.05.09
2. 一种交互式多视点视频编码方法 [P] . 中国专利： CN101404765B . 2010.12.08
3. Motion vector estimation method, multi-view video encoding method, multi-view video decoding method, motion vector estimation device, multi-view video encoding device, multi-view video decoding device, motion vector estimation program, multi-view video encoding program, and multi Viewpoint video decoding program [P] . 日本专利： JPWO2011105297A1 . 2013-06-20

机译：运动矢量估计方法，多视点视频编码方法，多视点视频解码方法，运动矢量估计设备，多视点视频编码设备，多视点视频解码设备，运动矢量估计程序，多视点视频编码程序，和多视点视频解码程序
4. Motion vector estimation method, multi-view video encoding method, multi-view video decoding method, motion vector estimation device, multi-view video encoding device, multi-view video decoding device, motion vector estimation program, multi-view video encoding program, and multi Viewpoint video decoding program [P] . 日本专利： JP5237500B2 . 2013-07-17

机译：运动矢量估计方法，多视点视频编码方法，多视点视频解码方法，运动矢量估计设备，多视点视频编码设备，多视点视频解码设备，运动矢量估计程序，多视点视频编码程序，和多视点视频解码程序
5. Coding method of video multiple visions, method for video decoding of multiple visions, apparatus of video encoding of multiple views, video decoding apparatus, and program for multiple views. [P] . BR112012020993A2 . 2016-05-03

机译：视频多视点的编码方法，用于多视点的视频解码的方法，多视点的视频编码设备，视频解码设备以及用于多视点的程序。