首页> 中国专利> 用于三维视频的高级合并/跳过模式及高级运动向量预测(AMVP)模式

用于三维视频的高级合并/跳过模式及高级运动向量预测(AMVP)模式

摘要

本发明描述以下技术:其中,基于经移位的视差向量来导出经视图间预测的运动向量候选者IPMVC及视图间视差运动向量候选者IDMVC,其中针对所述IPMVC及IDMVC将所述视差向量移位所达的量不同。所述技术还将所述IPMVC包含在候选者列表中的优先顺序排定为优于所述IDMVC,及在所述候选者列表中存在重复IPMVC或IDMVC的情况下,修剪所述IPMVC及所述IDMVC。

著录项

  • 公开/公告号CN104956678A

    专利类型发明专利

  • 公开/公告日2015-09-30

    原文格式PDF

  • 申请/专利权人 高通股份有限公司;

    申请/专利号CN201380063516.4

  • 发明设计人 张莉;陈颖;马尔塔·卡切维奇;

    申请日2013-12-06

  • 分类号H04N19/597(20060101);H04N19/51(20060101);

  • 代理机构11287 北京律盟知识产权代理有限责任公司;

  • 代理人宋献涛

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-18 11:19:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-06-26

    授权

    授权

  • 2016-01-20

    实质审查的生效 IPC(主分类):H04N19/597 申请日:20131206

    实质审查的生效

  • 2015-09-30

    公开

    公开

说明书

本申请案主张以下各者的权益:

2012年12月7日申请的第61/734,929号美国临时申请案,及

2012年12月30日申请的第61/747,350号美国临时申请案,所述申请案中的每一 者的全部内容以引用的方式并入本文中。

技术领域

本发明涉及视频译码。

背景技术

数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播系统、无线 广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子图书阅读 器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、 蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流装置及 其类似者。数字视频装置实施视频压缩技术,例如,由MPEG-2、MPEG-4、ITU-T  H.263、ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)定义的标准、目前正在开 发的高效率视频译码(HEVC)标准及此类标准的扩展中所描述的视频压缩技术。视频装 置可以通过实施此类视频压缩技术来更有效率地发射、接收、编码、解码及/或存储数 字视频信息。

视频压缩技术执行空间(图片内)预测及/或时间(图片间)预测来减少或去除视频序列 中固有的冗余。对于基于块的视频译码,可以将视频切片(即,视频帧或视频帧的一部 分)分割成视频块,视频块也可被称作树块、译码单元(CU)及/或译码节点。图片的经帧 内编码(I)切片中的视频块是使用相对于同一图片中的相邻块中的参考样本的空间预测 来编码。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块 中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可被 称作帧,且参考图片可被称作参考帧。

空间或时间预测导致译码块的预测性块。残余数据表示待译码的原始块与预测性 块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本块的运动向量及 指示经译码块与预测性块之间的差的残余数据来编码。经帧内译码块是根据帧内译码 模式及残余数据而编码。为了进一步压缩,可以将残余数据从像素域变换到变换域, 从而产生残余变换系数,接着可以对残余变换系数进行量化。可扫描最初布置为二维 阵列的经量化的变换系数,以便产生变换系数的一维向量,且可应用熵译码以实现更 多压缩。

发明内容

一般来说,本发明描述用于改进多视图及3D视频译码中的运动预测的译码效率的 技术。举例来说,所述技术可利用经视图间预测的运动向量候选者及视图间视差运动 向量候选者作为用于合并/跳过模式及高级运动向量预测(AMVP)模式的候选者列表中的 候选者。所述技术可针对正进行帧间预测的当前块将视差向量移位达第一偏移以识别 参考视图中用于导出视图间预测运动向量候选者的参考块,及将所述视差向量移位达 第二不同偏移以将所述经移位的视差向量转换成所述视图间视差运动向量候选者。

在一些实例中,如果所述经视图间预测的运动向量候选者可用,那么所述技术可 仅将所述经视图间预测的运动向量候选者包含在所述候选者列表中,且如果所述经视 图间预测的运动向量候选者不可用,那么所述技术仅将所述视图间视差运动向量候选 者包含在所述候选者列表中。在一些实例中,如果另一视图间预测运动向量候选者(例 如,在不将所述视差向量移位的情况下导出的视图间预测运动向量候选者)的运动信息 已经包含在所述候选者列表中,那么所述技术可能并不将所述视图间预测运动向量候 选者包含在所述候选者列表中,即使所述视图间预测运动向量候选者可用也如此。

在一个实例中,本发明描述一种译码视频数据的方法,所述方法包含:确定当前 块是在合并模式、跳过模式还是高级运动向量预测(AMVP)模式中进行帧间预测;在所 述当前块是在AMVP模式中进行帧间预测的情况下,基于至少一个参考图片索引确定 是导出视图间视差运动向量候选者(IDMVC)还是经视图间预测的运动向量候选者 (IPMVC);及在所述当前块是在合并模式或跳过模式中进行帧间预测的情况下,确定所 述IPMVC的可用性。在此实例中,所述IPMVC包括通过针对所述当前块经移位达第 一偏移值的视差向量参考的参考视图中的参考块的运动信息,且所述IDMVC包括针对 所述当前块经移位达第二不同偏移值的所述视差向量。所述方法还包含确定是将所述 IPMVC还是所述IDMVC包含在候选者列表中,及基于所述候选者列表对不同于所述 参考视图的当前视图中的当前图片中的所述当前块进行帧间预测译码。

在一个实例中,本发明描述一种用于译码视频数据的装置,所述装置包括视频译 码器,所述视频译码器经配置以:确定当前块是在合并模式、跳过模式还是高级运动 向量预测(AMVP)模式中进行帧间预测;在所述当前块是在AMVP模式中进行帧间预测 的情况下,基于至少一个参考图片索引确定是导出视图间视差运动向量候选者 (IDMVC)还是经视图间预测的运动向量候选者(IPMVC);及在所述当前块是在合并模式 或跳过模式中进行帧间预测的情况下,确定所述IPMVC的可用性。在此实例中,所述 IPMVC包括通过针对所述当前块经移位达第一偏移值的视差向量参考的参考视图中的 参考块的运动信息,且所述IDMVC包括针对所述当前块经移位达第二不同偏移值的所 述视差向量。所述视频译码器亦经配置以确定是将所述IPMVC还是所述IDMVC包含 在候选者列表中,及基于所述候选者列表对不同于所述参考视图的当前视图中的当前 图片中的所述当前块进行帧间预测译码。

在一个实例中,本发明描述一种计算机可读存储媒体,其具有存储在其上的指 令,所述指令在经执行时致使用于译码视频数据的装置的一或多个处理器进行以下操 作:确定当前块是在合并模式、跳过模式还是高级运动向量预测(AMVP)模式中进行帧 间预测;在所述当前块是在AMVP模式中进行帧间预测的情况下,基于至少一个参考 图片索引确定是导出视图间视差运动向量候选者(IDMVC)还是经视图间预测的运动向 量候选者(IPMVC);及在所述当前块是在合并模式或跳过模式中进行帧间预测的情况 下,确定所述IPMVC的可用性。在此实例中,所述IPMVC包括通过针对所述当前块 经移位达第一偏移值的视差向量参考的参考视图中的参考块的运动信息,且所述 IDMVC包括针对所述当前块经移位达第二不同偏移值的所述视差向量。所述指令亦致 使所述一或多个处理器确定是将所述IPMVC还是所述IDMVC包含在候选者列表中, 及基于所述候选者列表对不同于所述参考视图的当前视图中的当前图片中的所述当前 块进行帧间预测译码。

在一个实例中,本发明描述一种用于译码视频数据的装置,其包括:用于确定当 前块是在合并模式、跳过模式还是高级运动向量预测(AMVP)模式中进行帧间预测的装 置;在所述当前块是在AMVP模式中进行帧间预测的情况下,用于基于至少一个参考 图片索引确定是导出视图间视差运动向量候选者(IDMVC)还是经视图间预测的运动向 量候选者(IPMVC)的装置;及在所述当前块是在合并模式或跳过模式中进行帧间预测的 情况下,用于确定所述IPMVC的可用性的装置。在此实例中,所述IPMVC包括通过 针对所述当前块经移位达第一偏移值的视差向量参考的参考视图中的参考块的运动信 息,且所述IDMVC包括针对所述当前块经移位达第二不同偏移值的所述视差向量。所 述装置还包含用于确定是将所述IPMVC还是所述IDMVC包含在候选者列表中的装 置,及用于基于所述候选者列表对不同于所述参考视图的当前视图中的当前图片中的 所述当前块进行帧间预测译码的装置。

在随附图式及以下描述中阐述一或多个实例的细节。其它特征、目标及优点将从 所述描述及所述图式以及从权利要求书而显而易见。

附图说明

图1为说明可利用本发明的帧间预测技术的实例视频编码及解码系统的框图。

图2为说明用于多视图视频的实例解码次序的概念图。

图3为说明用于多视图视频的实例预测结构的概念图。

图4展示可用于合并模式及AMVP模式两者中的一组实例候选块。

图5展示在候选图片中检查的用于确定当前块的视差向量的块的实例。

图6为说明经视图间预测的运动向量候选者的实例导出过程的概念图。

图7为说明可实施本发明的帧间预测技术的视频编码器的实例的框图。

图8为说明可实施本发明的帧间预测技术的视频解码器的实例的框图。

图9为展示根据本发明的技术的实例编码过程的流程图。

图10为展示根据本发明的技术的实例解码过程的流程图。

具体实施方式

本发明描述涉及多视图视频译码中的运动参数的发信的技术,包含在新近新兴的 三维高效率视频译码标准(通常被称作3D HEVC)中。视频压缩技术可包含基于已经译 码的视频数据块预测当前视频数据块。在本发明中,与已经译码的视频块或尚待译码 的视频块形成对比,术语“当前块”一般是指当前正进行译码(例如,经编码或经解码) 的视频数据块。在帧内预测模式中,基于与当前块相同的图片中的一或多个先前经译 码块预测当前块,而在帧间预测模式中,基于不同图片中的已经译码块预测当前块。 所述不同图片可为来自与当前块相同的视图的不同时间实例的图片(例如,不同于包含 当前图片的存取单元的另一存取单元中的图片),或可为来自相同时间实例但来自不同 视图的图片(例如,与包含当前图片的存取单元相同的存取单元中的图片)。

当视频解码器欲执行给定视频块的帧间预测时,在经编码视频位流中用信号发出 运动参数。所述运动参数定义(例如)运动向量、参考图片索引及预测方向,以使得视频 解码器可确定将使用哪个图片中的哪个块来作为当前块的预测性块。视频译码器可使 用各种模式来在经编码位流中用信号发出运动参数。为了减少实施帧间预测性译码所 需的位数,那些模式中的一些模式可利用运动参数的预测而不是明确地用信号发出运 动参数。在高效率视频译码(HEVC)标准中,存在用于进行运动参数的预测的各种模 式,所述模式中的一者被称作合并模式。在合并模式中,视频译码器使用来自相邻块 (包含空间相邻块及时间相邻块,且在3D-HEVC的情况下,还包含视图间相邻块)的候 选运动参数构造运动参数(例如,参考图片及运动向量)的候选者列表。所选择的运动参 数是通过发射从候选者列表选择的候选者的索引而从视频编码器用信号发出到视频解 码器。在视频解码器处,一旦解码了索引,便继承了所选定候选者的对应块的所有运 动参数。视频编码器及视频解码器经配置以基于已经译码块构造相同列表。因此,基 于索引,视频解码器可识别由视频编码器选择的候选者的运动参数。

另一种用于预测运动参数的模式是跳过模式。跳过模式一般按与上文针对合并模 式描述的方式相同的方式操作,但在跳过模式中,不将残余数据加到经预测块,而在 合并模式中,将残余数据加到经预测块。列表的构造及上文参考合并模式描述的用以 识别列表中的候选者的索引的发射一般也是在跳过模式中执行。一些视频编码解码器 可将跳过模式视为与合并模式分离的模式,而包含HEVC及其扩展的其它视频译码标 准可将跳过模式视为合并模式的特殊情况。

另一种用于预测运动参数的模式是高级运动向量预测(AMVP)模式。在AMVP模式 中,基于经译码参考索引导出针对每一运动假设的运动向量预测符的候选者列表。此 列表包含与相同参考索引相关联的相邻块的运动向量以及基于时间参考图片中处于相 同位置的块的相邻块的运动参数导出的时间运动向量预测符。所选择的运动向量是通 过发射到候选者列表中的索引来用信号发出。另外,也用信号发出参考索引值及运动 向量差。在本发明中,术语“运动向量预测符”一般用以指供预测一或多个运动向量 的任何运动向量。在一些情况下,运动向量预测符及经预测运动向量可为相同的,但 在其它情况下,运动向量预测符及经预测运动向量可为不同的。在AMVP模式中,例 如,经预测运动向量对应于运动向量预测符加上运动向量差值。本发明还提及术语 “方向运动预测符”,其一般是指与特定方向(即,特定参考图片列表)相关联的运动向 量预测符。在双向预测的情况下,运动向量预测符可包含两个方向运动预测符。

视差向量一般用以识别对应于当前视图的当前块的视图间参考图片中的块的位 置。为了导出当前块的视差向量(DV),在3D-HEVC测试模型(3D-HTM)的一些当前版 本中使用被称为基于相邻块的视差向量(NBDV)导出的技术。NBDV利用来自当前块的 空间及时间相邻块的视差运动向量。在NBDV中,按固定次序检查空间或时间相邻块 的视差运动向量。一旦识别视差运动向量(即,指向视图间参考图片的运动向量),便终 止检查过程且将所识别视差运动向量转换成当前块的DV。DV可用于视图间运动预测 及/或视图间残余预测。如果在检查所有预定义相邻块之后未发现视差运动向量,那么 零DV可用于视图间运动预测,而可停用针对对应预测单元(PU)的视图间残余预测。

在一些实例中,可从相邻块的视差向量导出当前块的视差向量。举例来说,相邻 块(例如,空间或时间相邻块)可能并未用视差运动向量进行帧间预测。然而,在编码或 解码相邻块期间,可能已导出所述相邻块的视差向量。可将相邻块的此所导出的视差 向量用作当前块的视差向量。举例来说,如果经评估的相邻块中无一者是用视差运动 向量进行帧间预测,但存在相邻块的所导出的视差向量,那么视频编码器及视频解码 器可将相邻块的所导出的视差向量设置为当前块的视差向量。

基于DV,可将被称作经视图间预测的运动向量的新的运动向量候选者(如果可用 的话)添加到用于AMVP及跳过/合并模式的候选者列表。经视图间预测的运动向量(如 果可用的话)为时间运动向量。一般来说,本发明描述用于改进多视图及3D视频译码 中的运动预测的译码效率的技术。

图1为说明可利用本发明的技术的实例视频编码及解码系统10的框图。如图1中 所展示,系统10包含源装置12,所述源装置提供经编码视频数据以供目的地装置14 在稍后时间解码。明确地说,源装置12经由计算机可读媒体16将视频数据提供到目 的地装置14。源装置12及目的地装置14可包括广泛范围的装置中的任一者,包含桌 上型计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、电话手持机(例如, 所谓的“智能”电话)、所谓的“智能”平板计算机、电视机、摄像机、显示装置、数 字媒体播放器、视频游戏控制台、视频流装置或其类似者。在一些情况下,源装置12 及目的地装置14可能经装备以用于无线通信。

目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机 可读媒体16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类 型的媒体或装置。在一个实例中,计算机可读媒体16可包括使得源装置12能够实时 地将经编码视频数据直接发射到目的地装置14的通信媒体。经编码视频数据可根据通 信标准(例如,无线通信协议)来调制,且被发射到目的地装置14。通信媒体可包括任 何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可能形 成分组网络(例如,局域网。广域网或全球网络,例如因特网)的一部分。通信媒体可包 含路由器、交换器、基站或可以用于促进从源装置12到目的地装置14的通信的任何 其它装备。

在一些实例中,可将经编码数据从输出接口22输出到存储装置。类似地,可通过 输入接口28从存储装置存取经编码数据。存储装置可包含多种分布式或本地存取的数 据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪存存储 器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适的数字存储 媒体。在另一实例中,存储装置可以对应于文件服务器或可存储由源装置12产生的经 编码视频的另一中间存储装置。目的地装置14可经由流式传输或下载从存储装置存取 所存储的视频数据。文件服务器可为能够存储经编码视频数据并且将所述经编码视频 数据发射到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例 如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装 置14可以通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此情形可 包含适合于存取存储在文件服务器上的经编码视频数据的无线信道(例如,Wi-Fi连 接)、有线连接(例如,DSL、电缆调制解调器等)或两者的组合。经编码视频数据从存 储装置的传输可能是流式传输、下载传输或其组合。

本发明的技术未必限于无线应用或设置。所述技术可以应用于支持多种多媒体应 用中的任一者的视频译码,例如空中协议电视广播、有线电视发射、卫星电视发射、 因特网流式视频传输(例如,动态自适应HTTP流式传输(DASH))、经编码到数据存储 媒体上的数字视频,存储在数据存储媒体上的数字视频的解码,或其它应用。在一些 实例中,系统10可经配置以支持单向或双向视频发射,以支持例如视频流式传输、视 频回放、视频广播及/或视频电话等应用。

在图1的实例中,源装置12包含视频源18、深度估计单元19、视频编码器20及 输出接口22。目的地装置14包含输入接口28、视频解码器30、基于深度图像的呈现 (DIBR)单元31及显示装置32。在其它实例中,源装置及目的地装置可包含其它组件或 布置。举例来说,源装置12可以从外部视频源18(例如,外部摄像机)接收视频数据。 同样地,目的地装置14可以与外部显示装置介接,而不是包含集成显示装置。本发明 中描述的技术中的许多技术可由视频编码器20及视频解码器30两者来执行。因此, 为了便于解释,视频编码器20及视频解码器30有时可联合地被称作视频译码器 20/30。相对于视频译码器20/30描述的技术可由视频编码器20或视频解码器30来执 行。

图1的所说明系统10仅为一个实例。本发明的技术可由任何数字视频编码及/或解 码装置执行。尽管本发明的技术一般通过视频编码装置来执行,但是所述技术还可通 过视频编码器/解码器(通常被称作“编码解码器”)来执行。此外,本发明的技术还可 通过视频预处理器来执行。源装置12及目的地装置14仅为此类译码装置的实例,其 中源装置12产生用于发射到目的地装置14的经译码视频数据。在一些实例中,装置 12、14可以实质上对称的方式操作,使得装置12、14中的每一者包含视频编码及解码 组件。因此,系统10可支持视频装置12、14之间的单向或双向视频发射以(例如)用于 视频流式传输、视频回放、视频广播或视频电话。

源装置12的视频源18可包含视频俘获装置,例如视频摄像机、含有先前所俘获 视频的视频存档及/或用于从视频内容提供者接收视频的视频馈送接口。作为另一替代 方案,视频源18可产生基于计算机图形的数据作为源视频,或实况视频、存档视频与 计算机产生的视频的组合。在一些情况下,如果视频源18为视频摄像机,那么源装置 12及目的地装置14可形成所谓的摄像机电话或视频电话。然而,如上文所提及,本发 明中所描述的技术一般可适用于视频译码,且可应用于无线及/或有线应用。在每一种 情况下,可由视频编码器20编码所俘获、经预先俘获或计算机产生的视频。经编码视 频信息可接着通过输出接口22输出到计算机可读媒体16上。

视频源18可将视频数据的多个视图提供到视频编码器20。举例来说,视频源18 可对应于摄像机阵列,所述摄像机各自具有相对于所拍摄的特定场景的独特水平位 置。替代地,视频源18可例如使用计算机图形产生来自迥然不同的水平摄像机视角的 视频数据。深度估计单元19可经配置以确定对应于纹理图像中的像素的深度像素的 值。举例来说,深度估计单元19可表示声音导航与测距(SONAR)单元、光检测与测距 (LIDAR)单元或能够在记录场景的视频数据时实质上同时直接确定深度值的其它单元。

另外或替代地,深度估计单元19可经配置以通过比较在实质上相同时间从不同水 平摄像机视角俘获的两个或两个以上图像来间接计算深度值。通过计算图像中的实质 上类似像素值之间的水平视差,深度估计单元19可粗略估计场景中的各种对象的深 度。在一些实例中,深度估计单元19可在功能上与视频源18集成。举例来说,当视 频源18产生计算机图形图像时,深度估计单元19可例如使用用以呈现纹理图像的像 素及对象的z坐标提供用于图形对象的实际深度图。

计算机可读媒体16可包含瞬时媒体,例如无线广播或有线网络传输,或存储媒体 (即,非暂时性存储媒体),例如硬盘、闪存驱动器、压缩光盘、数字影音光盘、蓝光光 盘或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可以从源装置12接收 经编码视频数据,并且例如经由网络传输将经编码视频数据提供到目的地装置14。类 似地,媒体生产设施(例如,光盘冲压设施)的计算装置可以从源装置12接收经编码视 频数据并且生成含有经编码视频数据的光盘。因此,在各种实例中,计算机可读媒体 16可以理解为包含各种形式的一或多个计算机可读媒体。

目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16 的信息可包含由视频编码器20定义的也供视频解码器30使用的语法信息,所述语法 信息包含描述块及其它经译码单元(例如,图片群组(GOP))的特性及/或处理的语法元 素。显示装置32将经解码视频数据显示给用户,且可包括多种显示装置中的任一者, 例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显 示器或另一类型的显示装置。在一些实例中,显示装置32可包括能够同时或实质上同 时显示两个或两个以上视图(例如)以向观察者产生3D视觉效果的装置。

目的地装置14的DIBR单元31可使用从视频解码器30接收的经解码视图的纹理 及深度信息呈现合成视图。举例来说,DIBR单元31可依据对应深度图中的像素的值 确定纹理图像的像素数据的水平视差。DIBR单元31接着可通过使纹理图像中的像素 向左或向右偏移所确定的水平视差而产生合成图像。以此方式,显示装置32可以任何 组合显示可对应于经解码视图及/或合成视图的一或多个视图。根据本发明的技术,视 频解码器30可将深度范围及摄像机参数的原始及更新精度值提供到DIBR单元31,所 述DIBR单元31可使用深度范围及摄像机参数来恰当地合成视图。

尽管图1中未展示,但在一些方面中,视频编码器20及视频解码器30可各自与 音频编码器及解码器集成,且可包含适当多路复用器-多路分用器(MUX-DEMUX)单元 或其它硬件及软件,以处置对共同数据流或单独数据流中的音频及视频两者的编码。 如果适用的话,多路复用器-多路分用器单元可符合ITU H.223多路复用器协议,或例 如用户数据报协议(UDP)等其它协议。

视频编码器20及视频解码器30可以根据例如高效率视频译码(HEVC)标准等视频 译码标准操作,并且可以符合HEVC测试模型(HM)。即将到来的HEVC标准的新近草 案描述于布洛斯(Bross)等人的文献HCTVC-J1003“高效率视频译码(HEVC)文本规范草 案8(High Efficiency Video Coding(HEVC)Text Specification Draft 8)”(ITU-T SG16 WP3 及ISO/IEC JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC),第10次会议:瑞典 斯德哥尔摩,2012年7月11日到2012年7月12日)中,所述文献从2013年12月4 日起可从http://phenix.int-evry.fr/jct/doc_end_user/documents/10_Stockholm/wg11/JCTVC- J1003-v8.zip下载。被称作“HEVC工作草案10”或“WD10”的HEVC标准的另一新 近草案描述于布洛斯(Bross)等人的文献JCTVC-L1003v34“高效率视频译码(HEVC)文 本规范草案10(High efficiency video coding(HEVC)text specification draft 10)(用于 FDIS及最后呼叫)”(ITU-T SG16 WP3及ISO/IEC JTC1/SC29/WG11的视频译码联合合 作小组(JCT-VC),第12次会议:瑞士日内瓦,2013年1月14至23日)中,所述文献 从2013年12月4日起可从http://phenix.int-evry.fr/jct/doc_end_user/documents/12_ Geneva/wg11/JCTVC-L1003-v34.zip下载。HEVC标准的又一草案在本文中被称作 “WD10修订本”,其描述于布洛斯(Bross)等人的“编者对HEVC版本1的提议修正 (Editors'proposed corrections to HEVC version 1)”(ITU-T SG16 WP3及ISO/IEC  JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC),第13次会议:韩国仁川,2013 年4月)中,所述文献从2013年12月4日起可从http://phenix.int- evry.fr/jct/doc_end_user/documents/13_Incheon/wg11/JCTVC-M0432-v3.zip得到。

出于说明的目的,本发明的技术主要关于HEVC的3DV扩展加以描述。然而,应 理解,这些技术同样可应用于译码用以产生三维效果的视频数据的其它标准。

VCEG及MPEG的3D视频译码联合合作小组(JCT-3C)正在开发基于HEVC的 3DV标准,其标准化努力的部分包含基于HEVC的多视图视频编码解码器(MV-HEVC) 的标准化及用于基于HEVC的3D视频译码(3D-HEVC)的另一部分。对于MV-HEVC, 一般希望仅存在相对于HEVC的高级语法(HLS)改变,以使得HEVC中的CU/PU层级 中没有模块需要重新设计且可完全再用于MV-HEVC。对于3D-HEVC,可包含且支持 用于纹理及深度视图两者的新译码工具,包含在单元/预测单元层级下译码中的那些工 具。从2013年12月4日起,可从以下链接下载用于3D-HEVC的最新软件3D-HTM: https://hevc.hhi.fraunhofer.de/svn/svn_HEVCSoftware/trunk/或https://hevc.hhi.fraunhofer.de/ svn/svn_3DVCSoftware/tags/HTM-5.0/。

替代地,视频编码器20及视频解码器30可根据例如替代地被称作MPEG-4第10 部分高级视频译码(AVC)的ITU-T H.264标准等其它专属或工业标准或此类标准的扩展 (例如,ITU-T H.264/AVC的MVC扩展)操作。明确地说,本发明的技术涉及基于高级 编码解码器的多视图及/或3D视频译码。一般来说,本发明的技术可应用于多种不同 视频译码标准中的任一者。举例来说,这些技术可应用于ITU-T H.264/AVC(高级视频 译码)的多视图视频译码(MVC)扩展,应用于即将到来的HEVC标准的3D视频(3DV)扩 展(例如,3D-HEVC)或其它译码标准。

ITU-T H.264/MPEG-4(AVC)标准是作为被称为联合视频小组(JVT)的集体联盟的产 品而由ITU-T视频译码专家组(VCEG)连同ISO/IEC动画专家组(MPEG)制定。在一些 方面中,本发明中描述的技术可应用于一般符合H.264标准的装置。H.264标准描述于 ITU-T研究组的日期为2005年3月的“ITU-T推荐H.264,用于通用视听服务的高级 视频译码(ITU-T Recommendation H.264,Advanced Video Coding for generic audiovisual  services)”中,其在本文中可被称作H.264标准或H.264规范或H.264/AVC标准或规 范。联合视频小组(JVT)持续致力于扩展H.264/MPEG-4AVC。

视频编码器20及视频解码器30各自可实施为多种合适的编码器电路中的任一 者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编 程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地用软件实施 所述技术时,装置可将用于所述软件的指令存储在合适的非暂时性计算机可读媒体中 且使用一或多个处理器用硬件执行所述指令以执行本发明的技术。视频编码器20及视 频解码器30中的每一者可以包含在一或多个编码器或解码器中,所述编码器或解码器 中的任一者可以集成为相应装置中的组合编码器/解码器(编码解码器)的一部分。包含 视频编码器20及/或视频解码器30的装置可包括集成电路、微处理器及/或无线通信装 置,例如蜂窝式电话。

最初,将论述HEVC的实例译码技术。JCT-VC开发了HEVC标准。HEVC标准化 努力是基于被称作HEVC测试模型(HM)的视频译码装置的演进模型。HM假设视频译 码装置根据(例如)ITU-T H.264/AVC相对于现有装置的若干额外能力。举例来说,虽然 H.264提供9种帧内预测编码模式,但HM可提供多达三十三种角度帧内预测编码模式 加DC及平面模式。

一般来说,HM的工作模型描述视频帧或图片可以划分成包含明度及色度样本两者 的一序列树块或最大译码单元(LCU)。位流内的语法数据可以定义LCU的大小,LCU 是就像素数目来说的最大译码单元。切片包含按译码次序的数个连续树块。视频帧或 图片可以分割成一或多个切片。每一树块可根据四叉树分裂成译码单元(CU)。一般来 说,四叉树数据结构包含每一CU一个节点,其中根节点对应于所述树块。如果CU分 裂成四个子CU,那么对应于CU的节点包含四个叶节点,所述叶节点中的每一者对应 于所述子CU中的一者。

四叉树数据结构的每一节点可以提供对应CU的语法数据。举例来说,四叉树中的 节点可包含分裂旗标,从而指示对应于所述节点的CU是否分裂成数个子CU。CU的 语法元素可以递归地来定义,且可以取决于CU是否分裂成子CU。如果CU未经进一 步分裂,那么将其称作叶CU。在本发明中,叶CU的四个子CU也将被称作叶CU, 即使不存在原始叶CU的明确分裂时也如此。举例来说,如果16×16大小的CU未经进 一步分裂,那么尽管16×16CU从未经分裂,四个8×8子CU也将被称作叶CU。

除了CU不具有大小区别以外,CU具有与H.264标准的宏块类似的目的。举例来 说,树块可以分裂成四个子节点(还被称作子CU),并且每一子节点又可以是父节点并 且可以分裂成另外四个子节点。最终的未经分裂子节点(被称作四叉树的叶节点)包括译 码节点,还被称作叶CU。与经译码位流相关联的语法数据可以定义树块可以分裂的最 大次数(被称作最大CU深度),并且还可定义译码节点的最小大小。因此,位流还可定 义最小译码单元(SCU)。本发明使用术语“块”来指HEVC的上下文中的CU、PU或 TU中的任一者,或者其它标准的上下文中的类似数据结构(例如,其在H.264/AVC中 的宏块及子块)。

CU包含译码节点及与所述译码节点相关联的预测单元(PU)及变换单元(TU)。CU 的大小对应于译码节点的大小且形状必须是正方形。CU的大小可以在从8×8像素直到 具有最大64×64像素或更大的树块的大小的范围内。每一CU可以含有一或多个PU及 一或多个TU。举例来说,与CU相关联的语法数据可描述CU到一或多个PU的分 割。分割模式可以在CU被跳过或经合并模式编码、经帧内预测模式编码还是经帧间预 测模式编码之间有区别。PU可分割成非正方形形状。举例来说,与CU相关联的语法 数据还可描述CU根据四叉树到一或多个TU的分割。TU可以是正方形或非正方形(例 如,矩形)形状。

HEVC标准允许根据TU进行的变换,TU可针对不同CU而有所不同。TU的大小 通常是基于针对经分割的LCU定义的给定CU内的PU的大小来设置,但是情况可能 并不总是如此。TU通常与PU大小相同或小于PU。在一些实例中,可以使用被称为 “残余四叉树”(RQT)的四叉树结构将对应于CU的残余样本细分成较小单元。RQT的 叶节点可被称作变换单元(TU)。可以变换与TU相关联的像素差值以产生变换系数,可 以将所述变换系数量化。

叶CU可包含一或多个预测单元(PU)。一般来说,PU表示对应于对应CU的全部 或一部分的空间区域,并且可包含用于检索PU的参考样本的数据。此外,PU包含与 预测有关的数据。举例来说,当PU经帧内模式编码时,用于PU的数据可以包含在残 余四叉树(RQT)中,残余四叉树可包含描述用于对应于PU的TU的帧内预测模式的数 据。作为另一实例,当PU经帧间模式编码时,PU可包含定义PU的一或多个运动向 量的数据。定义PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的 垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向 量所指向的参考图片及/或运动向量的参考图片列表(例如,列表0、列表1或列表C)。

具有一或多个PU的叶CU还可包含一或多个变换单元(TU)。变换单元可以使用 RQT(还被称作TU四叉树结构)来指定,如上文所论述。举例来说,分裂旗标可以指示 叶CU是否分裂成四个变换单元。接着,每一变换单元可以进一步分裂成其它子TU。 当TU未经进一步分裂时,其可被称作叶TU。一般来说,对于帧内译码,属于叶CU 的所有叶TU共享相同的帧内预测模式。也就是说,一般应用相同帧内预测模式来计算 叶CU的所有TU的预测值。对于帧内译码,视频编码器可以使用帧内预测模式将每一 叶TU的残余值计算为CU的对应于TU的部分与原始块之间的差。TU未必限于PU的 大小。因此,TU可大于或小于PU。对于帧内译码,PU可以与相同CU的对应叶TU 并置。在一些实例中,叶TU的最大大小可以对应于对应叶CU的大小。

此外,叶CU的TU还可与相应四叉树数据结构(被称作残余四叉树(RQT))相关 联。也就是说,叶CU可包含指示叶CU如何分割成TU的四叉树。TU四叉树的根节 点一般对应于叶CU,而CU四叉树的根节点一般对应于树块(或LCU)。未经分裂的 RQT的TU被称作叶TU。一般来说,除非以其它方式提及,否则本发明分别使用术语 CU及TU来指叶CU及叶TU。

视频序列通常包含一系列视频帧或图片。图片群组(GOP)一般包括一系列的视频图 片中的一或多者。GOP可包含GOP的标头、图片中的一或多者的标头或其它处的语法 数据,其描述GOP中所包含的图片的数目。图片的每一切片可包含切片语法数据,其 描述用于相应切片的编码模式。视频编码器20通常对个别视频切片内的视频块进行操 作以便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化的 大小,且可根据指定译码标准而大小不同。

作为实例,HM支持各种PU大小的预测。假设特定CU的大小为2N×2N,那么 HM支持2N×2N或N×N的PU大小的帧内预测,及2N×2N、2N×N、N×2N或N×N的 对称PU大小的帧间预测。HM还支持用于2N×nU、2N×nD、nL×2N及nR×2N的PU 大小的帧间预测的不对称分割。在不对称分割中,不分割CU的一个方向,而另一方向 分割成25%及75%。CU的对应于25%分割区的部分通过“n”后接续“上”、 “下”、“左”或“右”指示来指示。因此,例如,“2N×nU”是指经水平地分割的 2N×2N CU,其中顶部为2N×0.5N PU,而底部为2N×1.5N PU。

在本发明中,“N×N”及“N乘N”可以互换使用以指在垂直尺寸及水平尺寸方 面的视频块的像素尺寸,例如,16×16像素或16乘16像素。一般来说,16×16块将在 垂直方向上具有16个像素(y=16),且在水平方向上具有16个像素(x=16)。同样地, N×N块一般在垂直方向上具有N个像素,并且在水平方向上具有N个像素,其中N表 示非负整数值。块中的像素可布置成行及列。此外,块未必需要在水平方向与垂直方 向上具有相同数目个像素。举例来说,块可包括N×M像素,其中M未必等于N。

在使用CU的PU进行帧内预测性或帧间预测性译码之后,视频编码器20可以计 算CU的TU的残余数据。PU可包括描述在空间域(还被称作像素域)中产生预测性像素 数据的方法或模式的语法数据,并且TU可包括在对残余视频数据应用变换(例如,离 散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换)之后在变换域中的系 数。残余数据可以对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视 频编码器20可以形成包含用于CU的残余数据的TU,并且接着变换TU以产生用于 CU的变换系数。

在进行用于产生变换系数的任何变换之后,视频编码器20可执行变换系数的量 化。量化一般是指将变换系数量化以可能减少用于表示系数的数据量从而提供进一步 压缩的过程。量化过程可减少与系数中的一些系数或全部相关联的位深度。举例来 说,可在量化期间将n位值向下舍入到m位值,其中n大于m。

在量化之后,视频编码器可以扫描变换系数,从而从包含经量化的变换系数的二 维矩阵产生一维向量。扫描可以经过设计以将较高能量(并且因此较低频率)的系数放置 在阵列正面,并且将较低能量(并且因此较高频率)的系数放置在阵列的背面。在一些实 例中,视频编码器20可利用预定义扫描次序来扫描经量化的变换系数以产生可经熵编 码的串行化向量。在其它实例中,视频编码器20可以执行自适应扫描。在扫描经量化 的变换系数以形成一维向量之后,视频编码器20可例如根据上下文自适应可变长度译 码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进 制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法来熵编码所述一维 向量。视频编码器20还可熵编码与经编码视频数据相关联的语法元素以供视频解码器 30在解码视频数据时使用。

为了执行CABAC,视频编码器20可将上下文模型内的上下文指配给待发射的符 号。上下文可涉及(例如)符号的相邻值是否为非零。为了执行CAVLC,视频编码器20 可选择用于待发射的符号的可变长度码。VLC中的码字可经构造而使得相对较短的码 对应于更有可能的符号,而较长的码对应于不太可能的符号。举例来说,与对待发射 的每一符号使用等长度码字的情形相比较,以此方式,使用VLC可实现位节省。概率 确定可基于指配给符号的上下文。

在此章节中,将论述多视图及多视图加深度译码技术。最初,将论述MVC技术。 如上文所提及,MVC为ITU-T H.264/AVC的扩展。在MVC中,按时间优先次序译码 多个视图的数据,且因此,解码次序布置被称作时间优先译码。明确地说,可译码在 共同时间实例的多个视图中的每一者的视图分量(即,图片),接着可译码用于不同时间 实例的另一组视图分量,等等。存取单元可包含用于一个输出时间实例的所有视图的 经译码图片。应理解,存取单元的解码次序未必等同于输出(或显示)次序。

图2展示典型MVC解码次序(即,位流次序)。解码次序布置被称作时间优先译 码。应注意,存取单元的解码次序可能并不等同于输出或显示次序。在图2中,S0到 S7各自是指多视图视频的不同视图。T0到T8各自表示一个输出时间实例。存取单元 可包含针对一个输出时间实例的所有视图的经译码图片。举例来说,第一存取单元可 包含针对时间实例T0的所有视图S0到S7,第二存取单元可包含针对时间实例T1的 所有视图S0到S7,等等。

出于简洁目的,本发明可使用以下定义:

视图分量:单个存取单元中的视图的经译码表示。当视图包含经译码纹理及深度 表示两者时,视图分量由纹理视图分量及深度视图分量组成。

纹理视图分量:单个存取单元中的视图的纹理的经译码表示。

深度视图分量:单个存取单元中的视图的深度的经译码表示。

在图2中,所述视图中的每一者包含数组图片。举例来说,视图S0包含图片组 0、8、16、24、32、40、48、56及64,视图S1包含图片组1、9、17、25、33、41、 49、57及65,等等。每一组包含两个图片:一个图片被称作纹理视图分量,且另一图 片被称作深度视图分量。视图的一组图片内的纹理视图分量及深度视图分量可被视为 对应于彼此。举例来说,视图的一组图片内的纹理视图分量被视为对应于视图的图片 的所述组内的深度视图分量,且反过来也一样(即,深度视图分量对应于其在所述组中 的纹理视图分量,且反过来也一样)。如本发明中所使用,对应于深度视图分量的纹理 视图分量可被视为纹理视图分量及深度视图分量为单个存取单元的同一视图的部分。

纹理视图分量包含所显示的实际图像内容。举例来说,所述纹理视图分量可包含 明度(Y)及色度(Cb及Cr)分量。深度视图分量可指示其对应纹理视图分量中的像素的相 对深度。作为一个实例,深度视图分量为仅包含明度值的灰阶图像。换句话说,深度 视图分量可能并不传达任何图像内容,而是提供纹理视图分量中的像素的相对深度的 量度。

举例来说,深度视图分量中的纯白色像素指示其在对应纹理视图分量中的对应的 一或多个像素较接近于观看者的视角,且深度视图分量中的纯黑色像素指示其在对应 纹理视图分量中的对应一或多个像素距观看者的视角较远。黑色与白色之间的各种灰 度梯度指示不同深度等级。举例来说,深度视图分量中的深灰色像素指示其在纹理视 图分量中的对应像素比深度视图分量中的浅灰色像素更远。因为仅需要灰阶来识别像 素的深度,所以深度视图分量不需要包含色度分量,这是因为深度视图分量的颜色值 可能并不用于任何目的。

仅使用明度值(例如,强度值)来识别深度的深度视图分量是出于说明的目的而提 供,且不应被视为限制性的。在其它实例中,可利用任何技术来指示纹理视图分量中 的像素的相对深度。

图3展示用于多视图视频译码的典型MVC预测结构(包含每一视图内的图片间预 测及视图间预测两者)。图3中的预测方向是通过箭头来指示,其中箭头指向的对象使 用箭头出发的对象作为预测参考。在MVC中,通过视差运动补偿支持视图间预测,所 述视差运动补偿使用H.264/AVC运动补偿的语法但允许将不同视图中的图片用作参考 图片。

在图3的实例中,说明六个视图(具有视图ID“S0”到“S5”),且对于每一视图 说明十二个时间位置(“T0”到“T11”)。也就是说,图3中的每一行对应于视图,而 每一列指示时间位置。

尽管MVC具有可由H.264/AVC解码器解码的所谓的基础视图,且MVC还可支持 立体视图对,但MVC的优点在于其可支持使用两个以上视图作为3D视频输入且解码 通过多个视图表示的此3D视频的实例。具有MVC解码器的客户端的呈现器(renderer) 可预期具有多个视图的3D视频内容。

在每一行及每一列的交叉点处指示图3中的图片。H.264/AVC标准可使用术语帧 来表示视频的一部分。本发明可互换地使用术语图片与帧。

使用包含字母的块来说明图3中的图片,字母指明对应图片是经帧内译码(即,I 图片),还是在一个方向上经帧间译码(即,作为P图片),还是在多个方向上经帧间译 码(即,作为B图片)。一般来说,预测通过箭头来指示,其中箭头指向的图片使用箭头 出发的图片用于预测参考。举例来说,时间位置T0处的视图S2的P图片是从时间位 置T0处的视图S0的I图片预测的。

如同单个视图视频编码,可相对于不同时间位置处的图片预测性地编码多视图视 频译码视频序列的图片。举例来说,时间位置T1处的视图S0的b图片具有从时间位 置T0处的视图S0的I图片指向其的箭头,从而指示所述b图片是从所述I图片预测 的。然而,另外,在多视图视频编码的上下文中,可对图片进行视图间预测。也就是 说,视图分量可使用其它视图中的视图分量用于参考。举例来说,在MVC中,如同另 一视图中的视图分量为帧间预测参考那样实现视图间预测。在序列参数集(SPS)MVC 扩展中用信号发出可能的视图间参考且可通过参考图片列表构造过程修改所述参考, 此情形使得能够灵活地将帧间预测或视图间预测参考排序。视图间预测也为包含3D- HEVC(多视图加深度)的HEVC的所提议多视图扩展的特征。

图3提供视图间预测的各种实例。在图3的实例中,将视图S1的图片说明为是从 视图S1的不同时间位置处的图片预测,且是从相同时间位置处的视图S0及S2的图片 经视图间预测而来。举例来说,时间位置T1处的视图S1的b图片是从时间位置T0及 T2处的视图S1的B图片中的每一者以及时间位置T1处的视图S0及S2的b图片预 测。

在一些实例中,图3可被视为说明纹理视图分量。举例来说,图2中所说明的I、 P、B及b图片可被视为视图中的每一者的纹理视图分量。根据本发明中所描述的技 术,对于图3中所说明的纹理视图分量中的每一者,存在对应深度视图分量。在一些 实例中,可以类似于图3中针对对应纹理视图分量所说明的方式的方式预测深度视图 分量。

两个视图的译码也可由MVC支持。MVC的优点中的一个优点是:MVC编码器可 将两个以上视图视为3D视频输入且MVC解码器可解码此类多视图表示。因此,具有 MVC解码器的任何呈现器可预期具有两个以上视图的3D视频内容。

在MVC中,允许在相同存取单元(即,具有相同时间实例)中的图片当中进行视图 间预测。在译码非基础视图中的一者中的图片时,如果图片在不同视图中,但在相同 时间实例内,那么可将图片添加到参考图片列表中。可将视图间参考图片放置在参考 图片列表的任何位置中,正如任何帧间预测参考图片一样。如图3中所展示,视图分 量可出于参考目的使用其它视图中的视图分量。在MVC中,实现视图间预测,如同另 一视图中的视图分量为帧间预测参考一样。

下文描述与可供多视图译码及/或具有深度的多视图译码(MV-HEVC)(3D-HEVC)使 用的帧间预测有关的一些相关HEVC技术。用于论述的第一技术为用于帧间预测的参 考图片列表构造。

使用帧间预测译码PU涉及计算当前块(例如,PU)与参考帧中的块之间的运动向 量。通过被称为运动估计(或运动搜索)的过程计算运动向量。举例来说,运动向量可指 示当前帧中的预测单元相对于参考帧的参考样本的位移。参考样本可为发现密切地匹 配CU的包含PU的部分的块(其依据像素差进行译码),像素差可通过绝对差总和 (SAD)、平方差总和(SSD)或其它差异量度来确定。参考样本可出现在参考帧或参考切 片内的任何地方。在一些实例中,参考样本可出现在分数像素位置处。在发现最佳地 匹配当前部分的参考帧的一部分后,编码器便将当前块的当前运动向量确定为从当前 块到参考帧中的匹配部分(例如,从当前块的中心到匹配部分的中心)的位置的差。

在一些实例中,编码器可在经编码视频位流中用信号发出每一块的运动向量。用 信号发出的运动向量供解码器用以执行运动补偿以便解码视频数据。然而,直接用信 号发出原始运动向量可导致效率不高的译码,这是因为通常需要大量位来传达信息。

在一些情况下,不是直接用信号发出原始运动向量,而是,编码器可预测每一分 割区(即,每一PU)的运动向量。在执行此运动向量预测中,编码器可选择从与当前块 相同的帧中的空间上相邻块确定的一组运动向量候选者或从参考帧(即,除当前帧以外 的帧)中处于相同位置的块确定的时间运动向量候选者。视频编码器20可执行运动向量 预测,且在需要时用信号发出到参考图片的索引以预测运动向量而不是用信号发出原 始运动向量,从而减少发信中的位速率。来自空间上相邻块的运动向量候选者可被称 作空间MVP候选者,而来自另一参考帧中的处于相同位置的块的运动向量候选者可被 称作时间MVP候选者。

在HEVC标准中提议两种不同模式或类型的运动向量预测。一种模式被称作“合 并”模式。另一种模式被称作自适应运动向量预测(AMVP)。

在合并模式中,视频编码器20通过预测语法的位流发信指导视频解码器30复制 来自帧的当前块的所选定运动向量候选者的运动向量、参考索引(识别给定参考图片列 表中的运动向量所指向的参考帧)及运动预测方向(其识别参考图片列表(列表0或列表 1),即,依据参考帧在时间上是在当前帧之前还是之后)。此操作是通过在位流中用信 号发出识别所选定运动向量候选者(即,特定空间MVP候选者或时间MVP候选者)的 到运动向量候选者列表中的索引来实现。

因此,对于合并模式,预测语法可包含识别模式(在此情况下为“合并”模式)的旗 标及识别所选定运动向量候选者的索引。在一些情况下,运动向量候选者将在参考当 前块的因果性块中。也就是说,运动向量候选者将已经由视频解码器30解码。因此, 视频解码器30已经接收及/或确定因果性块的运动向量、参考索引及运动预测方向。因 此,视频解码器30可简单地从存储器检索与因果性块相关联的运动向量、参考索引及 运动预测方向且复制这些值作为当前块的运动信息。为了在合并模式中重新构造块, 视频解码器30使用当前块的所导出的运动信息获得预测性块,且将残余数据加到预测 性块以重新构造经译码块。对于跳过模式,产生相同合并候选者列表但不用信号发出 残余。为简单起见,因为跳过模式具有与合并模式相同的运动向量导出过程,所以此 文献中所描述的所有技术适用于合并模式及跳过模式两者。

在AMVP中,视频编码器20通过位流发信指导视频解码器30仅复制来自候选块 的运动向量,且使用复制的向量作为当前块的运动向量的预测符,且用信号发出运动 向量差(MVD)。参考帧及与当前块的运动向量相关联的预测方向单独地用信号发出。 MVD为当前块的当前运动向量与从候选块导出的运动向量预测符之间的差。在此情况 下,视频编码器20使用运动估计确定待译码的块的实际运动向量,且接着确定实际运 动向量与运动向量预测符之间的差作为MVD值。以此方式,视频解码器30并不如合 并模式中那样使用运动向量候选者的确切副本作为当前运动向量,而是可使用值可 “接近”从运动估计确定的当前运动向量的运动向量候选者且加上MVD以再生当前运 动向量。为了在AMVP模式中重新构造块,解码器加上对应残余数据以重新构造经译 码块。

在大多数情况下,MVD需要比整个当前运动向量少的位来发信。因此,AMVP允 许当前运动向量的更精确发信,同时维持优于发送整个运动向量的译码效率。与此对 比,合并模式并不允许MVD的规范,并且因此,合并模式牺牲运动向量发信的准确度 以得到增加的发信效率(即,较少位)。用于AMVP的预测语法可包含用于所述模式的 旗标(在此情况下为AMVP旗标)、用于候选块的索引、当前运动向量与来自候选块的 预测性运动向量之间的MVD、参考索引以及运动预测方向。

图4展示可用于合并模式及AMVP模式两者中的一组实例候选块120。在此实例 中,候选块是在左下(A0)121、左(A1)122、左上(B2)125、上方(B1)124及右上(B0) 123空间位置中,及在时间(T)126位置中。在此实例中,左候选块122邻近当前块127 的左边缘。左块122的下边缘与当前块127的下边缘对准。上方块124邻近当前块127 的上边缘。上方块124的右边缘与当前块127的右边缘对准。

块A0、A1、B0、B1及B2通常被称作空间上相邻块或空间上相邻PU。视频译码器 20/30可通过首先确定当前PU(例如,图4中的当前块127)的左上方明度样本相对于当 前图片的左上方样本的位置来确定空间上相邻块的位置。此明度位置将被称作位置(xP, yP)。视频译码器20/30可另外确定明度PU的宽度(简称为nPSW)及明度PU的高度(简 称为nPSH)。基于当前PU的左上方明度样本的位置以及当前PU的高度及宽度,可如 下确定空间上相邻块的明度样本的位置:

块A0包含位置(xP-1,yP+nPSH)处的明度样本;

块A1包含位置(xP-1,yP+nPSH-1)处的明度样本;

块B0包含位置(xP+nPSW,yP-1)处的明度样本;

块B1包含位置(xP+nPSW-1,yP-1)处的明度样本;

块B2包含位置(xP-1,yP-1)处的明度样本。

空间相邻块可与当前PU大小相同或可大小不同。

供用于合并模式的候选者列表可使用上文所论述的空间相邻块来导出。运动向量 及两个参考列表的参考索引可如通过以下有序步骤指定那样来导出,所述步骤是用于 空间合并候选者的导出过程的实例。作为导出过程的部分,视频编码器20及视频解码 器30按以下次序检查空间相邻PU的运动信息:A1、B1、B0、A0或B2。视频编码器 20及视频解码器30可执行受约束的修剪以便减少或消除重复候选者以免添加到候选者 列表。视频译码器20/30可如下导出待包含在合并模式候选者列表中的空间候选者:

-视频译码器20/30在A1可用的情况下将A1插入到候选者列表中。

-如果B1及A1具有相同的运动向量及相同的参考索引,那么视频译码器20/30 并不将B1插入到候选者列表中。如果B1及A1并不具有相同的运动向量及相同的参考 索引,那么视频译码器20/30在B1可用的情况下将B1插入到候选者列表中。

-如果B0及B1具有相同的运动向量及相同的参考索引,那么视频译码器20/30 并不将B0插入到候选者列表中。如果B0及B1并不具有相同的运动向量及相同的参考 索引,那么视频译码器20/30在B0可用的情况下将B0插入到候选者列表中。

-如果A0及A1具有相同的运动向量及相同的参考索引,那么视频译码器20/30 并不将A0插入到候选者列表中。如果A0及A1并不具有相同的运动向量及相同的参考 索引,那么视频译码器20/30在A0可用的情况下将A0插入到候选者列表中。

-当不满足以下两个条件时,视频译码器20/30将B2插入到候选者列表中:

-B2及B1或B2及A1具有相同的运动向量及相同的参考索引。

-从A1、B1、B0、A0导出的所有四个空间合并候选者包含在候选者列表中。

视频译码器20/30可如下导出待包含在合并模式候选者列表中的时间候选者:

-为了得到时间合并候选者,视频译码器20/30首先识别处于相同位置的图片。 如果当前图片是B切片,那么在切片标头中用信号发出语法元素 “collocated_from_l0_flag”以指示处于相同位置的图片是来自RefPicList0还是 RefPicList1。

-在视频译码器20/30识别参考图片列表之后,视频译码器20/30使用在切片标 头中用信号发出的语法元素collocated_ref_idx来识别列表中的图片。

-视频译码器20/30接着通过检查处于相同位置的图片而识别处于相同位置的 PU。视频译码器20/30使用含有此PU的CU的右下方PU的运动或含有此PU的CU 的中心PU内的右下方PU的运动作为时间候选者。

-当通过上述过程识别的运动向量用以产生用于合并模式的运动候选者时,视频 译码器20/30可能需要基于时间位置按比例缩放运动向量(通过图片次序计数(即,POC) 来反映)。

-在HEVC中,PPS包含旗标enable_temporal_mvp_flag。当具有等于0的 temporal_id的特定图片参考具有等于0的enable_temporal_mvp_flag的PPS时,视频译 码器20/30可将DPB中的所有参考图片标记为“不用于时间运动向量预测”,且来自 按解码次序在所述特定图片之前的图片的运动向量将不会在解码所述特定图片或按解 码次序在所述特定图片之后的图片中用作时间运动向量预测符。

如果当前切片是B切片且从上文所论述的空间及时间候选者导出过程导出的候选 者的总数目小于候选者的最大数目且大于1,那么视频译码器20/30可调用用于产生双 向预测性候选者的过程。视频译码器20/30可如下导出待包含在合并模式候选者列表中 的双向预测性候选者:

-基于以下表1,为了产生具有索引combIdx的组合双向预测性候选者,具有等 于l0CandIdx(如果可用的话)的条目的候选者列表的RefList0运动信息(MotList0)及具有 等于l1CandIdx(如果可用的话)的条目且不等同于MotList0的候选者列表的RefList1运 动信息(MotList1)可供视频译码器20/30作为组合双向预测性候选者的RefList0及 RefList1运动信息再使用。

表1-HEVC中的l0CandIdx及l1CandIdx的规范

combIdx 0 1 2 3 4 5 6 7 8 9 10 11 l0CandIdx 0 1 0 2 1 2 0 3 1 3 2 3 l1CandIdx 1 0 2 0 2 1 3 0 3 1 3 2

在从上文针对确定空间、时间及双向预测性候选者所描述的上述三个过程导出的 候选者的总数目产生小于候选者的最大数目的情况下,视频译码器20/30可导出待包含 在合并模式候选者列表中的零运动向量候选者。在此情况下,视频译码器20/30可将每 一参考图片的零运动向量插入到候选者列表中。在HEVC WD 10中,合并(MRG)列表 中的候选者的总数目为至多5个且在切片标头中用信号发出 five_minus_max_num_merge_cand以指定从5减去MRG候选者的最大数目。

为了进一步改进用于译码3D视频的译码效率,已将两种新技术引入到3D-HEVC 中,即,“视图间运动预测”及“视图间残余预测”。为了实现这两种译码工具,视 频译码器20/30经配置以导出当前块的视差向量。

视频译码器20/30可经配置以使用被称作基于相邻块的视差向量(NBDV)的技术导 出视差向量,所述技术利用来自空间及时间相邻块的视差运动向量或来自相邻块的所 导出的视差向量来确定当前块的视差向量。在NBDV中,视频译码器20/30按固定检 查次序检查空间或时间相邻块的运动向量,且一旦识别视差运动向量(即,运动向量指 向视图间参考图片),视频译码器20/30便终止所述检查过程。视频译码器20/30传回 所识别的视差运动向量且将所识别的视差运动向量转换成当前块的视差向量,当前块 的视差向量可用于视图间运动预测及视图间残余预测。如果在检查所有预定义的相邻 块之后未发现视差运动向量,那么视频译码器20/30可使用零视差向量用于视图间运动 预测,同时可针对对应预测单元(PU)停用视图间残余预测。

用于NBDV的供视频译码器20/30使用的块包含空间相邻块及时间相邻块。作为 导出视差向量的部分,视频译码器20/30分析至多五个空间相邻块。所述五个空间相邻 块包含当前PU的左下方块、左块、右上方块、上方块及左上方块,通过A0、A1、 B0、B1或B2来指示。在这点上,作为NBDV的部分加以分析的空间相邻块可对应于上 文关于图4中的合并模式所论述的相同空间相邻块,但用于NBDV的空间相邻块及用 于AMVP及合并模式的候选者列表构造未必必须相同。

视频译码器20/30还确定时间相邻块。视频译码器20/30可将来自当前视图的所有 参考图片视为候选图片,或在一些实施方案中,可进一步约束候选图片的数目,例 如,约束到四个候选图片。视频译码器20/30首先检查处于相同位置的参考图片且(例 如)按参考索引(refIdx)的升序检查其余候选图片。当RefPicList0[refIdx]及 RefPicList1[refIdx]两者可用时,RefPicListX[refIdx]在另一图片之前,其中X等于 collocated_from_l0_flag。

对于每一候选图片,视频译码器20/30确定用于导出时间相邻块的三个候选区。当 区涵盖一个以上16×16块时,视频译码器20/30可按(例如)光栅扫描次序检查此区中的 所有16×16块。如下定义三个候选区:(1)CPU-当前PU或当前CU的处于相同位置 的区,(2)CLCU-涵盖当前PU的处于相同位置的区的最大译码单元(LCU),及(3)BR -CPU的右下方4×4块。

应理解,上文针对检查参考图片的时间相邻块所描述的技术为一个实例。可能存 在进行检查的参考图片的其它实例。

图5展示在候选图片中检查的用于确定当前块的视差向量的块的实例。举例来 说,视频译码器20/30可考虑来自当前视图的至多两个候选图片。来自当前视图的第一 候选图片可为作为构造候选者列表(例如,时间候选者)的部分而识别的处于相同位置的 图片。第二候选图片可为随机存取图片,或具有最小POC差及最小temporalId的参考 图片。在一些实例中,视频译码器20/30可首先检查随机存取图片,且在未发现视差运 动向量的情况下,检查处于相同位置的图片。

对于这些候选图片中的每一者,视频译码器20/30可检查两个块。第一块可为中心 块(CR),其可为当前PU的处于相同位置的区的中心4×4块,如通过图5中的位置A 说明。第二块可为右下方块(BR),其可为当前PU的处于相同位置的区的右下方4×4 块,如通过图5中的位置B说明。

视频译码器20/30可经配置以按特定次序(即,检查次序)检查块。视频译码器 20/30可首先检查空间相邻块,后接续检查时间相邻块。五个空间相邻块的检查次序可 (例如)经定义为A1、B1、B0、A0及B2,或任何其它此类次序。对于每一候选图片,视 频译码器20/30可按检查次序检查候选图片中的三个候选区。三个区的检查次序可(例 如)经定义为用于第一非基础视图的CPU、CLCU及BR、用于第二非基础视图的BR、 CPU及CLU,或任何其它此类次序。在另一实例中,对于每一候选图片(例如,其中存 在至多两个候选图片),按次序检查所述两个块:用于第一非基础视图的CR及BR,或 用于第二非基础视图的BR、CR。

如上文所描述,视频译码器20/30可通过检查相邻块的视差运动向量确定当前块的 视差向量,且在发现相邻块的视差运动向量的情况下,转换所述视差运动向量作为当 前块的视差向量。另外,在一些实例中,可使用相邻块的所导出的视差向量来确定当 前块的视差向量。举例来说,可能并未利用视差运动向量对相邻块进行帧间预测,但 可在预测相邻块期间导出相邻块的视差向量。此所导出的视差向量可被称作隐式视差 向量(IDV)且例如,当进行检查的相邻块中无一者是利用视差运动向量进行帧间预测 时,可使用所导出的视差向量来确定当前块的视差向量。

举例来说,当PU使用视图间运动向量预测时,产生隐式视差向量(IDV),即,借 助于视差向量从另一视图中的对应块导出用于AMVP或合并模式的候选者。此类视差 向量被称为IDV。出于视差向量导出的目的,将IDV存储到PU。

如更详细地描述,视频译码器20/30可经配置以执行视图间候选者导出。基于视差 向量(DV),视频译码器20/30可确定新的运动向量候选者(被称作视图间候选者),且将 新的运动向量候选者添加到候选者列表以供在AMVP及跳过/合并模式中使用。

举例来说,视图间候选者导出的一个实例是经视图间预测的运动向量候选者 (IPMVC),及视图间视差运动向量候选者(IDMVC)的另一实例。IPMVC包含通过当前 块的视差向量参考的参考视图中的参考块的运动信息(例如,运动向量及用于参考图片 列表的一或多个参考索引),其中当前块的视差向量是基于上述实例技术来确定。 IDMVC为经转换为视差运动向量的视差向量。

在一些实例中,视频译码器20/30可将视差向量移位(例如,通过加上偏移值或从 视差向量减去偏移值)。视频译码器20/30可基于经移位的视差向量使用与在不将视差 向量移位的情况下的技术类似的技术导出额外IPMVC及IDMVC。举例来说,视频译 码器20/30可在一个方向上水平地将视差向量移位(例如,通过加上固定偏移值或从视 差向量的x分量减去固定偏移值)。

视频译码器20/30可识别通过经移位达偏移值的视差向量识别的参考视图中的参考 块。通过经移位达偏移值的视差向量识别的参考块的运动信息可为额外IPMVC的一个 实例(即,外加在不将视差向量移位的情况下导出的IPMVC)。作为另一实例,视频译 码器20/30可将视差向量移位,且可转换经移位的视差向量作为额外IDMVC(即,外 加在不将视差向量移位的情况下导出的IDMVC)。

在一些实例中,视频译码器20/30可将视差向量移位所达的以用于导出IPMVC的 量可不同于视频译码器20/30可将视差向量移位所达的以用于导出IDMVC的量。换句 话说,视频译码器20/30可针对当前块将视差向量移位达第一偏移值以用于导出额外 IPMVC,且针对当前块将视差向量移位达第二不同的偏移值以用于导出额外IDMVC。

第一偏移值或第二偏移值可被视为包含经水平移位的值及经垂直移位的值的向 量。举例来说,为了将视差向量移位达第一偏移值以用于导出IPMVC,视频译码器 20/30可针对当前块对视差向量加上或减去包含经水平移位的值及经垂直移位的值的第 一向量。类似地,为了将视差向量移位达第二偏移值以用于导出IDMVC,视频译码器 20/30可针对当前块对视差向量加上或减去包含经水平移位的值及经垂直移位的值的第 二向量。在本发明中所描述的技术中,用以将视差向量移位达第一偏移值的第一向量 及用以将视差向量移位达第二偏移值的第二向量可为不同向量。在一些实例中,用于 第一或第二偏移值的经垂直移位的值可等于0以实现视差向量的仅水平移位以用于导 出IPMVC及IDMVC。

图6展示经视图间预测的运动向量候选者(IPMVC)的导出过程的实例。通过视差向 量(例如,使用上文所描述的技术确定的),视频译码器20/30可将不同视图(例如,视图 0或V0,其还为参考视图)中的对应块142定位到当前经译码视图(视图1或V1)中的当 前PU 140。如果对应块142(其还被称作参考块)并非经帧内译码且并非进行视图间预 测,且其参考图片具有在当前PU 140的参考图片列表中的POC值(例如,参考0,列 表0;参考0,列表1;参考1,列表1,如图6中所展示),那么将对应块142的运动 信息(例如,运动向量及参考图片索引中的至少一者)用作经视图间预测的运动向量。

可能存在关于对应块142(例如,参考块)的运动信息是否可被视为IPMVC的某些 要求。换句话说,可能存在确定IPMVC是否可用的某些要求。一个要求可为:对应块 142的运动向量为时间运动向量。时间运动向量为参考相同视图中的图片的运动向量。 举例来说,在图6中,对应块142(例如,参考块142)在视图0中,且为了使对应块 142具有时间运动向量,将需要对应块142的运动向量参考与对应块142相同的视图 (例如,视图0)中的图片。如图6中所说明,对应块142的运动向量为时间运动向量, 这是由于其参考与对应块142相同的参考视图(例如,视图0)中的图片。

另一要求可为:参考块(例如,对应块142)的时间运动向量参考参考视图中具有等 于当前块(例如,当前PU 140)的参考图片列表(例如,RefPicList0或RefPicList1)中的图 片的图片次序计数(POC)值的POC值的图片。作为辅助理解的一个说明性实例,对应 块142的参考图片列表可识别用以对对应块142进行帧间预测的两个图片位于 RefPicList0中的第一参考索引及RefPicList1中的第二参考索引处。用以对对应块142 进行帧间预测的两个图片的POC值可为POC X及POC Y。对于将被视为可用的 IPMVC,至少一个参考图片列表(即,RefPicList0或RefPicList1)应包含具有等于POC  X及POC Y的POC值的图片。换句话说,对于将被视为可用的IPMVC,参考块(例 如,对应块142)的时间运动向量需要参考参考视图(例如,视图0)中具有等于当前块(例 如,当前PU 140)的参考图片列表中的图片的POC值的POC值的图片。

对于当前PU 140,具有POC值X及Y的图片可能并不位于RefPicList0中的第一 参考索引及RefPicList1中的第二参考索引处,而实际上可分别位于RefPicList0中的第 三参考索引及RefPicList1中的第四参考索引处。在此实例中,当添加对应块142的运 动信息作为经视图间预测的运动向量候选者时,视频译码器20/30可添加RefPicList0 中的第三参考索引及RefPicList1中的第四参考索引作为参考索引。

另外,视频译码器20/30可将视差向量转换为视图间视差运动向量,当所述视图间 视差运动向量可用时,可在不同于IPMVC的位置中将所述视图间视差运动向量添加到 合并候选者列表,或在与IPMVC相同的位置中将所述视图间视差运动向量添加到 AMVP候选者列表中。在此上下文中,IPMVC及视图间视差运动向量候选者(IDMVC) 两者可被称作‘视图间候选者’。

在AMVP模式中,如果参考图片索引参考时间参考图片(例如,目标参考索引对应 于时间运动向量),那么视频译码器20/30可导出IPMVC且可能并不导出IDMVC。举 例来说,视频译码器20/30可通过检查通过视差向量定位的当前PU(即,块140)的对 应块(即,块142)中的运动向量来查找IPMVC。如果IPMVC不可用(即,无运动向 量),那么视频译码器20/30可将零运动向量候选者添加到候选者列表。在AMVP模式 中,如果参考图片索引参考视图间参考图片(例如,目标参考索引对应于视差运动向 量),那么视频译码器20/30可能并不导出IPMVC,而实际上可将视差向量转换为视图 间视差运动向量且将经转换的视差向量添加到候选者列表(即,将视图间视差运动向量 添加到候选者列表作为IDMVC)。

换句话说,如果在AMVP模式中对当前块进行帧间预测,那么视频译码器20/30 可基于至少一个参考图片索引是参考时间参考图片还是视图间参考图片,确定是导出 IPMVC还是IDMVC。举例来说,在AMVP模式中,视频编码器20用信号发出供视频 解码器30用以识别待用于进行帧间预测的参考图片的参考图片索引。以此方式,视频 译码器20/30可确定参考图片索引是参考时间参考图片还是视图间参考图片。时间参考 图片为相同视图中的参考图片,且视图间参考图片为另一不同视图中的参考图片。在 某一实例中,如果视频译码器20/30确定参考图片索引参考时间参考图片,那么视频译 码器20/30可导出IPMVC,且如果视频译码器20/30确定参考图片索引参考视图间参 考图片,那么视频译码器20/30可导出IDMVC。

在合并/跳过模式中,视频译码器20/30可能总是在合并候选者列表的所有空间及 时间合并候选者之前插入IPMVC(如果可用的话)。视频译码器20/30可(例如)在从A0导出的空间合并候选者之前插入IPMVC,如上文在图4中所展示。在3D-HTM软件的 某一实施方案中,总是在AMVP候选者列表中的所有空间及时间候选者之前插入经视 图间预测的运动向量或视图间视差运动向量。

如上文所介绍,在3D-HEVC中,视频译码器20/30可构造合并候选者列表。视频 译码器20/30首先使用(例如)上文所描述的NBDV技术导出视差向量。如果未发现此类 视差向量,那么视频译码器20/30可利用零视差向量。通过视差向量,视频译码器 20/30如下构造合并候选者列表。视频译码器20/30如上文所描述那样导出IPMVC,且 如果IPMVC可用的话,将IPMVC插入到合并列表中。

视频译码器20/30可经配置以实施用于空间合并候选者的导出过程及IDMVC插 入。视频译码器20/30可(例如)按以下次序检查空间相邻PU的运动信息:A1、B1、 B0、A0或B2。视频译码器20/30可通过以下操作步骤执行受约束的修剪:

-如果A1可用且不同于IPMVC,那么将A1插入到候选者列表。

-如果B1及A1/IPMVC具有相同的运动向量及相同的参考索引,那么并不将B1插入到候选者列表中。否则,如果B1可用的话,将B1插入到候选者列表。

-如果B0及B1具有相同的运动向量及相同的参考索引,那么并不将B0插入到候 选者列表中。否则,如果B0可用的话,将B0插入到候选者列表。

-通过上文所描述的操作步骤导出IDMVC。如果IDMVC可用且不同于从A1及 B1导出的候选者,那么将IDMVC插入到候选者列表。

-如果A0及A1具有相同的运动向量及相同的参考索引,那么并不将A0插入到候 选者列表中。否则,如果A0可用的话,将A0插入到候选者列表。

-当不满足以下两个条件时,将B2插入到候选者列表:

-B2及B1或B2及A1具有相同的运动向量及相同的参考索引。

-从A1、B1、B0、A0及IPMVC导出的所有四个空间合并候选者包含在候选 者列表中。

视频译码器20/30还可经配置以实施用于时间合并候选者的导出过程。此导出过程 可(例如)为与在HEVC中定义的操作步骤(其在上文简要地加以论述)相同的操作步骤。

视频译码器20/30还可经配置以实施用于组合双向预测性合并候选者的导出过程。 举例来说,如果从上述两个步骤导出的候选者的总数目小于候选者的最大数目,那么 除了l0CandIdx及l1CandIdx的规范以外,视频译码器20/30可执行与在HEVC中定义 的过程相同的过程。在下表中定义combIdx、l0CandIdx及l1CandIdx间的关系:

表2-3D-HEVC中的l0CandIdx及l1CandIdx的规范

combIdx 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 l0CandIdx 0 1 0 2 1 2 0 3 1 3 2 3 0 4 1 4 2 4 3 4 l1CandIdx 1 0 2 0 2 1 3 0 3 1 3 2 4 0 4 1 4 2 4 3

视频译码器20/30还可经配置以实施用于零运动向量合并候选者的导出过程。视频 译码器20/30可(例如)实施与在HEVC中定义的操作步骤相同的操作步骤。

在最新的软件中,合并(MRG)列表中的候选者的总数目为至多6且在切片标头中 用信号发出语法元素“five_minus_max_num_merge_cand”以指定从6减去MRG候选 者的最大数目。应注意,five_minus_max_num_merge_cand在0到5(包含0及5)的范围 中。如上文所提及,在WD10中,MRG列表中的候选者的总数目为至多5。

除上文所描述的方法之外,根据从视差向量进行的合并候选者导出的其它提议, 在JCT3V-B0048中在张等人的题为“3D-CE5.h:从视差向量进行的合并候选者导出 (3D-CE5.h:Merge candidates derivation from disparity vector)”的文献(2012年10月15 日)中也提议了以下技术,所述文献从2013年12月4日起可从http://phenix.it- sudparis.eu/jct2/doc_end_user/current_document.php?id=237得到。作为当前方法,使用 参考视图中通过视差向量识别的对应块(即,参考块)来导出IPMVC。定位含有对应块 的PU的其左及右PU且在可适用的情况下导出两个经移位的视差向量。左经移位的视 差向量(LDV):针对水平分量将视差向量减去左PU的宽度。右经移位的视差向量 (RDV):在水平分量上将视差向量加上含有对应块的PU的宽度。将LDV/RDV用于导 出IPMVC的使用情况与当前3D-HEVC中的视差向量相同。如果所导出的IPMVC可 用,那么将其添加到合并候选者列表,否则,将经移位的视差向量转换为视差运动向 量从而添加到合并候选者列表中。

基于HEVC的多视图/3DV译码中的运动有关技术的当前设计归因于所导出的视差 向量可能并不是足够准确的事实而具有若干可能的问题。作为一个实例,不准确的视 差向量可导致不准确的经视图间预测的运动向量候选者及视图间视差运动向量候选 者。作为另一实例,对于硬件实施方案来说,利用参考视图中的对应块的左及右PU来 导出IPMVC可能并不友好,这是由于对左/右PU的存取需要从对应块移位达对应块的 宽度,所述宽度为可变的。作为另一实例,为了修剪重复的候选者,需要检查所有参 考索引及运动向量,所述情形引入太多复杂性。

本发明介绍可改进视差向量准确度以及进行视图间预测的运动向量及视图间视差 运动向量的准确度的各种技术。根据本发明的一种技术,视频译码器20/30可从参考视 图从针对一个切片/图片/序列内的所有PU具有固定偏移值的经移位的视差向量导出更 多IPMVC。在一个实例中,视频译码器20/30可水平地将视差向量移位达-4*M(M为 正整数,例如1、2、4、8)及/或4*M(对应于M个像素)。通过经移位的视差向量,视 频译码器20/30可使用位于含有对应块的PU的左侧及/或右侧处的PU来产生 IPMVC,类似于从对应块进行的IPMVC产生过程。

根据本发明的另一技术,视频译码器20/30可利用经移位的视差向量转换更多 IDMVC。在一个实例中,经移位值(即,偏移值)为-4*N(N为正整数,例如1、2、4、 8)及/或4*N(对应于N个像素)(水平地)。在一个实例中,此外,用于导出IPMVC及 IDMVC的经移位值(即,偏移值)可为不同的,即,N不同于M。

根据本发明的另一技术,对于基于视差向量的每一突变(即,视差向量的每一移 位),视频译码器20/30可产生仅一个额外候选者,且候选者是来自基于第一经移位的 视差向量的IPMVC或基于第二经移位的视差向量的IDMVC。如果IPMVC可用,那么 视频译码器20/30可使用IPMVC作为额外候选者。如果将IPMVC添加到合并候选者 列表,那么视频译码器20/30可能并不转换IDMVC。在一个实例中,如果IDMVC可 用,那么视频译码器20/30可能并不导出IPMVC。在另一实例中,如果所述两者可 用,那么可导出所述两者作为额外候选者。

换句话说,如果在合并模式或跳过模式中对当前块进行帧间预测,那么视频译码 器20/30可确定IPMVC的可用性,其中IPMVC为通过针对当前块经移位达偏移值的 视差向量参考的参考视图中的参考块的运动信息(例如,运动向量及一或多个参考索 引)。举例来说,如果参考块的运动向量为参考参考视图中具有等于当前块的参考图片 列表中的图片的图片次序计数(POC)值的POC值的图片的时间运动向量,那么视频译 码器20/30可确定IPMVC为可用的。

在此类实例中,视频译码器20/30可导出可能包含在候选者列表中(经受下文所描 述的修剪)的IPMVC,且可避免导出IDMVC(即,避免导出IDMVC)。举例来说,在此 实例中,如果在合并或跳过模式中对当前块进行帧间预测,那么视频译码器20/30可将 IPMVC的优先顺序排定为优于IDMVC,其中如果IPMVC可用,那么视频译码器 20/30可导出IPMVC,且可能并不导出IDMVC(即,避免导出IDMVC)。

根据本发明的另一技术,对于基于视差向量的每一突变,用于导出IPMVC的第一 经移位的视差向量及用于转换IPMVC的第二经移位的视差向量可具有不同的偏移值, 其中偏移值指示视频译码器20/30将视差向量移位所达的量。举例来说,用于第一经移 位的视差向量的偏移值为16且用于第二经移位的视差向量的偏移为4。在一些实例 中,两个经移位的视差向量应在水平方向上及在相同方向上,这意味着偏移的正负号 值相同。在一个实例中,仅存在两个突变,一个是向左且一个是向右。替代地,仅存 在向左的一个突变。替代地,仅存在向右的一个突变。根据本发明的另一技术,可将 候选者中的每一者插入到候选者列表的任何位置中。

作为一个实例,如果视频译码器20/30导出IPMVC,那么IPMVC的运动信息可包 含通过针对当前块经移位达第一偏移值的视差向量参考的参考视图中的参考块的运动 向量(例如,时间运动向量)。并且,IPMVC的运动向量可参考相同视图中POC值等于 在当前块的参考图片列表中识别的图片的POC值的图片(例如,时间参考图片)。如果 视频译码器20/30导出IDMVC,那么IDMVC可为针对当前块经移位达第二不同偏移 值的视差向量。在一些实例中,视频译码器20/30可将第一偏移值加到视差向量或从视 差向量减去第一偏移值以确定经移位达第一偏移值的视差向量。在某一实例中,视频 译码器20/30可将第二偏移值加到视差向量或从视差向量减去第二偏移值以确定经移位 达第二偏移值的视差向量。

根据本发明的另一技术,可针对新近添加的运动向量候选者(甚至包含从第一视差 向量导出的运动向量候选者)中的每一者应用基于类型的修剪。仅当参考图片类型(视图 间参考图片或时间参考图片)相同时,视频译码器20/30才可对两个候选者应用修剪过 程。在此情况下,当对应于RefPicList0或RefPicList1的参考图片的类型不同于待进行 比较的候选者的类型时,不需要比较参考索引及运动向量(即,如果通过第一候选者参 考的参考图片的类型不同于通过第二候选者参考的参考图片的类型,那么视频译码器 20/30可能并不执行参考索引及运动向量的比较)。仅当两个视图间候选者均为IDMVC 或IPMVC时,视频译码器20/30才可应用用于两个视图间候选者的修剪过程。

举例来说,除基于经移位的视差向量导出IPMVC及IDMVC之外,视频译码器 20/30可在并不将视差向量移位的情况下基于当前块的视差向量导出IPMVC及 IDMVC。作为一个实例,假设第一IPMVC为通过针对当前块经移位达偏移值的视差 向量参考的第一参考块的运动向量。在一些实例中,视频译码器20/30可将第二 IPMVC包含在候选者列表中,其中第二IPMVC为在并不将视差向量移位的情况下通 过视差向量参考的参考视图中的第二参考块的运动向量。

视频译码器20/30可比较第一IPMVC的运动信息与第二IPMVC的运动信息,例 如运动向量、参考图片索引及参考图片列表。在一些实例中,视频译码器20/30可能仅 将第一IPMVC的运动信息与第二IPMVC的运动信息相比较,而不与候选者列表中的 其它候选者相比较。如果视频译码器20/30确定第一IPMVC的运动信息与第二IPMVC 的运动信息相同(例如,运动向量相同或运动向量及参考图片索引两者相同),那么视频 译码器20/30可确定第一IPMVC将不包含在候选者列表中。如果视频译码器20/30确 定第一IPMVC的运动信息与第二IPMVC的运动信息不同(例如,运动向量不同,运动 向量相同,但参考图片索引不同,运动向量不同,但参考图片索引不同,或运动向量 及参考图片索引两者不同),那么视频译码器20/30可确定第一IPMVC将包含在候选者 列表中。

在一些实例中,上述实例的第二IPMVC可能总是包含在候选者列表中。在此类实 例中,修剪技术(例如,比较第一IPMVC与第二IPMVC且在一些实例中,仅与第二 IPMVC相比较)可确定是否将第一IPMVC包含在候选者列表中。

根据本发明的另一技术,上述技术可能仅当在NBDV之后视差向量可用时适用。 如果在NBDV之后未发现视差向量,那么视频译码器20/30可能并不应用将视差向量 移位以用于导出额外IPMVC及IDMVC之上述技术(将不应用上述技术)。在一个实例 中,通过上述方法导出的IPMVC始终适用。然而,仅当在NBDV的情况下视差向量 可用时,才将新近导出的IDMVC插入到合并候选者列表。

此外,在合并及跳过模式中,如果IPMVC可用,那么视频译码器20/30可从针对 当前块经移位达第一偏移值的视差向量导出IPMVC,且如果确定IPMVC不可用,那 么视频译码器20/30从针对当前块经移位达第二不同偏移值的视差向量导出IDMVC。 并且,在AMVP模式中,视频译码器20/30可基于参考图片索引导出IPMVC或 IDMVC。因此,在一些实例中,仅IPMVC或IDMVC中的一者包含在候选者列表中。

上文介绍的各种技术可通过视频译码器20/30来实施。现在将论述上文介绍的技术 的各种实例实施方案。可根据HEVC方法导出视差向量。然而,可针对跳过/合并模式 或AMVP模式基于视差向量导出更多候选者。

根据本发明的一个方面,视频译码器20/30可经配置以执行针对IPMVC及 IDMVC的视差向量的突变。基于视差向量,使用视差向量的两种突变导出IPMVC及 IDMVC。用于导出IPMVC的左及/或右经移位的视差向量(LDV及/或RDV)的突变是通 过在水平分量上将视差向量加上-16及/或16来实现。用于导出IDMVC的左及/或右经 移位的视差向量(LDV及/或RDV)的突变是通过在水平分量上将视差向量加上-4及/或4 来实现。

视频译码器20/30可从突变的视差向量导出IPMVC。通过经移位的视差向量,可 按与当前方法中的IPMVC相同的方式导出两个额外IPMVC。通过LDV及RDV得到 的两个新近导出的IPMVC分别是通过左IPMVC及右IPMVC来指示。为了简单起 见,将从LDV及RDV导出的IPMVC(时间运动候选者)分别命名为LTMV及RTMV。

视频译码器20/30可从突变的视差向量导出IDMVC。通过经移位的视差向量,可 按与当前方法中的IDMVC相同的方式导出两个额外IDMVC。通过LDV及RDV得到 的两个新近导出的IDMVC分别是通过左IDMVC及右IDMVC来指示。为了简单起 见,将从LDV及RDV导出的IDMVC(视差运动向量候选者)分别命名为LDMV及 RDMV。基于突变的视差向量(LDV或RDV),导出一个且仅一个候选者(LTMV (RTMV)或LDMV(RDMV))。当从LDV导出候选者时,将此类候选者指示为LMV,或 当从RDV导出候选者时,将此类候选者指示为RMV。可如下导出LMV:如果LTMV 可用:将LMV设置为LTMV;否则,将LMV设置为LDMV。可如下导出RMV:如 果RTMV可用:将RMV设置为RTMV;否则,将RMV设置为RDMV。

在通过将视差向量移位产生IPMVC及IDMVC之后,视频译码器20/30可应用以 下检查及修剪过程。将新近导出的左IPMVC按次序与通过无突变的视差向量导出的 IPMVC、来自A1或B1的空间合并候选者(如果可用的话)相比较。如果其等于这三个候 选者中的任一者,那么将其从合并候选者列表中去除。否则,将其添加到合并候选者 列表,在所有空间合并候选者之后,因此在时间合并候选者之前。

如果并不将左IPMVC添加到合并候选者列表,那么将新近导出的左IDMVC按次 序与来自A1或B1的空间合并候选者(如果可用的话)相比较。如果其等于这两个候选者 中的任一者,那么将其从合并候选者列表中去除。否则,将其添加到合并候选者列 表,在与左IPMVC(如果可用的话)相同的位置,即,在所有空间合并候选者之后,因 此在时间合并候选者之前。

将新近导出的右IPMVC按次序与通过无突变的视差向量导出的IPMVC、来自A1或B1的空间合并候选者、左IPMVC(如果可用的话)相比较。如果其等于这四个候选者 中的任一者,那么将其从合并候选者列表中去除。否则,将其添加到合并候选者列 表,在所有空间合并候选者及左IPMVC或左IDMVC之后。

如果并不将右IPMVC添加到合并候选者列表,那么将新近导出的右IDMVC按次 序与来自A1或B1的空间合并候选者(如果可用的话)相比较。如果其等于这两个候选者 中的任一者,那么将其从合并候选者列表中去除。否则,将其添加到合并候选者列 表,在与右IPMVC(如果可用的话)相同的位置,即,在所有空间合并候选者及左 IPMVC或左IDMVC之后。

在一个替代方案中,仅当两个候选者具有相同类型时,即,其为视差运动向量或 其为时间运动向量时,比较所述两个候选者。举例来说,如果从A1导出的候选者具有 时间参考图片,那么不需要其与左/右IDMVC之间的比较。

视频译码器20/30可经配置以实施上文所描述的各种方面的替代方案。举例来说, 视频译码器20/30可经配置以确定用于新近导出的候选者的插入位置。与上文所描述的 实例形成对比,其中新近导出的候选者插入于所有空间合并候选者及从LDV导出的候 选者(IPMVC或IDMVC)之后、在从RDV导出的候选者之前,可应用以下位置及次 序:

○在空间合并候选者的子集之后。

○替代地,在所有空间、时间候选者及通过视差向量导出的候选者之后,因此在 组合候选者之前。

○替代地,将通过等于-4*M的经移位值导出的IPMVC(如果可用的话)插入于通 过等于-4*N的经移位值导出的IDMVC之前。将通过等于4*M的经移位值导出的 IPMVC(如果可用的话)插入于通过等于4*N的经移位值导出的IDMVC之前。

○替代地,将通过经移位值导出的所有IPMVC插入到列表,后接续从视差向量 导出的IPMVC,因此在所有空间合并候选者之前。

○替代地,将通过经移位值导出的所有IDMVC插入到列表,后接续从视差向量 导出的IDMVC,因此在从A0及B2导出的空间合并候选者之前。

○在一个替代方案中,可在任何位置及按任何次序将新近添加的IPMVC及/或 IDMVC插入到候选者列表。

○此外,从RDV导出的候选者在从LDV导出的候选者之前。

○替代地,可能并不会连续地插入从LDV及RDV导出的候选者。实际上,可能 将从LDV导出的候选者插入成刚好在最后的空间合并候选者之后且刚好在时间合并候 选者之前,同时可将从RDV导出的候选者插入成刚好在时间合并候选者之后,且反过 来也一样。

视频译码器20/30可经配置以执行除上文所描述的修剪过程以外的修剪过程。举例 来说,视频译码器20/30可经配置以应用以下修剪过程。

○仅将一或多个选择性空间候选者(例如,A1)与新近导出的候选者相比较。

a.举例来说,将新近导出的候选者(LMV及/或RMV)仅与来自A1的空间合并 候选者相比较。

b.举例来说,将新近导出的候选者(LMV及/或RMV)仅与来自B1的空间合并 候选者相比较。

○替代地,并不将新近导出的候选者与任何空间或时间候选者相比较。

○另外,需要将新近添加的运动向量候选者(不包含从视差向量导出的那些运动向 量候选者)彼此相比较以避免重复。

○替代地,需要将新近添加的运动向量候选者(包含从视差向量导出的那些运动向 量候选者)彼此相比较以避免重复。

○替代地,将新近添加的运动向量候选者仅与从视差向量导出的那些运动向量候 选者相比较以避免重复,且并不将其彼此相比较。

○在一个替代方案中,需要将新近添加的IDMVC及/或IPMVC与全部可用合并 候选者或可用合并候选者的子集相比较。

○替代地,另外,如果从RDV或LDV导出的候选者(LMV及/或RMV)为视差运 动向量,那么根本不将其与IDMVC相比较。

○在一个替代方案中,当通过经移位的视差向量(-4*M/4*M)定位的参考块及通过 视差向量定位的参考块属于相同PU时,可跳过新近添加的IPMVC及从视差向量导出 的IPMVC间的修剪过程,且将新近添加的IPMVC从合并候选者列表中去除。

a.在一个替代方案中,此外,并不将从经移位的视差向量(-4*N/4*N)导出的 IDMVC添加到合并候选者列表。

b.在另一替代方案中,此外,并不将从经移位的视差向量(-4*N/4*N)导出的 IDMVC添加到合并候选者列表。

作为修剪过程的部分,视频译码器20/30可如上文所介绍执行一或多个比较。在一 个实例中,比较以下(至多五个)运动向量候选者对(如果其中的两者可用的话):

当LTMV可用时,(LMV,从视差向量导出的IPMVC);

(LMV,来自B1的空间合并候选者);

当RTMV可用时,(RMV,从视差向量导出的IPMVC);

(RMV,来自B1的空间合并候选者);

当LTMV及LTMV两者可用时,(RMV,LMV)。

如果在给定候选者对中给出条件,例如,“当LTMV可用时”,那么其意味着: 如果条件不成立,那么并不比较所述对应对。

应注意,对于每一候选者对(C0,C1),如果其不同,那么将C0插入到合并候选者 列表中,否则,并不会进一步将C0插入到合并候选者列表中。另外,如果C1并不在 合并候选者列表中,那么避免了比较。假设C0及C1的参考索引及运动向量分别为 RefIdxLXC0、mvLXC0及RefIdxLXC1、mvLXC1,其中X等于0及1。如果以下条件 中的一或多者成立,那么将C0及C1视为不同:

对于为0及1的预测列表指示X,

-RefIdxLXC0不等于RefIdxLXC1;

-当RefIdxLXC0不等于-1时,mvLXC0[0]不等于mvLXC1[0];

-当RefIdxLXC0不等于-1时,mvLXC0[1]不等于mvLXC1[1];

应注意,如果对于给定预测列表指示X来说,运动向量不可用,那么可将对应参 考索引视为等于-1。

在第二实例中,比较以下(至多2个)运动向量候选者对(如果所述两者可用的话):

当LTMV可用时,(LMV,从视差向量导出的IPMVC)

当RTMV可用时,(RMV,从视差向量导出的IPMVC)。

在第三实例中,比较以下运动向量候选者对(如果其中的两者可用的话):

当LTMV可用时,(LMV,从视差向量导出的IPMVC);

(LMV,来自B1的空间合并候选者);

当RTMV可用时,(RMV,从视差向量导出的IPMVC)

(RMV,来自B1的空间合并候选者)。

在第四实例中,比较以下运动向量候选者对(如果其中的两者可用的话):

当LTMV可用时,(LMV,从视差向量导出的IPMVC);

(LMV,来自A1的空间合并候选者);

当RTMV可用时,(RMV,从视差向量导出的IPMVC)

(RMV,来自A1的空间合并候选者)。

在第五实例中,比较以下(至多五个)运动向量候选者对(如果其中的两者可用的 话):

当LTMV可用时,(LMV,从视差向量导出的IPMVC);

(LMV,来自A1的空间合并候选者);

当RTMV可用时,(RMV,从视差向量导出的IPMVC);

(RMV,来自A1的空间合并候选者);

当LTMV及LTMV两者可用时,(RMV,LMV)。

图7为说明可实施本发明中所描述的技术(包含上文所描述的视图间预测技术)的实 例视频编码器20的框图。视频编码器20可以执行视频切片内的视频块的帧内译码及 帧间译码。当通过视频编码器20来执行时,帧内译码可被称作帧内预测编码,且帧间 译码可被称作帧间预测编码。帧内译码依赖于空间预测来减少或去除给定视频帧或图 片内的视频中的空间冗余。帧间译码依赖于时间预测来减少或去除视频序列的邻近帧 或图片内的视频中的时间冗余。帧间译码还可指视图间译码,其中将另一视图中的图 片用作用于编码当前视图中的当前图片中的当前块的参考图片。帧内模式(I模式)可指 若干基于空间的压缩模式中的任一者。帧间模式(例如,单向预测(P模式)或双向预测(B 模式))可指若干基于时间的压缩模式或视图间压缩模式中的任一者。

在图7的实例中,视频编码器20包含分割单元35、预测处理单元41、滤波器单 元63、参考图片存储器64、求和器50、变换单元52、量化单元54,及熵编码单元 56。预测处理单元41包含运动及视差估计单元42、运动及视差补偿单元44,及帧内 预测处理单元46。为了视频块重新构造,视频编码器20还包含反量化单元58、反变 换处理单元60,及求和器62。滤波器单元63既定表示一或多个环路滤波器,例如解 块滤波器、自适应环路滤波器(ALF)及样本自适应偏移(SAO)滤波器。尽管在图7中将 滤波器单元63展示为环内滤波器,但在其它配置中,可将滤波器单元63实施为环路 后滤波器。

如图7中所展示,视频编码器20接收视频数据,且分割单元35将数据分割成视 频块。此分割还可包含分割成切片、图像块或其它较大单元,以及例如根据LCU及 CU的四叉树结构的视频块分割。视频编码器20一般说明编码待编码的视频切片内的 视频块的组件。所述切片可以划分成多个视频块(且可能划分成被称作图像块的数组视 频块)。预测处理单元41可基于误差结果(例如,译码速率及失真等级)针对当前视频块 选择多种可能译码模式中的一者,例如,多种帧内译码模式中的一者或多种帧间译码 模式中的一者。预测处理单元41可将所得的经帧内译码或经帧间译码块提供到求和器 50以产生残余块数据,且提供到求和器62以重新构造经编码块以用于用作参考图片。

预测处理单元41内的帧内预测处理单元46可相对于与待译码的当前块在相同帧 或切片中的一或多个相邻块执行当前视频块的帧内预测性译码,以提供空间压缩。预 测处理单元41内的运动及视差估计单元42以及运动及视差补偿单元44执行相对于一 或多个参考图片及/或参考视图中的一或多个预测性块的当前视频块的帧间预测性译码 及/或视图间译码以提供时间或视图压缩。

运动及视差估计单元42可经配置以根据视频序列的预定模式确定视频切片的帧间 预测模式及/或视图间预测模式。预定模式可将序列中的视频切片指明为P切片或B切 片。运动及视差估计单元42以及运动及视差补偿单元44可高度集成,但出于概念目 的分别加以说明。由运动及视差估计单元42执行的运动及视差估计为产生估计视频块 的运动的运动向量的过程。举例来说,运动向量可以指示当前视频帧或图片内的视频 块的PU相对于参考图片内的预测性块的位移。由运动及视差估计单元42执行的视差 估计为产生视差运动向量的过程,所述视差运动向量可用以从不同视图中的块预测当 前经译码块。

预测性块是被发现在像素差方面与待译码的视频块的PU密切匹配的块,像素差可 通过绝对差总和(SAD)、平方差总和(SSD)或其它差异度量来确定。在一些实例中,视 频编码器20可计算存储在参考图片存储器64中的参考图片的子整数像素位置的值。 举例来说,视频编码器20可以内插参考图片的四分之一像素位置、八分之一像素位置 或其它分数像素位置的值。因此,运动及视差估计单元42可执行相对于全像素位置及 分数像素位置的运动搜索,且输出具有分数像素精度的运动向量。

运动及视差估计单元42通过比较PU的位置与参考图片的预测性块的位置来计算 经帧间译码或经视图间预测的切片中的视频块的PU的运动向量(用于运动补偿预测)及/ 或视差运动向量(用于视差补偿预测)。参考图片可以选自第一参考图片列表 (RefPicList0)或第二参考图片列表(RefPicList1),所述参考图片列表中的每一者识别存 储在参考图片存储器64中的一或多个参考图片。运动及视差估计单元42将所计算的 运动向量及/或视差向量发送到熵编码单元56及运动补偿单元44。

由运动及视差补偿单元44执行的运动补偿及/或视差补偿可涉及基于通过运动估计 及/或视差估计确定的运动向量提取或产生预测性块,有可能执行到子像素精度的内 插。在接收到当前视频块的PU的运动向量及/或视差后,运动及视差补偿单元44便可 在参考图片列表中的一者中定位所述运动向量及/或视差向量指向的预测性块。视频编 码器20通过从正被译码的当前视频块的像素值减去预测性块的像素值从而形成像素差 值来形成残余视频块。像素差值形成所述块的残余数据,且可包含明度及色度差分量 两者。求和器50表示执行此减法运算的一或多个组件。运动及视差补偿单元44还可 产生与视频块及视频切片相关联的语法元素以供视频解码器30在解码视频切片的视频 块时使用。

作为由运动及视差估计单元42以及运动及视差补偿单元44执行的帧间预测(如上 文所描述)的替代方案,帧内预测处理单元46可对当前块进行帧内预测。明确地说,帧 内预测处理单元46可以确定用以编码当前块的帧内预测模式。在一些实例中,帧内预 测处理单元46可(例如)在单独编码遍次期间使用各种帧内预测模式编码当前块,且帧 内预测处理单元46可从经测试模式中选择适当帧内预测模式来使用。举例来说,帧内 预测处理单元46可以使用速率失真分析计算用于各种经测试帧内预测模式的速率失真 值,并且从所述经测试模式当中选择具有最佳速率失真特性的帧内预测模式。速率失 真分析一般确定经编码块与经编码以产生所述经编码块的原始的未经编码块之间的失 真(或误差)的量,以及用于产生经编码块的位速率(也就是说,位数目)。帧内预测处理 单元46可以从用于各种经编码块的失真及速率计算比率,以确定哪种帧内预测模式对 于所述块来说展现最佳速率失真值。

在任何情况下,在选择了用于块的帧内预测模式之后,帧内预测处理单元46可以 将指示用于所述块的选定帧内预测模式的信息提供到熵译码单元56。熵译码单元56可 根据本发明的技术编码指示所述选定帧内预测模式的信息。视频编码器20可在所发射 的位流中包含配置数据,所述配置数据可包含多个帧内预测模式索引表及多个修改的 帧内预测模式索引表(还被称作码字映射表)、编码用于各种块的上下文的定义,及用于 所述上下文中的每一者的最可能的帧内预测模式、帧内预测模式索引表及修改的帧内 预测模式索引表的指示。

在预测处理单元41经由帧间预测或帧内预测产生当前视频块的预测性块之后,视 频编码器20通过从当前视频块减去预测性块形成残余视频块。残余块中的残余视频数 据可包含在一或多个TU中且应用于变换单元52。变换单元52使用例如离散余弦变换 (DCT)或概念上类似的变换等变换将残余视频数据变换成残余变换系数。变换单元52 可将残余视频数据从像素域转换到变换域,例如频域。

变换单元52可以将所得变换系数发送到量化单元54。量化单元54将变换系数量 化以进一步减小位速率。量化过程可减少与系数中的一些系数或全部相关联的位深 度。可通过调整量化参数来修改量化程度。在一些实例中,量化单元54可以接着执行 对包含经量化的变换系数的矩阵的扫描。替代地,熵编码单元56可执行所述扫描。

在量化之后,熵编码单元56对经量化的变换系数进行熵编码。举例来说,熵编码 单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码 (CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE) 译码或另一熵译码方法或技术。在由熵编码单元56进行熵编码之后,可将经编码位流 发射到视频解码器30,或将经编码位流存档以供稍后发射或由视频解码器30检索。熵 编码单元56还可对正被译码的当前视频切片的运动向量及其它语法元素进行熵编码。

反量化单元58及反变换处理单元60分别应用反量化及反变换以在像素域中重新 构造残余块,以供稍后用作参考图片的参考块。运动及视差补偿单元44可通过将残余 块加到参考图片列表中的一者内的参考图片中的一者的预测性块来计算参考块。运动 及视差补偿单元44还可将一或多个内插滤波器应用于经重新构造的残余块以计算用于 运动估计的子整数像素值。求和器62将经重新构造的残余块加到由运动及视差补偿单 元44产生的经运动补偿的预测块以产生参考块以用于存储在参考图片存储器64中。 参考块可由运动及视差估计单元42以及运动及视差补偿单元44用作参考块以对后续 视频帧或图片中的块进行帧间预测。

图8为说明可实施本发明中所描述的技术(包含上文所描述的视图间预测技术)的实 例视频解码器30的框图。在图8的实例中,视频解码器30包含熵解码单元80、预测 处理单元81、反量化单元86、反变换处理单元88、求和器90、滤波器单元91,及参 考图片存储器92。预测处理单元81包含运动及视差补偿单元82及帧内预测处理单元 84。在一些实例中,视频解码器30可执行一般与关于来自图7的视频编码器20描述 的编码遍次互逆的解码遍次。

在解码过程期间,视频解码器30从视频编码器20接收表示经解码视频切片的视 频块的经编码视频位流及相关联的语法元素。视频解码器30的熵解码单元80对位流 进行熵解码以产生经量化的系数、运动向量及其它语法元素。熵解码单元80将运动向 量及其它语法元素转发到预测处理单元81。视频解码器30可以接收视频切片层级及/ 或视频块层级的语法元素。

当视频切片经译码为经帧内译码(I)切片时,预测处理单元81的帧内预测处理单元 84可基于用信号发出的帧内预测模式及来自当前帧或图片的先前经解码块的数据产生 用于当前视频切片的视频块的预测数据。当视频帧经译码为经帧间译码(即,B、P或 GPB)切片时,预测处理单元81的运动及视差补偿单元82基于从熵解码单元80接收的 运动向量及其它语法元素产生用于当前视频切片的视频块的预测性块。预测性块可以 从参考图片列表中的一者内的参考图片中的一者产生。视频解码器30可以基于存储在 参考图片存储器92中的参考图片使用默认构造技术构造参考帧列表(列表0及列表 1)。

运动及视差补偿单元82通过剖析运动向量及其它语法元素确定当前视频切片的视 频块的预测信息,且使用所述预测信息来产生正被解码的当前视频块的预测性块。举 例来说,运动及视差补偿单元82使用所接收语法元素中的一些语法元素来确定用以译 码以下各者的预测模式(例如,帧内或帧间预测):视频切片的视频块、帧间预测或视图 间预测切片类型(例如,B切片或P切片)、用于切片的参考图片列表中的一或多者的构 造信息、切片的每一经帧间编码视频块的运动向量及/或视差向量、切片的每一经帧间 译码视频块的帧间预测状态,及用以解码当前视频切片中的视频块的其它信息。

在一些实例中,运动及视差补偿单元82可使用运动向量预测过程确定指示运动向 量的用信号发出的语法元素。运动向量预测过程可包含AMVP模式及合并模式。运动 及视差补偿单元82还可执行基于内插滤波器的内插。运动及视差补偿单元82可在编 码视频块期间使用如由视频编码器20使用的内插滤波器来计算用于参考块的子整数像 素的内插值。在此情况下,运动及视差补偿单元82可从所接收语法元素确定由视频编 码器20使用的内插滤波器且使用所述内插滤波器产生预测性块。

反量化单元86将提供于位流中且由熵解码单元80解码的经量化的变换系数反量 化(即,解量化)。反量化过程可包含使用由视频编码器20针对视频切片中的每一视频 块计算的量化参数以确定应应用的量化程度及同样确定应应用的反量化程度。反变换 处理单元88将反变换(例如,反DCT、反整数变换或概念上类似的反变换过程)应用于 变换系数,以便产生像素域中的残余块。

在运动及视差补偿单元82基于运动向量及其它语法元素产生当前视频块的预测性 块之后,视频解码器30通过将来自反变换处理单元88的残余块与由运动及视差补偿 单元82产生的对应预测性块加总形成经解码视频块。求和器90表示执行此加总运算 的一或多个组件。在需要时,还可使用环路滤波器(在译码环路中或在译码环路之后)来 使像素转变变平滑或者以其它方式改善视频质量。滤波器单元91既定表示一或多个环 路滤波器,例如解块滤波器、自适应环路滤波器(ALF)及样本自适应偏移(SAO)滤波 器。尽管在图8中将滤波器单元91展示为环路内滤波器,但在其它配置中,可将滤波 器单元91实施为环路后滤波器。接着将给定帧或图片中的经解码视频块存储在参考图 片存储器92中,参考图片存储器92存储用于后续运动补偿的参考图片。参考图片存 储器92还存储经解码视频以供稍后在显示装置(例如,图1的显示装置32)上呈现。

图9为展示根据本发明的技术的实例编码过程的流程图。将关于视频编码器20描 述图9的技术但所述技术可由其它类型的视频编码器执行。视频编码器20确定当前块 是在合并模式、跳过模式还是AMVP模式中进行帧间预测(180)。

如果当前块是在AMVP模式中进行帧间预测,那么视频编码器20可基于参考图片 索引确定是导出IDMVC还是IPMVC(182)。举例来说,如果参考图片索引参考时间参 考图片,那么视频编码器20可确定IPMVC,且如果参考图片索引参考视图间参考图 片,那么视频编码器20可确定IDMVC。

如果当前块是在合并模式或跳过模式中进行帧间预测,那么视频编码器20可确定 IPMVC的可用性(184)。如果通过当前块的经移位达偏移值的视差向量参考的参考块的 运动信息包含为时间运动向量(所述时间运动向量参考参考视图中具有等于在当前块的 参考图片列表中识别的图片的POC值的POC值的图片)的运动向量,那么视频编码器 20可确定IPMVC为可用的。如上文所描述,IPMVC可为通过针对当前块经移位达第 一偏移值的视差向量参考的参考视图中的参考块的运动信息,且IDMVC可为针对当前 块经移位达第二不同偏移值的视差向量。

在一些实例中,如果IPMVC为可用的,那么视频编码器20可导出IPMVC,且避 免进行在合并或跳过模式中的IDMVC的导出。如果IPMVC不可用且当前块是在合并 模式或跳过模式中进行帧间预测,那么视频编码器20可导出IDMVC。

视频编码器20可确定是将IPMVC还是IDMVC包含在候选者列表中(186)。在一 些实例中,视频编码器20可包含IPMVC及IDMVC中的仅一者,而不是两者(即, IPMVC及IDMVC中仅一者包含在候选者列表中)。举例来说,在合并模式中,如果视 频编码器20因为IPMVC可用而导出IPMVC,那么视频编码器20可避免进行IDMVC 的导出。在AMVP模式中,视频编码器20可基于参考图片索引是参考时间参考图片还 是视图间参考图片将IPMVC或IDMVC中的一者包含在候选者列表中。

并且,在某一实例中,视频编码器20可在不将视差向量移位的情况下基于视差向 量导出另一IPMVC。在这些实例中,视频编码器20可比较两个IPMVC(即,一个 IPMVC是基于经移位的视差向量且一个IPMVC是基于不进行移位的视差向量)的运动 信息。在一些实例中,视频编码器20可将在将视差向量移位的情况下导出的IPMVC 的运动信息仅与在不将视差向量移位的情况下导出的IPMVC的运动信息相比较。如果 两个IPMVC的运动信息相同,那么视频编码器20可能并不将基于经移位的视差向量 的IPMVC包含在候选者列表中,且如果两个IPMVC的运动信息不同,那么视频编码 器20可将基于经移位的视差向量的IPMVC包含在候选者列表中。视频编码器20可能 总是包含基于不进行移位的情况下的视差向量的IPMVC。

视频编码器20可基于候选者列表对当前块进行帧间预测编码(188)。视频编码器 20还可用信号发出指示当前块是在合并模式、跳过模式还是AMVP模式中进行帧间预 测及到候选者列表中的索引的语法元素(例如,用信号发出语法元素),视频解码器30 使用所述语法元素确定当前块的运动向量以用于对当前块进行帧间预测编码(190)。

图10为展示根据本发明的技术的实例解码过程的流程图。将关于视频解码器30 描述图10的技术但所述技术可由其它类型的视频解码器执行。视频解码器30接收到 候选者列表中的索引(200)。视频解码器30可接收指示当前块是在合并模式、跳过模式 还是AMVP模式中进行帧间预测的语法元素(例如,解码语法元素或正解码语法元 素),以确定当前块是在合并模式、跳过模式还是AMVP模式中进行帧间预测(202)。

如果视频解码器30确定当前块是在AMVP模式中进行帧间预测,那么视频解码器 30可基于参考图片索引确定是导出IDMVC还是IPMVC(204)。举例来说,如果参考图 片索引参考时间参考图片,那么视频解码器30可确定IPMVC,且如果参考图片索引参 考视图间参考图片,那么视频解码器30可确定IDMVC。

如果当前块是在合并模式或跳过模式中进行帧间预测,那么视频解码器30可确定 IPMVC的可用性(206)。如果通过当前块的经移位达偏移值的视差向量参考的参考块的 运动信息包含为时间运动向量(所述时间运动向量参考参考视图中具有等于在当前块的 参考图片列表中识别的图片的POC值的POC值的图片)的运动向量,那么视频解码器 30可确定IPMVC为可用的。此外,如上文所描述,IPMVC可为通过针对当前块经移 位达第一偏移值的视差向量参考的参考视图中的参考块的运动向量,且IDMVC可为针 对当前块经移位达第二不同偏移值的视差向量。

在一些实例中,如果IPMVC为可用的,那么视频解码器30可导出IPMVC,且避 免进行在合并或跳过模式中的IDMVC的导出。如果IPMVC不可用且当前块是在合并 模式或跳过模式中进行帧间预测,那么视频解码器30可导出IDMVC。

视频解码器30可确定是将IPMVC还是IDMVC包含在候选者列表中(208)。在一 些实例中,视频解码器30可包含IPMVC及IDMVC中的仅一者,而不是两者(即, IPMVC及IDMVC中仅一者包含在候选者列表中)。举例来说,在合并模式中,如果视 频解码器30因为IPMVC可用而导出IPMVC,那么视频解码器30可避免进行IDMVC 的导出。在AMVP模式中,视频解码器30可基于参考图片索引是参考时间参考图片还 是视图间参考图片将IPMVC或IDMVC中的一者包含在候选者列表中。视频解码器30 可基于候选者列表对当前块进行帧间预测解码(210)。

并且,在一些实例中,视频解码器30可在不将视差向量移位的情况下基于视差向 量导出另一IPMVC。在这些实例中,视频解码器30可比较两个IPMVC(即,一个 IPMVC是基于经移位的视差向量且一个IPMVC是基于不进行移位的视差向量)的运动 信息。在一些实例中,视频解码器30可将在将视差向量移位的情况下导出的IPMVC 的运动信息仅与在不将视差向量移位的情况下导出的IPMVC的运动信息相比较。如果 两个IPMVC的运动信息相同,那么视频解码器30可能并不将基于经移位的视差向量 的IPMVC包含在候选者列表中,且如果两个IPMVC的运动信息不同,那么视频解码 器30可将基于经移位的视差向量的IPMVC包含在候选者列表中。视频解码器30可能 总是包含基于不进行移位的情况下的视差向量的IPMVC。

此外,尽管上述实例技术是关于多视图视频译码加以描述,但本发明中所描述的 技术不限于此。举例来说,本发明中所描述的技术可扩展到可缩放视频译码(SVC),包 含对用于可缩放视频译码的HEVC标准的扩展(SHEVC)。

在可缩放视频译码(SVC)中,可能存在多个层。在最底部层级的层可刚好充当基础 层(BL),且在最顶部层级的层刚好充当增强型层(EL)。所有在中间的层可充当EL与 BL两者。举例来说,在中间的层可为用于其下方的层的EL,且同时作为用于其上方 的层的BL。出于描述的简单性起见,在说明当前技术时,本发明假设存在两层:BL 及EL。应注意,本发明中所描述的技术也适用于具有多个层的情况。

SCV中的视差向量的概念可参考参考参考层中的参考块的向量,其中参考层为不 同于包含正进行帧间预测的块的层的另一层。此类层间向量的一个实例可能为零向量 (例如,具有分量(0,0)的向量)。对于SCV,可按上文针对视差向量关于3D视频所描述 的方式类似的方式来利用层间向量。

如上文所描述,对于3D视频,视频译码器20/30可在不将视差向量移位的情况下 导出IPMVC及IDMVC,且通过将视差向量移位导出额外IPMVC及IDMVC,且在一 些实例中,相对于额外IDMVC针对额外IPMVC移位达不同量(即,不同偏移值),一 般被称作视图间候选者。对于SVC,视频译码器20/30可类似地导出层间候选者。作 为一个实例,视频译码器20/30可基于从层间向量所参考的参考层中的参考块继承的运 动信息及/或基于从经移位达偏移值的层间向量参考的参考层中的参考块继承的运动信 息导出层间候选者。作为另一实例,视频译码器20/30可通过将层间向量转换成层间候 选者及/或将经移位达偏移值的层间向量转换成层间候选者来导出层间候选者。

因此,在一些实例中,可将本发明中所描述的用于导出IPMVC及IDMVC的技术 及关于何时导出IPMVC及IDMVC的技术(例如,在合并模式、跳过模式还是AMVP 模式中)扩展到SVC。对于SVC,视频译码器20/30可按与导出IPMVC的方式类似的 方式(例如,基于当前块的层间向量或经移位的层间向量参考的参考层中的参考块的运 动信息)导出第一层间候选者,且可按与导出IDMVC的方式类似的方式(例如,将当前 块的层间向量或经移位的层间向量转换成层间候选者)导出第二层间候选者。对于 SVC,视频译码器20/30可实施类似于上文针对3D视频针对第一层间候选者及第二层 间候选者所描述的技术的技术。

在一或多个实例中,所描述的功能可以用硬件、软件、固件或其任何组合来实 施。如果用软件来实施,那么所述功能可以作为一或多个指令或代码存储在计算机可 读媒体上或在计算机可读媒体上予以传输,并且由基于硬件的处理单元执行。计算机 可读媒体可包含计算机可读存储媒体,其对应于有形媒体,例如数据存储媒体,或包 含促进将计算机程序从一处传送到另一处的任何媒体(例如,根据通信协议)的通信媒 体。以此方式,计算机可读媒体一般可对应于(1)非暂时性的有形计算机可读存储媒 体,或(2)通信媒体,例如信号或载波。数据存储媒体可以是可由一或多个计算机或一 或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码及/或数据结构的 任何可用媒体。计算机程序产品可以包含计算机可读媒体。

以实例说明且非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、 CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、闪存存储器或可 用来存储呈指令或数据结构的形式的所要程序代码并且可由计算机存取的任何其它媒 体。而且,将任何连接恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、 光缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服 务器或其它远程源传输指令,那么同轴电缆、光缆、双绞线、DSL或例如红外线、无 线电及微波等无线技术包含在媒体的定义中。然而,应理解,计算机可读存储媒体及 数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对于非暂 时性有形存储媒体。如本文所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学 光盘、数字影音光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式复制数 据,而光盘使用激光以光学方式复制数据。上述各项的组合也应包含在计算机可读媒 体的范围内。

指令可以由一或多个处理器执行,所述一或多个处理器例如一或多个数字信号处 理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、或其 它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指前述结 构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面 中,本文所描述的功能性可以提供于经配置以用于编码及解码的专用硬件及/或软件模 块内,或者并入于组合编码解码器中。并且,可将所述技术完全实施于一或多个电路 或逻辑元件中。

本发明的技术可以在广泛多种装置或设备中实施,包含无线手持机、集成电路(IC) 或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以 执行所揭示技术的装置的功能方面,但未必需要通过不同硬件单元实现。实际上,如 上文所描述,各种单元可以结合合适的软件及/或固件组合在编码解码器硬件单元中, 或者通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个 处理器。

已描述各种实例。这些及其它实例在所附权利要求书的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号