首页> 中国专利> 自适应差域空间和时间参考重构及平滑

自适应差域空间和时间参考重构及平滑

摘要

根据某些方面的用于对视频信息进行译码的设备包含存储器单元和与所述存储器单元通信的处理器。所述存储器单元存储与从所述视频信息的增强层与对应基础层之间的差导出的像素信息的差视频层相关联的差视频信息。所述处理器确定增强层权重和基础层权重,且确定基于所述差视频层的当前视频单元的值、以所述增强层权重加权的所述增强层中的视频单元的值,以及以所述基础层权重加权的所述基础层中的视频单元的值。

著录项

  • 公开/公告号CN104429072A

    专利类型发明专利

  • 公开/公告日2015-03-18

    原文格式PDF

  • 申请/专利权人 高通股份有限公司;

    申请/专利号CN201380036314.0

  • 申请日2013-07-08

  • 分类号H04N19/33;H04N19/105;H04N19/70;H04N19/147;H04N19/30;H04N19/593;H04N19/80;H04N19/82;

  • 代理机构北京律盟知识产权代理有限责任公司;

  • 代理人宋献涛

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-18 08:25:28

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-24

    未缴年费专利权终止 IPC(主分类):H04N19/33 专利号:ZL2013800363140 申请日:20130708 授权公告日:20190315

    专利权的终止

  • 2019-03-15

    授权

    授权

  • 2015-07-29

    实质审查的生效 IPC(主分类):H04N19/33 申请日:20130708

    实质审查的生效

  • 2015-03-18

    公开

    公开

说明书

技术领域

本发明涉及视频译码。

背景技术

数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播系统、无线 广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读 器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、 蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输 装置,及其类似物。数字视频装置实施视频译码技术,例如在由MPEG-2、MPEG-4、 ITU-T H.263、ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)、当前在开发的高 效视频译码(HEVC)标准所定义的标准和这些标准的扩展中所描述的技术。视频装置可 通过实施此类视频译码技术来更有效地发射、接收、编码、解码和/或存储数字视频信 息。

视频译码技术包含空间(图片内)预测和/或时间(图片间)预测以减少或移除视频序列 中固有的冗余。针对基于块的视频译码,视频切片(例如,视频帧或视频帧的一部分)可 分割为若干视频块,所述视频块也可被称为树块、译码单元(CU)和/或译码节点。图片 的经帧内译码(I)切片中的视频块是相对于同一图片中的相邻块中的参考样本使用空间 预测来编码。图片的经帧间译码(P或B)切片中的视频块可相对于同一图片中的相邻块 中的参考样本使用空间预测,或相对于其它参考图片中的参考样本使用时间预测。图 片可称为帧,且参考图片可称为参考帧。

空间或时间预测针对待译码的块产生预测性块。残余数据表示在待译码的原始块 与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本的块的 运动向量及指示在经译码块与预测性块之间的差的残余数据来编码。经帧内译码块是 根据帧内译码模式及残余数据来编码。为进行进一步压缩,可将残余数据从像素域变 换到变换域,从而产生接着可被量化的残余变换系数。最初以二维阵列布置的经量化 变换系数可经扫描,以便产生变换系数的一维向量,且可应用熵译码以实现甚至更多 的压缩。

发明内容

大体上,本发明描述涉及可缩放视频译码(SVC)的技术。更具体来说,本发明的技 术涉及差域译码中的帧内和帧间预测。在一些实例中,所述技术可将不同权重指派于 来自增强层的参考帧以及来自经重构基础层的参考帧,以便产生用于差域的参考帧。 在一些实例中,所述技术可将不同权重指派于来自增强层的空间相邻像素以及来自经 重构基础层的空间相邻像素,以便产生用于帧内预测的差域的相邻像素。通过将权重 值指派于EL和经重构BL,所述技术可考虑同一层中的帧之间的弱的空间和时间相关 和/或EL与BL之间的弱相关。举例来说,EL和BL在其呈现的图片方面可能极为不 同。在此情况下,在产生差域参考帧时可对EL参考帧给出较大权重。或者,可对经重 构BL参考而非EL参考帧给出较大权重。

在一些实例中,所述技术也可将平滑滤波器或低通滤波器应用于差域中的参考帧 以用于帧间预测,或将平滑滤波器或低通滤波器应用于差域中的空间相邻像素以便减 少差域中可能存在的高频噪声。所述技术可应用简单的平滑滤波器,例如1∶2∶1滤波 器,以便保持纹理而不增加计算复杂性。可应用任何平滑滤波器,只要应用滤波器的 益处超过额外计算复杂性即可。

根据某些方面的用于对视频信息进行译码的设备包含存储器单元和与所述存储器 单元通信的处理器。所述存储器单元存储与从所述视频信息的增强层与对应基础层之 间的差导出的像素信息的差视频层相关联的差视频信息。所述处理器确定增强层权重 和基础层权重,且确定基于所述差视频层的当前视频单元的值、以所述增强层权重加 权的所述增强层中的视频单元的值,以及以所述基础层权重加权的所述基础层中的视 频单元的值。

根据某些方面的用于对视频信息进行译码的设备包含存储器单元和与所述存储器 单元通信的处理器。所述存储器单元存储与从所述视频信息的增强层与对应基础层之 间的差导出的像素信息的差视频层相关联的差视频信息。所述处理器基于差视频层内 的参考视频单元或空间相邻视频单元来确定视频单元的值,且将平滑滤波器应用于参 考视频单元或空间相邻视频单元。

在附图和以下描述中陈述一或多个实例的细节。从描述和附图以及从权利要求书 将明了其它特征、目标和优点。

附图说明

图1是说明可利用根据本发明中描述的方面的技术的实例性视频编码和解码系统 的框图。

图2是说明可实施根据本发明中描述的方面的技术的实例性视频编码器的框图。

图3是说明可实施根据本发明中描述的方面的技术的实例性视频解码器的框图。

图4是说明根据本发明的方面的自适应加权差域参考重构的概念图。

图4A是说明根据本发明的方面的自适应加权差域参考重构的概念图。

图5是说明根据本发明的方面的差域参考的平滑的概念图。

图5A是说明根据本发明的方面的差域参考的平滑的概念图。

图6是说明根据本发明的方面的用于自适应地产生差域参考的实例性方法的流程 图。

图6A是说明根据本发明的方面的用于自适应地产生差域参考的实例性方法的流程 图。

图6B是说明根据本发明的方面的用于自适应地产生差域参考的另一实例性方法的 流程图。

图7是说明根据本发明的方面的用于平滑差域参考的实例性方法的流程图。

图7A是说明根据本发明的方面的用于平滑差域参考的另一实例性方法的流程图。

具体实施方式

本发明中描述的技术大体上涉及可缩放视频译码(SVC)。举例来说,所述技术可涉 及高效视频译码(HEVC)可缩放视频译码(SVC)扩展且与其一起使用或在其内使用。在 SVC扩展中,可存在多个视频信息层。在极底部层级处的层可用作基础层(BL),且在 极顶部处的层可用作经增强层(EL)。“经增强层”有时称为“增强层”,且这些术语 可以可互换方式使用。中间的所有层可用作EL或BL中的任一者或两者。举例来说, 中间的层可为用于其下方的层(例如基础层或任何介入的增强层)的EL,且同时用作用 于其上方的增强层的BL。

仅为了说明目的,本发明中描述的技术是以包含仅两个层(例如,例如基础层的较 低层级层,和例如经增强层的较高层级层)的实例来描述。应了解,本发明中描述的实 例也可扩展到具有多个基础层和增强层的实例。

视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1视觉、ITU-T H.262或ISO/IEC  MPEG-2视觉、ITU-T H.263、ISO/IEC MPEG-4视觉和ITU-T H.264(也称为ISO/IEC  MPEG-4AVC),包含其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展。另外,新 的视频译码标准,即高效视频译码(HEVC),正在由ITU-T视频译码专家组(VCEG)和 ISO/IEC动画专家组(MPEG)的视频译码联合合作组(JCT-VC)开发。HEVC的新近草案从 2012年6月7日起可从http://wg11.sc29.org/jct/doc end user/current document.php?id=5885/JCTVC-I1003-v2得到。称为“HEVC工作草案7”的HEVC标准的另一新近草案 从2012年6月7日起可从http://phenix.it-sudparis.eu/jct/doc end user/documents/9_Geneva/wg11/JCTVC-I1003-v3.zip下载。HEVC工作草案7的完整引用是布罗斯 (Bross)等人文献HCTVC-I1003,“高效视频译码(HEVC)文字规范草案7”(ITU-T SG16 WP3和ISO/IEC JTC1/SC29/WG11的视频译码联合合作组(JCT-VC),瑞士日内瓦第9 次会议,2012年4月27日到2012年5月7日)。这些参考中的每一者以全文引用的方 式并入本文。

可缩放视频译码(SVC)可用以提供质量(也称为信噪比(SNR))缩放、空间缩放和/或 时间缩放。经增强层可具有与基础层不同的空间分辨率。举例来说,EL与BL之间的 空间纵横比可为1.0、1.5、2.0或其它不同比率。换句话说,EL的空间方面可等于BL 的空间方面的1.0、1.5或2.0倍。在一些实例中,EL的缩放因数可大于BL。举例来 说,EL中的图片的大小可大于BL中的图片的大小。以此方式,EL的空间分辨率大于 BL的空间分辨率可为可能的但不是限制。

在对增强层进行译码时,可使用像素域或差域执行帧间预测。帧间预测是基于在 时间序列中两个帧或切片中的视频块之间的时间相关的预测。举例来说,正译码的当 前视频块的值可使用运动向量来预测,所述运动向量指示从先前经译码帧或切片中的 参考视频块的位移。在SVC中,视频信息可使用基础层和一或多个增强层来译码,且 帧间预测可例如通过取增强层与经重构基础层之间的差而在差域中执行。差域可指代 通过从增强层中的经重构像素减去经重构基础层像素形成的差像素集合,或反之亦 然。差域中的帧间预测可利用帧之间的时间相关以及基础层与增强层之间的相关。类 似地,帧内预测可利用帧之间的空间相关以及基础层与增强层之间的相关。

然而,差域中的差像素例如由于当重构基础层时来自量化的损失而大体上为高频 分量。因此,在差域中使用参考帧的帧间预测和使用空间相邻像素的帧内预测可能不 会得到良好的预测结果。另外,当前预测单元的空间和时间相关可能在增强层或经重 构基础层中较强,或反之亦然。另外,将有利的是通过根据增强层和经重构基础层的 特性对增强层和经重构基础层进行加权而在差域中产生时间参考帧和空间相邻像素。

另外,如上文阐释,差域可能含有高频分量,这对于帧内或帧间预测不太好。举 例来说,此些高频分量可得自帧之间的弱的空间和时间相关。高频分量还可得自当增 强层和经重构基础层正以不同量化操作或其具有不同空间分辨率时的大的量化损失。 举例来说,增强层和基础层可在不同量化参数下操作,这可导致增强层与经重构基础 层之间的差为高频的。因此,将有利的是减少差域像素的高频噪声。

本发明中描述的技术可解决与差域中的帧内和帧间预测相关的问题。所述技术可 将不同权重指派于来自增强层的参考帧和空间相邻像素以及来自经重构基础层的参考 帧和空间相邻像素,以便产生用于差域的参考帧和空间相邻像素。通过将权重值指派 于EL和经重构BL,所述技术可考虑同一层中的帧之间的弱时间相关和/或EL与BL 之间的弱相关。举例来说,EL可能具有比基础层好的质量。在此情况下,在产生差域 参考帧时可对EL参考帧给出较大权重。或者,可对经重构BL参考而非EL参考帧给 出较大权重。

所述技术也可将平滑滤波器应用于差域中的参考帧或空间相邻像素以便减少差域 中可能存在的高频噪声。所述技术可应用简单的平滑滤波器,例如1∶2∶1滤波器,以便 保持纹理而不增加计算复杂性。可应用任何平滑滤波器,只要应用滤波器的益处超过 额外计算复杂性即可。

下文参考附图更完整描述新颖系统、设备和方法的各种方面。然而,本发明可以 许多不同形式体现,且不应解释为限于贯穿本发明呈现的任何特定结构或功能。而 是,提供这些方面以使得本发明将为详尽且完整的,且将本发明的范围完全传达给所 属领域的技术人员。基于本文的教示,所属领域的技术人员应了解,本发明的范围既 定涵盖本文揭示的新颖系统、设备和方法的任一方面,无论是独立于本发明的任一其 它方面来实施还是与其组合地实施都是如此。举例来说,可使用任何数目的本文陈述 的方面来实施设备或实践方法。另外,本发明的范围既定涵盖与本文陈述的本发明的 各种方面一起或除了与本文陈述的本发明的各种方面之外使用其它结构、功能性或结 构与功能性实践的此设备或方法。应了解,本文揭示的任一方面可由权利要求的一或 多个元件体现。

虽然本文描述特定方面,但这些方面的许多变化和排列属于本发明的范围内。虽 然提到优选方面的一些益处和优点,但本发明的范围既定不限于特定益处、用途或目 的。而是,本发明的方面既定广泛地适用于不同的无线技术、系统配置、网络和发射 协议,其中的一些在图中和在优选方面的以下描述中举例说明。详细描述和附图仅说 明本发明而不是限制性的,本发明的范围由所附权利要求书及其等效物界定。

图1是说明可利用根据本发明中描述的方面的技术的实例性视频编码和解码系统 的框图。如图1中所示,系统10包含源装置12,其提供经编码视频数据以在较晚时间 由目的地装置14解码。特定来说,源装置12经由计算机可读媒体16将视频数据提供 到目的地装置14。源装置12和目的地装置14可包括广范围装置中的任一者,包含桌 上型计算机、笔记本(例如,膝上型)计算机、平板计算机、机顶盒、例如所谓的“智 能”电话的电话手持机、所谓的“智能”平板计算机、电视机、相机、显示装置、数 字媒体播放器、视频游戏控制台、视频流式传输装置或类似物。在一些情况下,源装 置12和目的地装置14可经配备以用于无线通信。

目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机 可读媒体16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任一类 型的媒体或装置。在一个实例中,计算机可读媒体16可包括用以使得源装置12能够 实时地将经编码视频数据直接发射到目的地装置14的通信媒体。经编码视频数据可根 据例如无线通信协议等通信标准来调制,且发射到目的地装置14。通信媒体可包括任 何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成 例如局域网、广域网或全球网(例如,因特网)的基于包的网络的部分。通信媒体可包含 路由器、交换器、基站,或可用以促进从源装置12到目的地装置14的通信的任何其 它设备。

在一些实例中,经编码数据可从输出接口22输出到存储装置。类似地,经编码数 据可由输入接口从存储装置存取。存储装置可包含多种分布式或局部存取的数据存储 媒体中的任一者,例如硬驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性 或非易失性存储器,或用于存储经编码视频数据的任何其它合适数据存储媒体。在又 一实例中,存储装置可对应于文件服务器或可存储由源装置12产生的经编码视频的另 一中间存储装置。目的地装置14可经由流式传输或下载从存储装置存取存储的视频数 据。文件服务器可为能够存储经编码视频数据且将所述经编码视频数据发射到目的地 装置14的任一类型的服务器。实例性文件服务器包含网络服务器(例如,用于网站)、 FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可通过包含 因特网连接的任一标准数据连接来存取经编码视频数据。这可包含无线信道(例如,Wi- Fi连接)、有线连接(例如,DSL、电缆调制解调器等等),或适合于存取存储在文件服 务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置的发射可为流式 传输发射、下载发射或其组合。

本发明的技术不一定限于无线应用或设定。所述技术可应用于视频译码以支持多 种多媒体应用中的任一者,例如空中电视广播、电缆电视发射、卫星电视发射、因特 网流式传输视频发射(例如经由HTTP的动态自适应流式传输(DASH))、经编码到数据 存储媒体上的数字视频、存储在数据存储媒体上的数字视频的解码,或其它应用。在 一些实例中,系统10可经配置以支持单向或双向视频发射以支持例如视频流式传输、 视频重放、视频广播和/或视频电话等应用。

在图1的实例中,源装置12包含视频源18、视频编码器20和输出接口22。目的 地装置14包含输入接口28、视频解码器30和显示装置32。根据本发明,源装置12 的视频编码器20可经配置以应用用于对包含符合多个标准或标准扩展的视频数据的位 流进行译码的技术。在其它实例中,源装置和目的地装置可包含其它组件或布置。举 例来说,源装置12可从外部视频源18(例如,外部相机)接收视频数据。同样,目的地 装置14可与外部显示装置介接,而非包含集成显示装置。

图1的所说明系统10仅为一个实例。用于确定用于当前块的运动向量预测符的候 选列表的候选的技术可由任一数字视频编码和/或解码装置执行。虽然通常本发明的技 术由视频编码装置执行,但所述技术也可由通常称为“CODEC(编解码器)”的视频编 码器/解码器执行。而且,也可通过视频预处理器来执行本发明的技术。源装置12和目 的地装置14仅为这些译码装置的实例,其中源装置12产生经译码视频数据以供发射 到目的地装置14。在一些实例中,装置12、14可以实质上对称的方式操作,使得装置 12、14中的每一者包含视频编码和解码组件。因此,系统10可支持视频装置12、14 之间的单向或双向视频发射,例如,以用于视频流式传输、视频重放、视频广播,或 视频电话。

源装置12的视频源18可包含例如摄像机的视频俘获装置、含有先前俘获的视频 的视频存档,和/或用以从视频内容提供者接收视频的视频馈送接口。作为又一替代, 视频源18可产生基于计算机图形的数据作为源视频,或直播视频、经存档视频与计算 机产生的视频的组合。在一些情况下,如果视频源18为摄像机,那么源装置12和目 的地装置14可形成所谓的像机电话或视频电话。然而,如上文所提及,本发明中所述 的技术一般可适用于视频译码,且可应用于无线和/或有线应用。在每一情况下,可通 过视频编码器20编码所俘获、预先俘获或计算机产生的视频。经编码视频信息可接着 通过输出接口22输出到计算机可读媒体16上。

计算机可读媒体16可包含:暂时性媒体,例如无线广播或有线网络发射;或存储 媒体(即,非暂时性存储媒体),例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝 光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可从源装置12接 收经编码视频数据,且(例如)经由网络发射、直接有线通信等等将经编码视频数据提供 到目的地装置14。类似地,媒体生产设施(例如,光盘压印设施)的计算装置可从源装 置12接收经编码视频数据且产生含有经编码视频数据的光盘。因此,在各种实例中, 可将计算机可读媒体16理解为包含各种形式的一或多个计算机可读媒体。

目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16 的信息可包含由视频编码器20所定义的语法信息(其也由视频解码器30使用),所述语 法信息包含描述块和其它经译码单元(例如,GOP)的特性和/或处理的语法元素。显示 装置32向用户显示经解码视频数据,且可包括多种显示装置中的任一者,例如阴极射 线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器,或另 一类型的显示装置。

视频编码器20和视频解码器30可根据视频译码标准操作,例如当前在开发的高 效视频译码(HEVC)标准,且可符合HEVC测试模型(HM)。替代地,视频编码器20和 视频解码器30可根据其它专门或行业标准来操作,例如ITU-T H.264标准,替代地称 为MPEG4第10部分高级视频译码(AVC),或此些标准的扩展。然而本发明的技术不限 于任一特定译码标准,包含(但不限于)上文列出的标准中的任一者。视频译码标准的其 它实例包含MPEG-2和ITU-T H.263。虽然图1中未图示,但在一些方面中,视频编码 器20和视频解码器30可各自与音频编码器和解码器集成,且可包含适当的MUX- DEMUX单元或其它硬件和软件,以处置共同数据流或单独数据流中的音频和视频两者 的编码。如果适用,那么MUX-DEMUX单元可符合ITU H.223多路复用器协议,或例 如用户数据报协议(UDP)等其它协议。

可将视频编码器20和视频解码器30各自实施为多种合适的编码器电路中的任一 者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编 程门阵列(FPGA)、离散逻辑、软件、硬件、固件,或其任何组合。当所述技术部分地 以软件实施时,装置可将用于所述软件的指令存储在合适的非暂时性计算机可读媒体 中,且使用一或多个处理器以硬件执行所述指令以执行本发明的技术。可将视频编码 器20和视频解码器30中的每一者包含于一或多个编码器或解码器中,其中任一者可 集成为相应装置中的组合式编码器/解码器(CODEC)的部分。包含视频编码器20和/或 视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置,例如蜂窝式电 话。

JCT-VC正在致力于HEVC标准的开发。HEVC标准化努力是基于称为HEVC测试 模型(HM)的视频译码装置的演进模型。HM假设视频译码装置相对于根据例如ITU-T  H.264/AVC的现有装置的若干额外能力。举例来说,H.264提供九个帧内预测编码模 式,而HM可提供多达三十三个帧内预测编码模式。

大体上,HM的工作模型描述了可将视频帧或图片划分为包含亮度和色度样本两者 的树块或最大译码单元(LCU)的序列。位流内的语法数据可界定LCU的大小,其为在 像素数目方面的最大译码单元。切片包含若干在译码次序上连续的树块。视频帧或图 片可经分割为一或多个切片。每一树块可根据四叉树而分裂为若干译码单元(CU)。大 体上,四叉树数据结构包含每CU一个节点,其中根节点对应于树块。如果CU经分裂 为四个子CU,那么对应于CU的节点包含四个叶节点,所述叶节点中的每一者对应于 子CU中的一者。

四叉树数据结构的每一节点可提供用于对应CU的语法数据。举例来说,四叉树中 的节点可包含分裂旗标,其指示对应于所述节点的CU是否经分裂为若干子CU。用于 CU的语法元素可以递归方式界定,且可取决于CU是否经分裂为若干子CU。如果CU 并不进一步分裂,那么其被称为叶CU。在本发明中,叶CU的四个子CU也将被称为 叶CU,即使不存在原始叶CU的明显分裂也是如此。举例来说,如果16x16大小的 CU并不进一步分裂,那么四个8x8子CU也将被称为叶CU,但16x16CU从不分裂。

CU具有与H.264的宏块类似的目的,不同的是CU不具有大小区别。举例来说, 树块可经分裂为四个子代节点(也被称为子CU),且每一子代节点可又为父代节点且经 分裂为另外四个子代节点。被称为四叉树的叶节点的最终的未分裂子代节点包括译码 节点,所述译码节点也被称为叶CU。与经译码位流相关联的语法数据可界定可分裂树 块的最大次数(其被称为最大CU深度),且也可界定译码节点的最小大小。因此,位流 也可界定最小译码单元(SCU)。本发明使用术语“块”指代在HEVC的上下文中的 CU、PU或TU中的任一者,或在其它标准的上下文中的类似数据结构(例如,在 H.264/AVC中的宏块及其子块)。

CU包含译码节点以及与译码节点相关联的预测单元(PU)和变换单元(TU)。CU的 大小对应于译码节点的大小,且形状必须为正方形。CU的大小的范围可从8x8像素直 到具有最大64x64像素更大的树块的大小。每一CU可含有一或多个PU及一或多个 TU。与CU相关联的语法数据可描述(例如)CU到一或多个PU的分割。分割模式可在 CU是否经跳过或直接模式编码、经帧内预测模式编码或经帧间预测模式编码之间不 同。PU的形状可分割为非正方形。与CU相关联的语法数据也可描述(例如)CU根据四 叉树到一或多个TU的分割。TU的形状可为正方形或非正方形(例如,矩形)。

HEVC标准允许根据TU的变换,所述变换针对不同的CU可为不同的。通常基于 针对经分割LCU所界定的给定CU内的PU的大小而对TU定大小,但可能并非始终 如此。TU通常具有与PU相同的大小,或小于PU。在一些实例中,可使用被称为“残 余四叉树”(RQT)的四叉树结构将对应于CU的残余样本再分为若干较小单元。RQT的 叶节点可被称为变换单元(TU)。可变换与TU相关联的像素差值以产生可量化的变换系 数。

叶CU可包含一或多个预测单元(PU)。大体上,PU表示对应于对应CU的全部或 一部分的空间区域,且可包含用于检索PU的参考样本的数据。而且,PU包含与预测 相关的数据。举例来说,当PU经帧内模式编码时,用于PU的数据可包含于残余四叉 树(RQT)中,残余四叉树可包含描述对应于PU的TU的帧内预测模式的数据。作为另 一实例,当PU经帧间模式编码时,PU可包含界定所述PU的一或多个运动向量的数 据。界定用于PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的垂 直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量 所指向的参考图片,和/或用于运动向量的参考图片列表(例如,列表0、列表1,或列 表C)。

具有一或多个PU的叶CU也可包含一或多个变换单元(TU)。可使用RQT(也被称 为TU四叉树结构)指定变换单元,如上文所论述。举例来说,分裂旗标可指示叶CU 是否分裂为四个变换单元。接着,每一变换单元可进一步分裂为另外的子TU。当TU 并不进一步分裂时,其可被称为叶TU。一般来说,针对帧内译码,属于一叶CU的所 有叶TU共享相同帧内预测模式。也就是说,相同帧内预测模式大体应用于计算叶CU 的所有TU的预测值。针对帧内译码,视频编码器可使用帧内预测模式计算用于每一叶 TU的残余值,作为在对应于TU的CU的部分与原始块之间的差。TU不一定限于PU 的大小。因此,TU可大于或小于PU。针对帧内译码,PU可与用于同一CU的对应叶 TU位于同一地点。在一些实例中,叶TU的最大大小可对应于对应叶CU的大小。

而且,叶CU的TU也可与被称为残余四叉树(RQT)的相应四叉树数据结构相关 联。也就是说,叶CU可包含指示叶CU分割为若干TU的方式的四叉树。TU四叉树 的根节点一般对应于叶CU,而CU四叉树的根节点一般对应于树块(或LCU)。RQT的 不分裂的TU被称为叶TU。一般来说,本发明分别使用术语CU及TU来指代叶CU 及叶TU,除非另外注释。

视频序列通常包含一系列视频帧或图片。图片群组(GOP)通常包括一系列一或多个 视频图片。GOP可在GOP的标头、图片中的一或多者的标头或别处包含描述GOP中 包含的图片的数目的语法数据。图片的每一切片可包含描述相应切片的编码模式的切 片语法数据。视频编码器20通常对个别视频切片内的视频块操作以便对视频数据进行 编码。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小,且可根据 指定译码标准而大小不同。

作为实例,HM支持以各种PU大小进行预测。假设特定CU的大小为2Nx2N,则 HM支持以2Nx2N或NxN的PU大小进行帧内预测,及以2Nx2N、2NxN、Nx2N或 NxN的对称PU大小进行帧间预测。HM也支持以2NxnU、2NxnD、nLx2N和nRx2N 的PU大小进行帧间预测的非对称分割。在非对称分割中,CU的一个方向未分割,而 另一方向分割为25%及75%。CU的对应于25%分割的部分是通过“n”跟随有 “上”、“下”、“左”或“右”的指示来指示。因此,举例来说,“2NxnU”指代 以顶部2Nx0.5N PU及底部2Nx1.5N PU水平分割的2Nx2N CU。

在本发明中,“NxN”和“N乘N”可以可互换地使用以在垂直和水平尺寸方面指 代视频块的像素尺寸,例如16x16像素或16乘16像素。大体上,16x16块将在垂直方 向上具有16个像素(y=16)且在水平方向上具有16个像素(x=16)。同样,NxN块通常在 垂直方向上具有N个像素且在水平方向上具有N个像素,其中N表示非负整数值。块 中的像素可以布置成行和列。而且,块不需要一定在水平方向上与在垂直方向上具有 相同数目的像素。举例来说,块可包括NxM像素,其中M不一定等于N。

在使用CU的PU进行帧内预测性或帧间预测性译码之后,视频编码器20可计算 用于CU的TU的残余数据。PU可包括描述在空间域(也被称为像素域)中产生预测性像 素数据的方法或模式的语法数据,且TU可包括在对残余视频数据应用变换之后在变换 域中的系数,所述变换例如离散余弦变换(DCT)、整数变换、小波变换,或概念上类似 的变换。残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。 视频编码器20可形成包含用于CU的残余数据的TU,且接着变换所述TU以产生用于 CU的变换系数。

在应用任何变换以产生变换系数之后,视频编码器20可执行变换系数的量化。量 化一般指代其中对变换系数进行量化以可能减少用以表示系数的数据量从而提供进一 步压缩的过程。量化过程可减少与系数中的一些或全部相关联的位深度。举例来说,n 位值可在量化期间舍入到m位值,其中n大于m。

在量化之后,视频编码器可扫描变换系数,从而从包含经量化变换系数的二维矩 阵产生一维向量。扫描可经设计以将较高能量(且因此较低频率)系数置于阵列的前部, 且将较低能量(且因此较高频率)系数置于阵列的后部。在一些实例中,视频编码器20 可利用预定义扫描次序来扫描经量化变换系数,以产生可经熵编码的串行化向量。在 其它实例中,视频编码器20可执行自适应性扫描。在扫描经量化变换系数以形成一维 向量之后,视频编码器20可(例如)根据上下文自适应可变长度译码(CAVLC)、上下文 自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、 概率区间分割熵(PIPE)译码或另一熵编码方法来对所述一维向量进行熵编码。视频编码 器20也可对与经编码视频数据相关联的语法元素进行熵编码,以供视频解码器30用 于对视频数据进行解码。

为了执行CABAC,视频编码器20可将上下文模型内的上下文指派给待发射的符 号。所述上下文可与(例如)符号的相邻值是否为非零相关。为了执行CAVLC,视频编 码器20可针对待发射的符号选择可变长度码。可将VLC中的码字建构成使得相对较 短码对应于更有可能的符号,而较长码对应于较不可能的符号。以此方式,与(例如)针 对待发射的每一符号使用相等长度码字相比较,使用VLC可实现位节省。概率确定可 基于指派给符号的上下文。

视频编码器20可(例如)在帧标头、块标头、切片标头或GOP标头中进一步将语法 数据(例如,基于块的语法数据、基于帧的语法数据和基于GOP的语法数据)发送到视 频解码器30。GOP语法数据可描述相应GOP中的帧的数目,且帧语法数据可指示用 以对对应帧进行编码的编码/预测模式。

图2是说明可实施根据本发明中描述的方面的技术的实例性视频编码器的框图。 视频编码器20可经配置以执行本发明的技术中的任一者或全部。作为一个实例,模式 选择单元40可经配置以执行本发明中描述的技术中的任一者或全部。然而,本发明的 方面不受此限制。在一些实例中,本发明中描述的技术可在视频编码器20的各种组件 之间共享。在一些实例中,作为添加或替代,处理器(未图示)可经配置以执行本发明中 描述的技术中的任一者或全部。

在一些实施例中,模式选择单元40、运动估计单元42、运动补偿单元44、帧内预 测单元46(或模式选择单元40的另一组件,图示或未图示)或编码器20的另一组件(图 示或未图示)可执行本发明的技术。举例来说,模式选择单元40可接收用于编码的视频 数据,其可经编码为基础层和对应的一或多个增强层。模式选择单元40、运动估计单 元42、运动补偿单元44、帧内预测单元46或编码器20的另一适当单元可确定增强层 权重和基础层权重。编码器20的适当单元还可确定基于差视频层的当前视频单元的 值、以增强层权重加权的增强层中的视频单元的值,以及以基础层权重加权的基础层 中的视频单元的值。编码器20可对当前视频单元进行编码且在位流中用信号表示增强 层权重和基础层权重。

视频编码器20可执行视频切片内的视频块的帧内和帧间译码。帧内译码依赖于空 间预测来减少或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间 预测来减少或移除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式) 可涉及若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模 式)等帧间模式可涉及若干基于时间的译码模式中的任一者。

如图2中所示,视频编码器20接收待编码的视频帧内的当前视频块。在图1的实 例中,视频编码器20包含模式选择单元40、参考帧存储器64、求和器50、变换处理 单元52、量化单元54,和熵编码单元56。模式选择单元40又包含运动补偿单元44、 运动估计单元42、帧内预测单元46和分割单元48。针对视频块重构,视频编码器20 还包含逆量化单元58、逆变换单元60以及求和器62。还可包含解块滤波器(图2中未 图示)以对块边界进行滤波以从经重构视频移除成块假象。如果需要,解块滤波器将通 常对求和器62的输出进行滤波。除了解块滤波器之外还可使用额外滤波器(环路内或环 路后)。为了简明而未图示此些滤波器,但如果需要,则可对求和器50的输出进行滤波 (作为环路内滤波器)。

在编码过程期间,视频编码器20接收待译码的视频帧或切片。可将帧或切片划分 为多个视频块。运动估计单元42及运动补偿单元44相对于一或多个参考帧中的一或 多个块执行对所接收视频块的帧间预测性译码,以提供时间预测。帧内预测单元46或 者可相对于与待译码的块相同的帧或切片中的一或多个相邻块执行对所接收视频块的 帧内预测性译码,以提供空间预测。视频编码器20可执行多个译码遍次,(例如)以选 择用于每一视频数据块的适当译码模式。

而且,分割单元48可基于先前译码遍次中的先前分割方案的评估而将视频数据块 分割为若干子块。举例来说,分割单元48可最初将帧或切片分割为若干LCU,且基于 速率-失真分析(例如,速率-失真优化)将所述LCU中的每一者分割为若干子CU。模式 选择单元40可进一步产生指示LCU到子CU的分割的四叉树数据结构。四叉树的叶节 点CU可包含一或多个PU和一或多个TU。

模式选择单元40可(例如)基于错误结果而选择译码模式(帧内或帧间)中的一者,且 将所得的经帧内或帧间译码的块提供到求和器50以产生残余块数据,且提供到求和器 62以重构经编码块以用作参考帧。模式选择单元40还将语法元素(例如,运动向量、 帧内模式指示符、分割信息和其它此类语法信息)提供到熵编码单元56。

运动估计单元42与运动补偿单元44可为高度集成的,但为了概念性目的而单独 说明。由运动估计单元42执行的运动估计是产生运动向量的过程,所述向量估计视频 块的运动。举例来说,运动向量可指示当前视频帧或图片内的视频块的PU相对于参考 帧内的预测性块(或其它译码单元)相对于在当前帧内正译码的当前块(或其它译码单元) 的位移。预测性块为就像素差来说被发现紧密匹配待译码的块的块,所述像素差可通 过绝对差和(SAD)、平方差和(SSD)或其它差量度来确定。在一些实例中,视频编码器 20可计算存储在参考帧存储器64中的参考图片的子整数像素位置的值。举例来说,视 频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素 位置的值。因此,运动估计单元42可执行相对于全像素位置和分数像素位置的运动搜 索,且输出具有分数像素精度的运动向量。

运动估计单元42通过将经帧间译码切片中的视频块的PU的位置与参考图片的预 测性块的位置进行比较来计算所述PU的运动向量。参考图片可选自第一参考图片列表 (列表0)或第二参考图片列表(列表1),其各自识别存储在参考帧存储器64中的一或多 个参考图片。运动估计单元42将所计算的运动向量发送到熵编码单元56和运动补偿 单元44。

由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动向 量而取得或产生预测性块。再次,在一些实例中,运动估计单元42与运动补偿单元44 可在功能上集成。在接收到当前视频块的PU的运动向量后,运动补偿单元44可即刻 在参考图片列表中的一者中定位运动向量指向的预测性块。求和器50通过从正经译码 的当前视频块的像素值减去预测性块的像素值从而形成像素差值,来形成残余视频 块,如下文论述。大体上,运动估计单元42执行相对于亮度分量的运动估计,且运动 补偿单元44使用基于亮度分量计算的运动向量用于色度分量和亮度分量两者。模式选 择单元40还可产生与视频块和视频切片相关联的语法元素以由视频解码器30用于对 视频切片的视频块进行解码。

作为对上述由运动估计单元42和运动补偿单元44执行的帧间预测的替代,帧内 预测单元46可帧内预测当前块。特定来说,帧内预测单元46可确定使用帧内预测模 式来编码当前块。在一些实例中,帧内预测单元46可(例如)在单独的编码遍次期间使 用各种帧内预测模式来编码当前块,且帧内预测单元46(或在一些实例中,模式选择单 元40)可从所测试的模式选择待使用的适当的帧内预测模式。

举例来说,帧内预测单元46可使用针对各种经测试的帧内预测模式的速率-失真分 析计算速率-失真值,且在经测试模式当中选择具有最好的速率-失真特性的帧内预测模 式。速率-失真分析一般确定经编码块与经编码以产生所述经编码块的原始未经编码块 之间的失真(或错误)的量以及用以产生经编码块的位率(即,位的数目)。帧内预测单元 46可从失真和速率计算各种经编码块的比率,以确定哪一帧内预测模式展现块的最好 的速率-失真值。

在为块选择帧内预测模式之后,帧内预测单元46可将指示块的所选择帧内预测模 式的信息提供到熵编码单元56。熵编码单元56可对指示选定帧内预测模式的信息进行 编码。视频编码器20可在所发射位流中包含配置数据,其可包含多个帧内预测模式索 引表和多个经修改帧内预测模式索引表(也称为码字映射表)、各种块的编码上下文的定 义,以及将用于所述上下文中的每一者的最可能帧内预测模式、帧内预测模式索引表 和经修改帧内预测模式索引表的指示。

视频编码器20通过从正译码的原始视频块减去来自模式选择单元40的预测数据 而形成残余视频块。求和器50表示执行此减法运算的一或多个组件。变换处理单元52 将变换(例如,离散余弦变换(DCT)或概念上类似的变换)应用于残余块,从而产生包括 残余变换系数值的视频块。变换处理单元52可执行概念上类似于DCT的其它变换。 也可使用小波变换、整数变换、子带变换或其它类型的变换。在任何状况下,变换处 理单元52将变换应用于残余块,从而产生残余变换系数的块。变换可将残余信息从像 素值域转换到变换域,例如频域。变换处理单元52可将所得变换系数发送到量化单元 54。量化单元54量化变换系数以进一步减小位率。量化过程可减少与系数中的一些或 全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中,量化单 元54可随后执行对包含经量化变换系数的矩阵的扫描。替代地,熵编码单元56可执 行扫描。

在量化之后,熵编码单元56对经量化变换系数进行熵译码。举例来说,熵编码单 元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码 (CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE) 译码,或另一熵译码技术。在基于上下文的熵译码的情况下,上下文可基于相邻块。 在通过熵编码单元56熵译码之后,可将经编码位流发射到另一装置(例如,视频解码器 30)或加以存档以供稍后发射或检索。

逆量化单元58和逆变换单元60分别应用逆量化和逆变换,以在像素域中重构残 余块(例如)以供稍后用作参考块。运动补偿单元44可通过将残余块加到参考帧存储器 64的帧中的一者的预测性块而计算参考块。运动补偿单元44也可将一或多个内插滤波 器应用于经重构的残余块,以计算用于运动估计中的子整数像素值。求和器62将经重 构的残余块加到由运动补偿单元44产生的经运动补偿预测块,以产生经重构的视频块 以用于存储在参考帧存储器64中。经重构的视频块可由运动估计单元42和运动补偿 单元44用作参考块,以对后续视频帧中的块进行帧间译码。

图3是说明可实施根据本发明中描述的方面的技术的实例性视频解码器的框图。 视频解码器30可经配置以执行本发明的技术中的任一者或全部。作为一个实例,运动 补偿单元72和/或帧内预测单元74可经配置以执行本发明中描述的技术中的任一者或 全部。然而,本发明的方面不受此限制。在一些实例中,本发明中描述的技术可在视 频解码器30的各种组件之间共享。在一些实例中,作为添加或替代,处理器(未图示) 可经配置以执行本发明中描述的技术中的任一者或全部。

在一些实施例中,熵解码单元70、运动补偿单元72、帧内预测单元74或解码器 30的另一组件(图示或未图示)可执行本发明的技术。举例来说,熵解码单元70可接收 经编码视频位流,其可对涉及基础层和对应的一或多个增强层的数据进行编码。运动 补偿单元72、帧内预测单元74或解码器30的另一适当单元可确定增强层权重和基础 层权重。解码器30的适当单元还可确定基于差视频层的当前视频单元的值、以增强层 权重加权的增强层中的视频单元的值,以及以基础层权重加权的基础层中的视频单元 的值。解码器30可对当前视频单元进行解码且在位流中接收增强层权重和基础层权 重。解码器30还可至少部分地从位流中的信息导出增强层权重和基础层权重。

在图3的实例中,视频解码器30包含熵解码单元70、运动补偿单元72、帧内预 测单元74、逆量化单元76、逆变换单元78、参考帧存储器82以及求和器80。在一些 实例中,视频解码器30可执行与相对于视频编码器20(图2)所述的编码遍次大体上互 逆的解码遍次。运动补偿单元72可基于从熵解码单元70接收的运动向量产生预测数 据,而帧内预测单元74可基于从熵解码单元70接收的帧内预测模式指示符产生预测 数据。

在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视 频块和相关联语法元素的经编码视频位流。视频解码器30的熵解码单元70对位流进 行熵解码以产生经量化系数、运动向量或帧内预测模式指示符以及其它语法元素。熵 解码单元70将运动向量和其它语法元素转发到运动补偿单元72。视频解码器30可在 视频切片层级和/或视频块层级处接收语法元素。

当视频切片经译码为经帧内译码(I)切片时,帧内预测单元74可基于用信号发送的 帧内预测模式和来自当前帧或图片的先前经解码块的数据而产生当前视频切片的视频 块的预测数据。当视频帧经译码为经帧间译码(例如,B、P或GPB)切片时,运动补偿 单元72基于运动向量和从熵解码单元70接收的其它语法元素而产生当前视频切片的 视频块的预测性块。预测性块可从参考图片列表中的一者内的参考图片中的一者产 生。视频解码器30可基于存储在参考帧存储器92中的参考图片使用默认构造技术来 构造参考帧列表,列表0和列表1。运动补偿单元72通过剖析运动向量和其它语法元 素来确定当前视频切片的视频块的预测信息,且使用所述预测信息产生正解码的当前 视频块的预测性块。举例来说,运动补偿单元72使用所接收语法元素中的一些来确定 用以对视频切片的视频块进行译码的预测模式(例如,帧内或帧间预测)、帧间预测切片 类型(例如,B切片、P切片或GPB切片)、用于切片的参考图片列表中的一或多者的构 造信息、切片的每一经帧间编码视频块的运动向量、切片的每一经帧间译码视频块的 帧间预测状态,以及用以对当前视频切片中的视频块进行解码的其它信息。

运动补偿单元72也可执行基于内插滤波器的内插。运动补偿单元72可使用在视 频块的编码期间由视频编码器20使用的内插滤波器来计算参考块的子整数像素的经内 插值。在此情况下,运动补偿单元72可根据所接收语法元素确定由视频编码器20使 用的内插滤波器且使用内插滤波器来产生预测性块。

逆量化单元76逆量化(例如,解量化)在位流中提供且由熵解码单元80解码的经量 化变换系数。逆量化过程可包含针对视频切片中的每一视频块使用由视频解码器30计 算出的量化参数QPY来确定量化程度和(同样)应应用的逆量化的程度。

逆变换单元78将逆变换(例如,逆DCT、逆整数变换或概念上类似的逆变换过程) 应用于变换系数,以便在像素域中产生残余块。

在运动补偿单元82基于运动向量和其它语法元素而产生当前视频块的预测性块之 后,视频解码器30通过将来自逆变换单元78的残余块与由运动补偿单元72产生的对 应预测性块进行求和而形成经解码视频块。求和器90表示执行此求和运算的一或多个 组件。如果需要,那么还可应用解块滤波器以对经解码块进行滤波以便移除成块假 象。也可使用其它环路滤波器(译码环路中或在译码环路之后)来平滑像素转变或另外改 善视频质量。随后将给定帧或图片中的经解码视频块存储在参考图片存储器92中,所 述参考图片存储器存储用于后续运动补偿的参考图片。参考帧存储器82还存储经解码 视频以用于稍后呈现在显示装置(例如图1的显示装置32)上。

图4和图4A是说明根据本发明的方面的自适应加权差域参考重构的概念图。如上 文阐释,差域可包含许多高频分量。差域的高频性质可能是由于增强层(EL)和基础层 (BL)在不同量化或空间分辨率下操作。在此情况下,取EL与经重构BL帧之间的差以 获得差域帧将导致高频分量,且此些高频分量的译码不会带来良好的速率-失真折中。 而且,EL和经重构BL帧可能在不同空间分辨率下操作,在此情况下对经重构BL进 行上取样以匹配于EL的分辨率。此操作可减少其之间的相关且导致难以译码的高频差 域分量。

因此,本发明的技术可将经加权值指派于EL中的参考帧和经重构BL中的参考帧 以便产生差域的参考帧。类似地,本发明的技术可将经加权值指派于EL中的空间相邻 像素和经重构BL中的空间相邻像素以便产生差域的空间相邻像素。实际经加权值可基 于若干不同因数。此些因数可包含EL和BL的相似性。另一因数可为层是否具有强时 间相关。如果EL具有比经重构BL强的时间相关,那么可对EL参考帧给出较大权 重。第一权重值可指派于EL参考帧,且第二值可指派于经重构BL参考帧。EL的第 一权重值可称为“EL权重”,且经重构BL层的第二权重值可称为“BL权重”。在图 4中,EL权重由W1指示,且BL权重由W0指示。

EL和BL权重值已在上述参考帧方面阐释。然而,EL和BL权重值也可指派于当 前帧。因此,在给定时间点的EL帧和对应经重构BL帧可各自具有EL权重和BL权 重。举例来说,在时间T1和时间T2处的帧用于帧间预测。在T1处的EL和经重构BL 将具有对应W1和W0值,且在T2处的EL和经重构BL也将具有可不同于T1处的W1和W0的对应W1和W0值。每一时间点的差重构帧(或差域帧)可通过取由W1加权的EL 与由W0加权的经重构BL之间的差来产生。差域中的帧间预测是通过取T1处的差重构 帧和T2处的差重构帧且从彼此预测所述帧以产生差域残余来执行。因此,对EL和经 重构BL进行加权可对差域中的帧间预测有影响。每一时间点的用于帧内预测的差空间 相邻像素(或差域空间相邻像素)可通过取由W1加权的EL与由W0加权的经重构BL之 间的差来产生。差域中的帧内预测是通过取T1处的当前差重构预测单元和T1处的差重 构空间相邻像素且从彼此预测所述帧以产生差域残余来执行。因此,对EL和经重构 BL进行加权可对差域中的帧内预测有影响。

现在将参见图4和图4A更详细阐释根据本发明的技术的自适应加权差域参考重 构。在一些实施例中,自适应加权差域重构可根据以下等式计算:

差重构=(W1*EL重构-W0*BL重构)         (1)

在等式(1)中,差重构指代差域重构,EL重构指代增强层重构,且BL重构指代基 础层重构。在一些实施例中,根据以下等式在计算经加权差域重构时可添加舍入值:

差重构=(W1*EL重构-W0*BL重构+舍入)     (2)

舍入值可经译码或假定为HEVC中支持的不同语法层级处的默认值。举例来说, 舍入值可在序列标头、图片标头、切片标头、LCU标头和CU层级语法中支持。在一 些实施例中,通过在不同粒度语法层级处的速率-失真(R-D)优化准则可选择较精细的舍 入值。

在图4的实例中,在不同时间点(例如,T1和T2)将等式(2)应用于EL和经重构BL 帧以将权重自适应地指派于来自层的帧。在T1处,分别以W1和W0对增强层参考 (ELR)和经重构基础层参考(BLR)进行加权,以便产生增强层差参考(ELDR)。ELDR参 考差重构帧。ELDR可根据如下等式(2)计算:

ELDR=(W1*ELR-W0*BLR+舍入)

类似地,在T2处,分别以W1和W0对增强层当前(ELC)和经重构基础层当前 (BLC)进行加权,以便产生增强层差当前(ELDC)。ELDC参考差重构帧。ELDC可根据 如下等式(2)计算:

ELDC=(W1*ELC-W0*BLC+舍入)

帧间预测可使用增强层差参考(ELDR)和增强层差当前(ELDC)来执行以便产生增强 层差残余(ELDR)。ELDR可如下计算:

增强层差残余=差当前(ELDC)-MC(ELDR)MVDifference_domain   (3)

以上表达式表示通过基于差域中的运动向量的运动补偿获得的ELDC与ELDR之 间的差,其可称为增强层差残余。在一些实例中,为了编码器简化目的,编码器可选 择使用非差域或像素域的运动向量而不是差域的运动向量。那么上述表达式变为:

增强层差残余=差当前(ELDC)-MC(ELDR)MVPixel_domain

这可为非标准化操作且直到编码器选择对差域进行运动估计以得到差域的运动向 量或选择对像素域进行运动估计以得到像素域的运动向量。在一些实例中,如图4A中 所示,帧内预测也可使用增强层差相邻像素(ELDNA和ELDNB)和增强层差当前 PU(ELDC)来执行以便产生增强层差残余(ELDR)。ELDR可如下计算:

增强层差残余=差当前(ELDC)-帧内模式(ELDN)      (4)

以上表达式表示基于帧内模式获得的ELDC与ELDN之间的差,其可称为增强层 差残余。

在自适应加权差域重构中,EL权重和BL权重可为任何数字组合。下文提供一些 实例以用于说明目的。当W1和W0均等于1时,自适应差域重构与传统差域重构相 同,其中整个经重构BL帧从EL帧间去。因此,传统差域重构可表达为差重构=(EL 重构-BL重构)。表1提供W1和W0的一些实例性组合以及等式(1)的对应形式。

表1

当W0=1且W1=0.25时,经重构BL帧以25%加权且从EL增强层帧减去以形成 差域帧。等式(1)如表1中所示精简为差重构=(EL重构-0.25*BL重构)。当W0=1且 W1=0.5时,经重构BL帧以50%加权,且等式(1)精简为差重构=(EL重构-0.5*BL 重构)。当W0=1且W1=0.25时,经重构BL帧以75%加权,且等式(1)精简为差重构 =(EL重构-0.75*BL重构)。在一些实施例中,当使用等式(1)时W1大于W0,且W1为2的幂。如上文阐释,可添加舍入因数。

EL和BL权重可在不同语法层级译码。举例来说,在HEVC中,自适应权重值可 在序列标头、图片标头、切片标头和LCU标头以及CU层级语法中支持。在一些实施 例中,通过在不同粒度语法层级处的速率-失真(R-D)优化准则可选择较精细的自适应权 重。

在一些实施例中,EL和BL权重可使用旗标(例如, “weighted_difference_domain_recon_flag”)来用信号表示,所述旗标指示使用了用于 EL和经重构BL层的自适应权重。所述旗标可添加在以下语法层级:序列标头、图片 标头、切片标头和LCU标头,以及CU。EL和BL权重可经初始化为1。在一个实施 例中,用信号表示用于W0和W1的变化量偏移。在另一实施例中,W0和W1值可预定 义,且用信号表示指示预定义W0和W1值的特定集合的索引。

虽然图4和图4A已大部分在帧方面阐释,但根据本发明的方面的技术可在视频信 息单元的各种层级处实施。举例来说,相对于图4和图4A描述的根据本发明的方面的 技术可在帧、切片、块和像素层级实施。另外,相对于图4和图4A描述的所有实施例 可单独地或彼此组合地实施。

图5和图5A是说明根据本发明的方面的差域参考的平滑的概念图。因为差域可能 含有高频分量,所以当使用具有弱的时间/空间相关或在EL与经重构BL之间的弱相关 的帧计算时间参考帧或空间相邻参考像素时,帧间或帧内预测不会带来良好的预测结 果。因此,所述技术可将平滑滤波器或低通滤波器应用于差域中的参考帧以便减少差 域中可能存在的高频噪声。所述技术可应用简单的平滑滤波器,以便保持纹理而不增 加计算复杂性。平滑滤波器的一个实例是1∶2∶1滤波器,但可应用任何平滑滤波器。平 滑滤波器的选择可取决于高频噪声的减少是否提供比额外计算复杂性的代价好的益 处。

在一些实施例中,经平滑差域预测的使用可使用旗标(例如, “smoothed_difference_domain_prediction_flag”)来指示。在一个实施例中,针对经平 滑差域预测可界定新预测模式(例如,“经平滑差域预测模式”),且旗标可指示使用了 此新预测模式。在某些实施例中,可基于速率-失真(R-D)优化准则自适应地选择新预测 模式。所述旗标可添加在以下语法层级:序列标头、图片标头、切片标头和LCU标 头,以及CU。相对于图5描述的所有实施例可单独地或彼此组合地实施。

图5A类似于图5,但图5A说明使用差域空间相邻者的帧内预测而非使用差域参 考的帧间预测的上下文中的平滑。

虽然图5已大部分在帧方面阐释,但根据本发明的方面的技术可在视频信息单元 的各种层级处实施。举例来说,相对于图5描述的根据本发明的方面的技术可在帧、 切片、块和像素层级实施。另外,相对于图5和图5A描述的所有实施例可单独地或彼 此组合地实施。

图6和6A是说明根据本发明的方面的用于自适应地产生差域参考的实例性方法的 流程图。过程600可由编码器(例如,图2中所示的编码器等等)或解码器(例如,图3 中所示的解码器等等)。过程600的块是相对于图2中的编码器20来描述,但过程600 可由其它组件执行,例如上文提到的解码器。类似地,过程600A可由编码器或解码器 执行。过程600A的块是相对于图2中的编码器20来描述,但过程600A可由其它组 件执行,例如上文提到的解码器。

在框601处,编码器20确定EL权重和经重构BL权重。EL权重和BL权重可基 于若干不同因数。一个此因数可为EL与经重构BL之间的相似性。相关因数的另一实 例可为EL中的时间相关。经重构BL中的时间相关也可为相关因数。在一些实施例 中,EL权重可大于BL权重。在其它实施例中,BL权重可大于EL权重。可在由编码 标准(例如,HEVC)支持的各种语法层级处指派EL权重和BL权重。

在框602处,编码器20将经确定EL权重和BL权重应用于EL参考和经重构BL 参考。在框603处,编码器20通过从经加权EL参考减去经加权重构BL参考来计算 差域参考。在框604处,编码器20基于在不同时间点的经自适应加权差域参考来执行 帧间预测。相对于图6描述的实例性方法可在各种语法层级处实施。

图6A中的过程600A类似于图6中的过程600,但过程600A执行使用差域空间相 邻者的帧内预测而非使用差域参考的帧间预测。举例来说,在框604A处,编码器20 执行相同时间点的经自适应加权差域空间相邻者的帧内预测。

图6B是说明根据本发明的方面的用于自适应地产生差域参考的另一实例性方法的 流程图。过程600B可由编码器(例如,图2中所示的编码器等等)或解码器(例如,图3 中所示的解码器等等)。过程600B的块是相对于图2中的编码器20来描述,但过程 600B可由其它组件执行,例如上文提到的解码器。相对于图6B描述的所有实施例可 单独地或彼此组合地实施。

在框601B处,编码器20确定增强层权重和基础层权重。在一些实施例中,来自 增强层和基础层的视频单元可不同地加权,例如以便获得较好的预测结果或速率-失真 折中。在一个实施例中,增强层权重和基础层权重可基于增强层与基础层之间的相似 性来确定。举例来说,基础层权重与增强层权重相比在所述两个层不相似的情况下可 减少。相似性可基于例如增强层与基础层之间的时间相关或空间相关。增强层权重应 用于增强层中的视频单元,且基础层权重应用于基础层中的视频单元。

在框602B处,编码器20将增强层权重应用于增强层中的视频单元的值,且将基 础层权重应用于基础层中的视频单元的值。增强层中的视频单元和基础层中的视频单 元可为分别来自每一层的参考视频单元。增强层权重和基础层权重可在任一译码层级 处应用,包含(但不限于)以下语法层级:帧、切片、最大译码单元(LCU)、译码单元 (CU)、块、像素以及子像素。增强层权重和基础层权重可在位流中用信号表示,或可 在位流中接收或至少部分地从位流中的信息导出。

在框603B处,编码器20确定基于差视频层的当前视频单元的值、以增强层权重 加权的增强层中的视频单元的值,以及以基础层权重加权的基础层中的视频单元的 值。差视频层可指代差域。视频单元可为任一视频数据单元,且可包含(但不限于): 帧、切片、最大译码单元(LCU)、译码单元(CU)、块、像素和子像素。当前视频单元的 值可通过产生当前视频单元的预测单元(PU)来确定。在一些实施例中,当前视频单元 是与差视频层相关联的差视频单元。当前视频单元的值可基于与差视频层相关联的差 参考视频单元或差空间相邻视频单元来确定。差参考视频单元或差空间相邻视频单元 可从经加权增强层视频单元和经加权基础层视频单元的差导出。

图7是说明根据本发明的方面的用于平滑差域参考的实例性方法的流程图。过程 700可由编码器(例如,图2中所示的编码器等等)或解码器(例如,图3中所示的解码器 等等)。过程700的块是相对于图2中的编码器20来描述,但过程700可由其它组件执 行,例如上文提到的解码器。

在框701处,编码器20确定是否将平滑滤波器应用于差域参考或空间相邻像素。 举例来说,编码器20可决定差域参考或空间相邻像素包含高频分量。编码器20还可 选择应用平滑滤波器作为默认。编码器20还可基于平滑滤波器的应用所需要的计算复 杂性来确定是否应用平滑滤波器。在框702处,编码器20将平滑滤波器应用于差域参 考。在框703处,编码器20分别基于经平滑差域参考或相邻像素执行帧间预测或帧内 预测。相对于图7描述的实例性方法可在各种语法层级处实施。

图7A是说明根据本发明的方面的用于平滑差域参考的另一实例性方法的流程图。 过程700A可由编码器(例如,图2中所示的编码器等等)或解码器(例如,图3中所示的 解码器等等)。过程700A的块是相对于图2中的编码器20来描述,但过程700A可由 其它组件执行,例如上文提到的解码器。相对于图7A描述的所有实施例可单独地或彼 此组合地实施。

在框701A处,编码器20将平滑滤波器应用于来自差视频层的参考视频单元或空 间相邻视频单元。差视频层可参考差域。来自差视频层的参考视频单元可用于执行视 频单元的帧间预测。来自差视频层的空间相邻视频单元可用于执行视频单元的帧内预 测。平滑滤波器的实例可包含(但不限于)3分支滤波器、4分支滤波器、6分支滤波器 等等。在一些实施例中,编码器20应用低通滤波器,例如1∶2∶1滤波器。在其它实施 例中,编码器20可应用带通滤波器或高通滤波器。

编码器20可基于平滑视频单元的益处与来自应用平滑滤波器的增加计算复杂性的 代价之间的折中来确定是否将平滑滤波器应用于参考视频单元或空间相邻视频单元。 举例来说,编码器20可在视频单元的纹理可保持而不会增加很多计算复杂性的情况下 决定应用平滑滤波器。

在框702A处,编码器20基于参考视频单元或空间相邻视频单元来确定视频单元 的值。视频单元可为任一视频数据单元,且可包含(但不限于):帧、切片、最大译码单 元(LCU)、译码单元(CU)、块、像素和子像素。视频单元的值可通过产生视频单元的预 测单元(PU)来确定。

在一些实施例中,编码器20可使用基于参考视频单元的帧间预测、使用基于空间 相邻视频单元的帧内预测或两者来确定视频单元的值。在一个实施例中,参考视频单 元是从增强层中的参考视频单元和基础层中的参考视频单元的差导出,且增强层中的 参考视频单元以增强层权重加权,且基础层中的参考视频单元以基础层权重加权。在 另一实施例中,空间相邻视频单元是从增强层中的空间相邻视频单元和基础层中的空 间相邻视频单元的差导出,且增强层中的空间相邻视频单元以增强层权重加权,且基 础层中的空间相邻视频单元以基础层权重加权。

在某些实施例中,编码器20可界定用于将平滑滤波器应用于参考视频单元或空间 相邻视频单元的预测模式。编码器20可根据某一准则(例如,速率-失真优化准则)自适 应地选择预测模式。在其它实施例中,编码器20可界定用于将平滑滤波器应用于参考 视频单元或空间相邻视频单元的旗标。此旗标可在位流中用信号表示,或可在位流中 接收或至少部分地从位流中的信息导出。

应认识到,取决于实例,本文描述的技术中的任一者的某些动作或事件可以不同 顺序执行,可相加、合并或完全省去(例如,并非所有描述的动作或事件对于所述技术 的实践都是必要的)。而且,在某些实例中,动作或事件可例如通过多线程处理、中断 处理或多个处理器同时执行,而不是循序地执行。

在一或多个实例中,所描述功能可以硬件、软件、固件或其任一组合实施。如果 以软件来实施,那么所述功能可作为一或多个指令或代码存储于计算机可读媒体上或 经由计算机可读媒体传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计 算机可读存储媒体(其对应于例如数据存储媒体等有形媒体)或通信媒体,所述通信媒体 包含(例如)根据通信协议促进计算机程序从一处传送到另一处的任何媒体。以此方式, 计算机可读媒体一般可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)例如信号 或载波等通信媒体。数据存储媒体可为可由一或多个计算机或者一或多个处理器存取 以检索指令、代码和/或数据结构以用于实施本发明中描述的技术的任何可用媒体。计 算机程序产品可包含计算机可读媒体。

举例来说且并非限制,计算机可读存储媒体可包括RAM、ROM、EEPROM、CD- ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可用 以存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。 而且,将任何连接恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤 电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服 务器或其它远程源发射指令,那么同轴电缆、光纤电缆、双绞线、DSL或例如红外 线、无线电和微波等无线技术包含于媒体的定义中。然而应了解,计算机可读存储媒 体和数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而替代地针对非暂时 性有形存储媒体。如本文所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光 盘、数字多功能光盘(DVD)、软磁盘和蓝光光盘,其中磁盘通常以磁性方式再生数据, 而光盘用激光以光学方式再生数据。以上各项的组合也应包含在计算机可读媒体的范 围内。

可通过例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路 (ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理 器来执行指令。因此,如本文使用的术语“处理器”可指代前述结构或适于实施本文 所述的技术的任何其它结构中的任一者。另外,在一些方面中,可将本文描述的功能 性提供于经配置以用于编码和解码的专用硬件和/或软件模块内,或并入于组合式编解 码器中。而且,可将所述技术完全实施于一或多个电路或逻辑元件中。

本发明的技术可在广泛多种装置或设备中实施,包含无线手持机、集成电路(IC)或 一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元以强调经配置以执行所 揭示技术的装置的功能方面,但未必需要通过不同硬件单元来实现。而是如上文所 述,各种单元可组合于编解码器硬件单元中,或通过互操作性硬件单元(包含如上文所 述的一或多个处理器)的集合结合合适的软件和/或固件来提供。

已描述各种实例。这些和其它实例在所附权利要求书的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号