首页> 中国专利> 在视频译码中的低延迟缓冲模型

在视频译码中的低延迟缓冲模型

摘要

本发明揭示用于在视频译码过程中的低延迟缓冲的技术。视频解码技术可包含:接收用于经解码图片的第一经解码图片缓冲器DPB输出延迟及第二DPB输出延迟;在用于视频解码器的假设参考解码器HRD设置指示在图片级别处的操作的状况下针对所述经解码图片而使用所述第一DPB输出延迟来确定第一DPB输出时间;及在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下针对所述经解码图片而使用所述第二DPB输出延迟来确定第二DPB输出时间。

著录项

  • 公开/公告号CN104854870A

    专利类型发明专利

  • 公开/公告日2015-08-19

    原文格式PDF

  • 申请/专利权人 高通股份有限公司;

    申请/专利号CN201380065800.5

  • 发明设计人 王益魁;

    申请日2013-12-10

  • 分类号

  • 代理机构北京律盟知识产权代理有限责任公司;

  • 代理人宋献涛

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-18 10:26:28

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-12-04

    授权

    授权

  • 2015-09-16

    实质审查的生效 IPC(主分类):H04N19/70 申请日:20131210

    实质审查的生效

  • 2015-08-19

    公开

    公开

说明书

相关申请案

本申请案主张2012年12月19日申请的美国临时申请案第61/739,632号及2012 年12月21日申请的美国临时申请案第61/745,423号的权利,所述两个临时申请案的 全部内容是以引用方式并入本文中。

技术领域

本发明涉及视频译码,且更明确地说,涉及用于在视频译码过程中的低延迟缓冲 的技术。

背景技术

数字视频能力可并入到广泛范围的装置中,所述装置包含数字电视、数字直播系 统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子 书阅读器、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控 制台、蜂窝或卫星无线电话、所谓“智能电话”、视频电话会议装置、视频流式处理 装置,及其类似者。数字视频装置实施视频压缩技术,诸如,由MPEG-2、MPEG-4、 ITU-T H.263、ITU-T H.264/MPEG-4第10部分的高级视频译码(AVC)定义的标准、目 前在开发中的高效率视频译码(HEVC)标准及这些标准的扩展中描述的视频压缩技术。 视频装置可通过实施这些视频压缩技术而较有效率地发射、接收、编码、解码及/或存 储数字视频信息。

视频压缩技术执行空间(图片内)预测及/或时间(图片间)预测以缩减或移除为视频序 列所固有的冗余。对于基于块的视频译码,可将视频切片(即,视频帧或视频帧的部分) 分割成视频块,视频块也可被称作树状块、译码单元(CU)及/或译码节点。图片的经帧 内译码(I)切片中的视频块是使用关于同一图片中的相邻块中的参考样本的空间预测而 编码。图片的经帧间译码(P或B)切片中的视频块可使用关于同一图片中的相邻块中的 参考样本的空间预测,或关于其它参考图片中的参考样本的时间预测。图片可被称作 帧,且参考图片可被称作参考帧。

空间预测或时间预测利用预测性块。残差数据表示原始待译码块与预测性块之间 的像素差。经帧间译码块是根据指向形成预测性块的参考样本块的运动矢量及指示经 译码块与预测性块之间的差的残差数据而编码。经帧内译码块是根据帧内译码模式及 残差数据而编码。出于进一步压缩起见,可将残差数据从像素域变换到变换域,从而 引起残差变换系数,残差变换系数接着可被量化。可扫描最初以二维阵列而布置的经 量化变换系数以便产生变换系数的一维矢量,且可应用熵译码以实现甚至更多的压 缩。

发明内容

大体上,本发明描述用于视频译码的技术,且更明确地说,描述用于在视频译码 过程中的低延迟缓冲的技术。在一或多个实例中,本发明提议用于发信经解码图片缓 冲器(DPB)输出延迟以在视频解码器正在子图片级别处操作时予以使用以便改进视频缓 冲器延迟的技术。

在本发明的一个实例中,一种解码视频的方法包括:接收用于经解码图片的第一 经解码图片缓冲器(DPB)输出延迟及第二DPB输出延迟;在用于视频解码器的假设参 考解码器(HRD)设置指示在图片级别处的操作的状况下针对所述经解码图片而使用所述 第一DPB输出延迟来确定第一DPB输出时间;及在用于所述视频解码器的所述HRD 设置指示在子图片级别处的操作的状况下针对所述经解码图片而使用所述第二DPB输 出延迟来确定第二DPB输出时间。

在本发明的另一实例中,一种编码视频的方法包括:在用于视频解码器的HRD设 置指示在图片级别处的操作的状况下使用第一DPB输出延迟来确定第一DPB输出时 间;在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下使用 第二DPB输出延迟来确定第二DPB输出时间;及发信所述第一经解码图片缓冲器 (DPB)输出延迟及所述第二DPB输出延迟。

在本发明的另一实例中,一种经配置以解码视频数据的设备包括视频解码器,所 述视频解码器经配置以:接收用于经解码图片的第一DPB输出延迟及第二DPB输出延 迟;在用于视频解码器的HRD设置指示在图片级别处的操作的状况下针对所述经解码 图片而使用所述第一DPB输出延迟来确定第一DPB输出时间;及在用于所述视频解码 器的所述HRD设置指示在子图片级别处的操作的状况下针对所述经解码图片而使用所 述第二DPB输出延迟来确定第二DPB输出时间。

在本发明的另一实例中,一种经配置以编码视频数据的设备包括视频编码器,所 述视频编码器经配置以:在用于视频解码器的HRD设置指示在图片级别处的操作的状 况下使用第一DPB输出延迟来确定第一DPB输出时间;在用于所述视频解码器的所述 HRD设置指示在子图片级别处的操作的状况下使用第二DPB输出延迟来确定第二 DPB输出时间;及发信所述第一DPB输出延迟及所述第二DPB输出延迟。

在本发明的另一实例中,一种经配置以解码视频数据的设备包括:用于接收用于 经解码图片的第一DPB输出延迟及第二DPB输出延迟的装置;用于在用于视频解码器 的HRD设置指示在图片级别处的操作的状况下针对所述经解码图片而使用所述第一 DPB输出延迟来确定第一DPB输出时间的装置;及用于在用于所述视频解码器的所述 HRD设置指示在子图片级别处的操作的状况下针对所述经解码图片而使用所述第二 DPB输出延迟来确定第二DPB输出时间的装置。

在本发明的另一实例中,一种经配置以编码视频数据的设备包括:用于在用于视 频解码器的HRD设置指示在图片级别处的操作的状况下使用第一DPB输出延迟来确 定第一DPB输出时间的装置;用于在用于所述视频解码器的所述HRD设置指示在子 图片级别处的操作的状况下使用第二DPB输出延迟来确定第二DPB输出时间的装置; 用于发信所述第一DPB输出延迟及所述第二DPB输出延迟的装置。

在另一实例中,本发明揭示一种计算机可读存储媒体,所述计算机可读存储媒体 存储指令,所述指令在执行时致使经配置以解码视频数据的装置的一或多个处理器: 接收用于经解码图片的第一DPB输出延迟及第二DPB输出延迟;在用于视频解码器的 HRD设置指示在图片级别处的操作的状况下针对所述经解码图片而使用所述第一DPB 输出延迟来确定第一DPB输出时间;及在用于所述视频解码器的所述HRD设置指示 在子图片级别处的操作的状况下针对所述经解码图片而使用所述第二DPB输出延迟来 确定第二DPB输出时间。

在另一实例中,本发明揭示一种计算机可读存储媒体,所述计算机可读存储媒体 存储指令,所述指令在执行时致使经配置以编码视频数据的装置的一或多个处理器: 在用于视频解码器的HRD设置指示在图片级别处的操作的状况下使用第一DPB输出 延迟来确定第一DPB输出时间;在用于所述视频解码器的所述HRD设置指示在子图 片级别处的操作的状况下使用第二DPB输出延迟来确定第二DPB输出时间;及发信所 述第一DPB输出延迟及所述第二DPB输出延迟。

在附图及以下描述中阐述一或多个实例的细节。其它特征、目标及优点将从所述 描述及所述附图且从权利要求书显而易见。

附图说明

图1为说明可利用本发明所描述的技术的实例视频编码及解码系统的框图。

图2为说明用于假设参考解码器(HRD)的缓冲器模型的框图。

图3为说明可实施本发明所描述的技术的实例视频编码器的框图。

图4为说明可实施本发明所描述的技术的实例视频解码器的框图。

图5为展示根据本发明的技术的实例编码方法的流程图。

图6为展示根据本发明的技术的实例解码方法的流程图。

具体实施方式

本发明描述用以经由一般的基于子图片的假设参考解码器(HRD)模型而以能共同操 作的方式来实现缩减的编码解码器(译码器/解码器)延迟的各种方法及技术,所述模型 包含基于子图片的经译码图片缓冲器(CPB)操作及基于子图片时序的经解码图片缓冲器 (DPB)操作两者。

用以最小化CPB及/或DPB延迟时间的当前方法展现以下缺点。经解码图片的输 出时间等于最后解码单元(即,用于存取单元级别操作的存取单元自身)的解码时间 (即,CPB移除时间)加经发信DPB输出延迟。因此,通常使用用以缩减所述延迟的两 种方法。一种方法是较早地使解码时间移位。另一方法是缩减经发信DPB输出延迟(相 对于CPB移除时间)的值。然而,用于超低延迟缓冲模型的现有解决方案仅涉及基于子 图片的CPB操作,且仅利用第一方法以缩减延迟。

鉴于这些缺点,本发明提议用于经由发信及使用相对于CPB移除时间的经发信 DPB输出延迟的缩减值而进一步缩减解码延迟的技术。

图1为说明可利用本发明所描述的技术的实例视频编码及解码系统10的框图。如 图1所展示,系统10包含源装置12,源装置12产生待在稍后时间由目的地装置14解 码的经编码视频数据。源装置12及目的地装置14可包括广泛范围的装置中的任一 者,所述装置包含桌上型计算机、笔记本(即,膝上型)计算机、平板计算机、机顶盒、 电话手机(诸如,所谓“智能」电话”、所谓“智能”垫、电视、相机、显示装置、数 字媒体播放器、视频游戏控制台、视频流式处理装置,或其类似者。在一些状况下, 源装置12及目的地装置14可经配备用于无线通信。

目的地装置14可经由链路16而接收待解码的经编码视频数据。链路16可包括能 够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在 一个实例中,链路16可包括通信媒体以使源装置12能够将经编码视频数据直接地实 时发射到目的地装置14。经编码视频数据可根据诸如无线通信协议的通信标准而调 制,且发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,诸如,射频 (RF)频谱或一或多个物理传输线。通信媒体可形成基于数据包的网络(诸如,局域网、 广域网,或诸如因特网的全局网络)的部分。通信媒体可包含路由器、交换机、基站, 或可用以促进从源装置12到目的地装置14的通信的任何其它装备。

替代地,可将经编码数据从输出接口22输出到存储装置33。相似地,可由输入接 口从存储装置33存取经编码数据。存储装置33可包含多种分布式或本地存取式数据 存储媒体中的任一者,诸如,硬盘、蓝光光盘、DVD、CD-ROM、闪速存储器、易失 性或非易失性存储器,或用于存储经编码视频数据的任何其它合适数字存储媒体。在 另外实例中,存储装置33可对应于可保持由源装置12产生的经编码视频的文件服务 器或另一中间存储装置。目的地装置14可经由流式处理或下载而从存储装置33存取 经存储视频数据。文件服务器可为能够存储经编码视频数据且将那个经编码视频数据 发射到目的地装置14的任何类型的服务器。实例文件服务器包含web服务器(例如, 对于网站)、FTP服务器、网络连接存储(NAS)装置,或本地磁盘驱动器。目的地装置 14可经由包含因特网连接的任何标准数据连接而存取经编码视频数据。这种数据连接 可包含适合于存取存储在文件服务器上的经编码视频数据的无线信道(例如,Wi-Fi连 接)、有线连接(例如,DSL、电缆调制解调器等等),或这两者的组合。经编码视频数 据从存储装置33的发射可为流式处理发射、下载发射,或这两者的组合。

本发明的技术未必限于无线应用或设置。所述技术可应用于视频译码以支持多种 多媒体应用中的任一者,诸如,空中电视广播、有线电视发射、卫星电视发射、流式 处理视频发射(例如,经由因特网)、供存储在数据存储媒体上的数字视频的编码、存储 在数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可经配置 以支持单向或双向视频发射以支持诸如视频流式处理、视频播放、视频广播及/或视频 电话的应用。

在图1的实例中,源装置12包含视频源18、视频编码器20及输出接口22。在一 些状况下,输出接口22可包含调制器/解调器(调制解调器)及/或发射器。在源装置12 中,视频源18可包含诸如以下各者的源:视频捕获装置,例如,摄像机;视频存档, 其含有经先前捕获视频;视频馈送接口,其用以从视频内容提供者接收视频;及/或计 算机图形系统,其用于产生计算机图形数据作为源视频;或这些源的组合。作为一个 实例,如果视频源18为摄像机,那么源装置12及目的地装置14可形成所谓相机电话 或视频电话。然而,本发明所描述的技术可大体上适用于视频译码,且可应用于无线 及/或有线应用。

可由视频编码器20编码经捕获、经预捕获或经计算机产生视频。可经由源装置12 的输出接口22而将经编码视频数据直接地发射到目的地装置14。又(或替代地),可将 经编码视频数据存储到存储装置33上以供目的地装置14或其它装置稍后存取,以用 于解码及/或播放。

目的地装置14包含输入接口28、视频解码器30及显示装置32。在一些状况下, 输入接口28可包含接收器及/或调制解调器。目的地装置14的输入接口28经由链路 16而接收经编码视频数据。经由链路16而传达或提供在存储装置33上的经编码视频 数据可包含由视频编码器20产生以供视频解码器(诸如,视频解码器30)用来解码所述 视频数据的多种语法元素。这些语法元素可与通信媒体上发射、存储在存储媒体上或 存储在文件服务器上的经编码视频数据一起被包含。

显示装置32可与目的地装置14集成,或在目的地装置14外部。在一些实例中, 目的地装置14可包含集成式显示装置,且也经配置以与外部显示装置进行接口连接。 在其它实例中,目的地装置14可为显示装置。一般来说,显示装置32向用户显示经 解码视频数据,且可包括多种显示装置中的任一者,诸如,液晶显示器(LCD)、等离子 显示器、有机发光二极管(OLED)显示器,或另一类型的显示装置。

视频编码器20及视频解码器30可根据诸如目前在开发中的高效率视频译码 (HEVC)标准的视频压缩标准而操作,且可符合HEVC测试模型(HM)。HEVC正由 ITU-T视频译码专家组(VCEG)及ISO/IEC动画专家组(MPEG)的视频译码联合合作团队 (JCT-VC)开发。从2013年7月5日时起,可从http://phenix.int-evry.fr/jct/doc_end_user/documents/11_Shanghai/wg11/JCTVC-K1003-v13.zip得到HEVC的一个工作草案(WD), 其为Bross等人的“High Efficiency Video Coding(HEVC)text specification draft 9”且在 下文中被称作HEVC WD9。HEVC WD9的全部内容是以引用方式并入本文中。

替代地,视频编码器20及视频解码器30可根据诸如ITU-T H.264标准(替代地被 称作MPEG-4第10部分的高级视频译码(AVC)的其它专有或工业标准或这些标准的扩 展而操作。然而,本发明的技术不限于任何特定译码标准。视频压缩标准的其它实例 包含MPEG-2及ITU-T H.263。

尽管图1中未展示,但在一些方面中,视频编码器20及视频解码器30各自可与 音频编码器及解码器集成,且可包含适当MUX-DEMUX单元或其它硬件及软件,以处 置公共数据流或单独数据流中的音频及视频两者的编码。适用时,在一些实例中, MUX-DEMUX单元可符合ITU H.223多路复用器协议,或诸如用户数据报协议(UDP) 的其它协议。

视频编码器20及视频解码器30各自可被实施为多种合适编码器电路系统中的任 一者,诸如,一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场 可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地以软件 来实施技术时,装置可将用于所述软件的指令存储在合适非暂时性计算机可读媒体 中,且使用一或多个处理器而以硬件来执行所述指令以执行本发明的技术。视频编码 器20及视频解码器30中的每一者可包含在一或多个编码器或解码器中,所述一或多 个编码器或解码器中的任一者可被集成为相应装置中的组合式编码器/解码器(CODEC) 的部分。

JCT-VC正致力于HEVC标准的开发。HEVC标准化努力是基于视频译码装置的演 进模型,其被称作HEVC测试模型(HM)。HM推测视频译码装置相对于根据(例如) ITU-T H.264/AVC的现有装置的若干额外能力。举例来说,H.264提供九个帧内预测编 码模式,而HM可提供多达三十三个帧内预测编码模式。

一般来说,HM的工作模型描述视频帧或图片可划分成包含亮度样本及色度样本两 者的树状块或最大译码单元(LCU)序列。树状块具有与H.264标准的宏块相似的目的。 切片包含按译码次序的数个连续树状块。视频帧或图片可分割成一或多个切片。每一 树状块可根据四叉树而分裂成若干译码单元(CU)。举例来说,树状块(作为四叉树的根 节点)可分裂成四个子节点,且每一子节点又可为一父节点且分裂成另外四个子节点。 最终未分裂子节点(作为四叉树的叶节点)包括译码节点,即,经译码视频块。与经译码 位流相关联的语法数据可定义树状块可被分裂的最大次数,且也可定义译码节点的最 小大小。

CU包含译码节点,以及与译码节点相关联的预测单元(PU)及变换单元(TU)。CU 的大小通常对应于译码节点的大小,且通常必须为正方形形状。CU的大小的范围可为 从8×8像素直到具有64×64像素或更大的最大值的树状块的大小。每一CU可含有一 或多个PU及一或多个TU。与CU相关联的语法数据可描述(例如)CU成为一或多个 PU的分割。分割模式可在CU被跳过或直接模式编码、被帧内预测模式编码还是被帧 间预测模式编码之间不同。PU可分割为非正方形形状。与CU相关联的语法数据也可 描述(例如)CU根据四叉树而成为一或多个TU的分割。TU可为正方形或非正方形形 状。

HEVC标准允许根据TU的变换,所述变换对于不同CU可不同。TU通常是基于 针对经分割LCU所定义的给定CU内的PU的大小而定大小,但可不总是这种状况。 TU通常具有与PU相同的大小,或小于PU。在一些实例中,可使用被称为“残差四叉 树”(RQT)的四叉树结构而将对应于CU的残差样本再分成较小单元。RQT的叶节点可 被称作变换单元(TU)。可变换与TU相关联的像素差值以产生变换系数,变换系数可被 量化。

一般来说,PU包含与预测过程相关的数据。举例来说,当PU被帧内模式编码 时,PU可包含描述用于PU的帧内预测模式的数据。作为另一实例,当PU被帧间模 式编码时,PU可包含定义用于PU的运动矢量的数据。定义用于PU的运动矢量的数 据可描述(例如)运动矢量的水平分量、运动矢量的垂直分量、用于运动矢量的分辨率 (例如,四分之一像素精确度,或八分之一像素精确度)、运动矢量所指向的参考图片, 及/或用于运动矢量的参考图片列表(例如,列表0、列表1或列表C)。

一般来说,TU用于变换过程及量化过程。具有一或多个PU的给定CU也可包含 一或多个变换单元(TU)。在预测之后,视频编码器20可从由译码节点根据PU而识别 的视频块计算残差值。接着,更新译码节点以参考残差值而非原始视频块。残差值包 括可使用TU中指定的变换及其它变换信息而变换成变换系数、被量化且被扫描以产生 系列化变换系数以供熵译码的像素差值。可再次更新译码节点以参考这些系列化变换 系数。本发明通常使用术语“视频块”以是指CU的译码节点。在一些特定状况下,本 发明也可使用术语“视频块”以是指包含译码节点以及PU及TU的树状块,即,LCU 或CU。

视频序列通常包含一系列视频帧或图片。图片群(GOP)通常包括所述视频图片中的 一系列一或多个视频图片。GOP可在GOP的标头中、在所述图片中的一或多者的标头 中或在别处包含语法数据,语法数据描述包含在GOP中的数个图片。图片的每一切片 可包含描述用于相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频 切片内的视频块进行操作,以便编码视频数据。视频块可对应于CU内的译码节点。视 频块可具有固定或变化大小,且其大小可根据所指定译码标准而不同。

作为实例,HM以各种PU大小来支持预测。假定特定CU的大小为2N×2N,那么 HM以2N×2N或N×N的PU大小来支持帧内预测,且以2N×2N、2N×N、N×2N或 N×N的对称PU大小来支持帧间预测。HM也以2N×nU、2N×nD、nL×2N及nR×2N的 PU大小来支持用于帧间预测的不对称分割。在不对称分割中,CU的一个方向未被分 割,而另一方向分割成25%及75%。对应于25%分区的CU的部分是由“n”继之以 “向上”、“向下”、“左侧”或“右侧”的指示进行指示。因此,举例来说, “2N×nU”是指水平地分割的2N×2N CU,其中2N×0.5N PU位于顶部上且2N×1.5N  PU位于底部上。

在本发明中,“N×N”及“N乘N”可互换式地用以是指在垂直维度及水平维度 方面的视频块的像素尺寸,例如,16×16像素或16乘16像素。一般来说,16×16块将 在垂直方向上具有16个像素(y=16)且在水平方向上具有16个像素(x=16)。同样地, N×N块通常在垂直方向上具有N个像素且在水平方向上具有N个像素,其中N表示非 负整数值。块中的像素可按行及列而布置。此外,块未必需要在水平方向上与在垂直 方向上具有相同数目个像素。举例来说,块可包括N×M像素,其中M未必等于N。

在使用CU的PU进行帧内预测性或帧间预测性译码之后,视频编码器20可计算 由CU的TU指定的变换被应用的残差数据。所述残差数据可对应于未经编码图片的像 素与对应于CU的预测值之间的像素差。视频编码器20可形成用于CU的残差数据, 且接着变换所述残差数据以产生变换系数。

在进行任何变换以产生变换系数之后,视频编码器20可执行变换系数的量化。量 化通常是指如下过程:量化变换系数以可能地缩减用以表示所述系数的数据的量,从 而提供进一步压缩。量化过程可缩减与所述系数中的一些或全部相关联的位深度。举 例来说,可在量化期间将n位值降值舍位到m位值,其中n大于m。

在一些实例中,视频编码器20可利用预定义扫描次序以扫描经量化变换系数,以 产生可被熵编码的系列化矢量。在其它实例中,视频编码器20可执行自适应性扫描。 在扫描经量化变换系数以形成一维矢量之后,视频编码器20可(例如)根据上下文自适 应性可变长度译码(CAVLC)、上下文自适应性二进制算术译码(CABAC)、基于语法的 上下文自适应性二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方 法而熵编码一维矢量。视频编码器20也可熵编码与经编码视频数据相关联的语法元素 以供视频解码器30用来解码所述视频数据。

为了执行CABAC,视频编码器20可将上下文模型内的上下文指派给待发射符 号。上下文可关于(例如)符号的相邻值是否为非零。为了执行CAVLC,视频编码器20 可选择用于待发射符号的可变长度代码。可构造VLC中的代码字,使得相对较短代码 对应于较可能符号,而较长代码对应于较不可能符号。以此方式,VLC的使用相比于 (例如)针对每一待发射符号来使用等长度代码字可实现位节省。概率确定可基于指派给 符号的上下文。

可使用视频编码器20及视频解码器30的视频应用程序可包含本地播放、流式处 理、广播/多播及交谈应用程序。交谈应用程序包含视频电话及视频会议。交谈应用程 序也被称作低延迟应用程序,这在于:这些实时应用程序不容许显著延迟。出于良好 用户体验起见,交谈应用程序需要全部系统的相对低端对端延迟,即,在源装置处捕 获视频帧的时间与在目的地装置处显示视频帧的时间之间的延迟。通常,用于交谈应 用程序的可接受端对端延迟应小于400ms。大约150ms的端对端延迟被认为极好。

交谈应用程序的每一处理步骤可促成总端对端延迟。来自处理步骤的实例延迟包 含捕获延迟、预处理延迟、编码延迟、发射延迟、接收缓冲延迟(对于去抖动)、解码延 迟、经解码图片输出延迟、后处理延迟,及显示延迟。通常,将使编码解码器延迟(编 码延迟、解码延迟及经解码图片输出延迟)在交谈应用程序中最小化作为目标。详细地 说,译码结构应确保图片的解码次序及输出次序相同,使得经解码图片输出延迟等于 或接近于零。

视频译码标准通常包含视频缓冲模型的规范。在AVC及HEVC中,缓冲模型被称 作假设参考解码器(HRD),其包含经译码图片缓冲器(CPB)及经解码图片缓冲器(DPB) 两者的缓冲模型。CPB为含有经译码图片以用于解码的先进先出缓冲器。DPB为保持 经解码图片以用于参考(例如,帧间预测)、输出重排序、输出延迟及最终显示的缓冲 器。CPB行为及DPB行为是由HRD数学上指定。HRD直接地强加对不同时序、缓冲 器大小及位率的约束,且间接地强加对位流特性及统计的约束。完整HRD参数集合包 含五个基本参数:初始CPB移除延迟、CPB大小、位率、初始DPB输出延迟,及 DPB大小。

在AVC及HEVC中,将位流一致性及解码器一致性指定为HRD规范的部分。尽 管HRD被称作解码器,但通常也在编码器侧处需要由HRD指定的一些技术以保证位 流一致性,而通常在解码器侧处无需由HRD指定的一些技术。指定两种类型的位流或 HRD一致性,即,类型I及类型II。而且,指定两种类型的解码器一致性(即,输出时 序解码器一致性,及输出次序解码器一致性)。

类型I位流为网络抽象层(NAL)单元流,其仅含有用于所述位流中的所有存取单元 的视频译码层(VCL)NAL单元及nal_unit_type等于FD_NUT(填充符数据NAL单元)的 NAL单元。类型II位流除了含有用于所述位流中的所有存取单元的VCL NAL单元及 填充符数据NAL单元以外,也含有以下各者中的至少一者:除了填充符数据NAL单 元以外的额外非VCL NAL单元、所有leading_zero_8bits、zero_byte、 start_code_prefix_one_3bytes及trailing_zero_8bits语法元素,所述语法元素用NAL单 元流形成字节流。

图2为说明用于假设参考解码器(HRD)的缓冲器模型的框图。HRD操作如下。由 假设流调度器(HSS)100递送与根据所指定到达调度而流动到CPB 102中的解码单元相 关联的数据。由HSS 100递送的流可为如上文所定义的类型I或类型II位流。在每一 解码单元的CPB移除时间由解码过程104(例如,由视频解码器30)移除及解码与所述 解码单元相关联的数据。由视频解码器30执行解码过程104。将由解码过程104产生 的每一经解码图片放置在DPB 106中。可在解码过程104期间(例如,在帧间预测期间) 使用经解码图片作为参考图片。当经解码图片变得不再被需要用于帧间预测参考且不 再被需要用于输出时,从DPB 106移除经解码图片。在一些实例中,可在显示DPB  106中的经解码图片之前由输出裁剪单元108裁剪所述经解码图片。输出裁剪单元108 可为视频解码器30的部分,或可为经配置以进一步处理视频解码器的输出的外部处理 器(例如,显示处理器)的部分。

在AVC模型及HEVC HRD模型中,解码或CPB移除是基于存取单元(AU),且假 定图片解码是瞬时的(例如,图2中的解码过程104被假定为瞬时的)。存取单元为网络 抽象层(NAL)单元集合,且含有一个经译码图片。在实际应用中,如果合格解码器严格 地遵循(例如)由视频编码器20产生的图片时序补充增强信息(SEI)消息中发信的解码时 间以开始AU的解码,那么用以输出特定经解码图片的最早可能时间等于那个特定图 片的解码时间(即,图片开始被解码的时间)加解码那个特定图片所需要的时间。在真实 世界中解码图片所需要的时间不能等于零。

HEVC WD9包含支持基于子图片的CPB操作以实现缩减的编码解码器延迟,有时 被称作超低延迟。CPB可在AU级别(即,图片级别)处操作或在子图片级别(即,小于 整个图片)处操作,这取决于子图片级别CPB操作是否受到解码器优选(其可通过 HEVC规范中未指定的外部方式而指定)及是否存在子图片CPB参数(在位流中或经由 HEVC规范中未指定的外部方式)。当两个条件都为真时,CPB在子图片级别处操作(且 在这种状况下,每一解码单元被定义为一AU的子集)。解码单元(DU)为由解码器操作 的单元。否则,CPB在AU级别处操作(且在这种状况下,每一解码单元被定义为一 AU)。如果语法元素SubPicCpbFlag等于0,那么DU等于AU。否则,DU为AU的子 集。

用于子图片级别CPB参数的HEVC语法包含以下各者:

-以下语法位于序列参数集(SPS)的视频可用性信息(VUI)部分中

○是否存在子图片级别CPB参数

○用于推导子计时周期时钟的计时周期除数

○CPB移除延迟长度

○在图片时序SEI消息中还是在解码单元信息SEI消息中发信解码单元CPB 移除延迟值

○用于在子图片级别处的CPB操作的CPB大小值的长度

-以下语法位于缓冲周期SEI消息中

○用于子图片级别CPB操作的初始CPB移除延迟及延迟位移集合

-以下语法位于图片时序SEI消息中

○存取单元中的解码单元的数目

○每一解码单元中的NAL单元的数目

○用于解码单元的解码单元CPB移除延迟值

-以下语法位于图片时序SEI消息中

○每一解码单元到存取单元中的解码单元列表的索引

○用于每一解码单元的解码单元CPB移除延迟值

用以最小化CPB及/或DPB延迟时间的当前方法展现以下缺点。经解码图片的输 出时间等于最后DU(即,用于AU级别操作的AU自身)的解码时间(即,CPB移除时 间)加经发信DPB输出延迟。因此,通常使用用以缩减所述延迟的两种方法。一种方法 是较早地使解码时间移位。另一方法是缩减经发信DPB输出延迟(相对于CPB移除时 间)的值。然而,用于超低延迟缓冲模型的现有解决方案仅涉及基于子图片的CPB操 作,且仅利用第一方法以缩减延迟。

鉴于这些缺点,本发明提议用于经由发信及使用相对于CPB移除时间的经发信 DPB输出延迟的缩减值而进一步缩减解码延迟的技术。

具体地说,在本发明的一个实例中,由编码器(例如)在图片时序SEI消息中发信相 对于每一AU的CPB移除时间的DPB输出延迟的一个额外经发信值。这个额外经发信 DPB输出延迟用来推导用于基于子图片的HRD操作的DPB输出时间。在另一实例 中,除了额外经发信DPB输出延迟以外,也使用子计时周期时钟而非计时周期时钟来 推导DPB输出时间。

下文提供一些详细实例。如果未特定地提及,那么以下实例的方面可如HEVC  WD9中所定义而操作。

根据本发明的一个实例,图片时序SEI消息的实例语法及语义如下。以粗体来展 示由本发明变更或引入的语法元素。

在本发明的这个实例中,粗体语法元素可操作如下。语法元素 用以计算当HRD在子图片级别处操作时(即,当 SubPicCpbFlag等于1时)的图片的DPB输出时间。语法元素指定在从DPB输出经解码图片之前从CPB移除存取单元中的最后解码单元之后要等待 多少子时钟计时周期。

在一个实例中,语法元素的长度是由 dpb_output_delay_length_minus1+1以位为单位而给出。在另一实例中,语法元素 的长度是由另一语法元素的值加1以位为单位而给出,其中 (例如)所述语法元素具有的名称且在序列参数集 的VUI部分中被发信。

从输出时序合格解码器输出的任何图片的推导的输出时 间应在从按解码次序的任何后续经译码视频序列中的所有图片的 推导的输出时间之前。在一个实例中,由这个语法元素的值 建立的图片输出次序应为与由如HEVC WD9中指定的语法元素PicOrderCntVal的值建 立的次序相同的次序。语法元素PicOrderCntVal指示当前图片的图片次序计数(POC)。 POC值为与待从DPB输出的每一图片相关联的变量,其指示按输出次序的关联图片相 对于同一经译码视频序列中待从DPB输出的其它图片的输出次序位置的位置。

对于未由“提升”过程(即,供从DPB移除图片的过程)输出的图片,因为其按解 码次序在等于1或被推断为等于1的瞬时解码刷新(IDR) 或断开链接存取(BLA)图片之前,所以从推导的输出时间应 随着PicOrderCntVal相对于同一经译码视频序列内的所有图片的值增加而增加。语法 元素指定如何在IDR或BLA图片的解码之后处理DPB 中的经先前解码图片。如果等于1或被推断为1,那么 在解码IDR或BLA图片之后,将不输出那些经先前解码图片,但将从经解码图片缓冲 器(DPB)直接地清空/移除所述经先前解码图片。

在以下状况下调用“提升”过程。

-当前图片为IDR或BLA图片,且no_output_of_prior_pics_flag不等于1且未被 推断为等于1。

-当前图片既不为IDR图片又不为BLA图片,且DPB中被标记为“被需要用于 输出”的图片的数目大于被允许按解码次序在任何图片之前的图片的最大数目 (sps_max_num_reorder_pics[HighestTid])。

-当前图片既不为IDR图片又不为BLA图片,且DPB中的图片的数目等于图片 存储缓冲器单元中的DPB的最大所需大小(sps_max_dec_pic_buffering[HighestTid])。

“提升”过程包含以下已排序步骤:

1.选择首先用于输出的图片作为DPB中被标记为“被需要用于输出”的所有图片 中的具有PicOrderCntVal的最小值的图片。

2.使用用于所述图片的活动序列参数集中指定的一致性裁剪窗来裁剪所述图片, 输出经裁剪图片,且将所述图片标记为“未被需要用于输出”。

3.如果包含被裁剪及输出的图片的图片存储缓冲器含有被标记为“未用于参考” 的图片,那么使图片存储缓冲器空白。即,如果图片已被输出用于显示且不再被需要 用于帧间预测,那么可“提升”所述图片,即,从DPB移除所述图片。

对于经译码视频序列中的任何两个图片,在子图片级别HRD操作下推导的所述两 个图片的输出时间之间的差应相同于在AU级别(即,图片级别)HRD操作下推导的相 同差。

实例图片输出过程如下。在存取单元n的CPB移除时间tr(n)瞬时地发生以下情 形。基于图片n是否具有等于1的PicOutputFlag(即,使用子图片HRD),其DPB输出 时间to,dpb(n)是由以下方程式推导:

if(!SubPicCpbFlag)//即,HRD在AU级别处操作

to,dpb(n)=tr(n)+tc*pic_dpb_output_delay(n)

else//即,HRD在子图片级别处操作

其中pic_dpb_output_delay(n)及pic_dpb_output_du_delay(n)分别为与存取单元n 相关联的图片时序SEI消息中指定的pic_dpb_output_delay及pic_dpb_output_du_delay 的值。变量tc被推导如下且被称为时钟计时周期:

tc=num_units_in_tick÷time_scale

变量tc_sub被推导如下且被称为子图片时钟计时周期:

tc_sub=tc÷(tick_divisor_minus2+2)

根据本发明的实例,当前图片的输出被指定如下:

-如果PicOutputFlag等于1且to,dpb(n)=tr(n),那么输出当前图片。

-否则,如果PicOutputFlag等于0,那么不输出当前图片,但将会将当前图片存 储在DPB中,如由上文所概述的“提升”过程所指定。

-否则(PicOutputFlag等于1且to,dpb(n)>tr(n)),稍后输出当前图片且将会将当 前图片存储在DPB中(如由“提升”过程所指定),且除非当前图片被指示为不在 to,dpb(n)之前的时间通过等于1的no_output_of_prior_pics_flag的解码或推断而输出, 否则在时间to,dpb(n)输出当前图片。当输出时,应使用活动序列参数集中指定的一致性 裁剪窗来裁剪图片。

当图片n为被输出且不为被输出的位流的最后图片的图片时,将Δto,dpb(n)(即,图 片之间的DPB输出时间)的值定义为:

Δto,dpb(n)=to,dpb(nn)-to,dpb(n)

其中nn指示按输出次序在图片n之后且具有等于1的PicOutputFlag的图片。

图3为说明可实施本发明所描述的技术的实例视频编码器20的框图。视频编码器 20可执行视频切片内的视频块的帧内译码及帧间译码。帧内译码依赖于空间预测以缩 减或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测以缩减 或移除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可指若干基 于空间的压缩模式中的任一者。诸如单向预测(P模式)或双向预测(B模式)的帧间模式 可指若干基于时间的压缩模式中的任一者。

在图3的实例中,视频编码器20包含预测处理单元41、参考图片存储器64、求 和器50、变换处理单元52、量化单元54,及熵编码单元56。预测处理单元41包含运 动估计单元42、运动补偿单元44,及帧内预测处理单元46。出于视频块重构起见,视 频编码器20也包含反量化单元58、反变换处理单元60,及求和器62。也可包含去块 滤波器(图3中未展示)以滤波块边界,以从经重构视频移除块效应假象。视需要,去块 滤波器通常将滤波求和器62的输出。除了去块滤波器以外,也可使用额外环路滤波器 (环路内或环路后)。

如图3所展示,视频编码器20接收视频数据,且预测处理单元41可将所述数据 分割成视频块。这种分割也可包含分割成切片、图像块或其它较大单元,以及(例如)根 据LCU及CU的四叉树结构的视频块分割。视频编码器20通常说明编码待编码视频切 片内的视频块的组件。切片可划分成多个视频块(且可能地划分成被称作图像块的视频 块集合)。预测处理单元41可基于误差结果(例如,译码率及失真水平)而选择用于当前 视频块的多个可能译码模式中的一者,诸如,多个帧内译码模式中的一者,或多个帧 间译码模式中的一者。预测处理单元41可将所得经帧内译码块或经帧间译码块提供给 求和器50以产生残差块数据,且提供给求和器62以重构经编码块以用作参考图片。

预测处理单元41内的帧内预测处理单元46可执行当前视频块相对于与待译码的 当前块相同的帧或切片中的一或多个相邻块的帧内预测性译码,以提供空间压缩。预 测处理单元41内的运动估计单元42及运动补偿单元44执行当前视频块相对于一或多 个参考图片中的一或多个预测性块的帧间预测性译码,以提供时间压缩。

运动估计单元42可经配置以根据用于视频序列的预定样式而确定用于视频切片的 帧间预测模式。所述预定样式可将所述序列中的视频切片指定为P切片、B切片或 GPB切片。运动估计单元42及运动补偿单元44可高度地集成,但出于概念目的而被 分离地说明。由运动估计单元42执行的运动估计为产生运动矢量的过程,运动矢量估 计用于视频块的运动。举例来说,运动矢量可指示当前视频帧或图片内的视频块的PU 相对于参考图片内的预测性块的位移。

预测性块为被发现在像素差方面接近地匹配于待译码视频块的PU的块,像素差可 由绝对差总和(SAD)、平方差总和(SSD)或其它差度量确定。在一些实例中,视频编码 器20可计算用于存储在参考图片存储器64中的参考图片的次整数像素位置的值。举 例来说,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其 它分数像素位置的值。因此,运动估计单元42可执行相对于完全像素位置及分数像素 位置的运动搜索,且以分数像素精确度输出运动矢量。

运动估计单元42通过比较经帧间译码切片中的视频块的PU的位置与参考图片的 预测性块的位置而计算用于所述PU的运动矢量。参考图片可选自第一参考图片列表 (列表0)或第二参考图片列表(列表1),所述列表中的每一者识别存储在参考图片存储器 64中的一或多个参考图片。运动估计单元42将经计算运动矢量发送到熵编码单元56 及运动补偿单元44。

由运动补偿单元44执行的运动补偿可涉及基于由运动估计确定的运动矢量而提取 或产生预测性块,从而可能地执行达子像素精确度的内插。在接收到用于当前视频块 的PU的运动矢量后,运动补偿单元44就可在所述参考图片列表中的一者中定位所述 运动矢量所指向的预测性块。视频编码器20通过从正被译码的当前视频块的像素值减 去预测性块的像素值而形成像素差值来形成残差视频块。像素差值形成用于块的残差 数据,且可包含亮度差分量及色度差分量两者。求和器50表示执行这种减去运算的组 件。运动补偿单元44也可产生与视频块及视频切片相关联的语法元素以供视频解码器 30用来解码视频切片的视频块。

作为如上文所描述的由运动估计单元42及运动补偿单元44执行的帧间预测的替 代例,帧内预测处理单元46可帧内预测当前块。详细地说,帧内预测处理单元46可 确定将用以编码当前块的帧内预测模式。在一些实例中,帧内预测处理单元46可(例 如)在单独编码遍次期间使用各种帧内预测模式来编码当前块,且帧内预测处理单元46 (或在一些实例中,模式选择单元40)可从经测试模式选择将使用的适当帧内预测模 式。

举例来说,帧内预测处理单元46可使用用于各种经测试帧内预测模式的速率-失真 分析来计算速率-失真值,且在经测试模式当中选择具有最佳速率-失真特性的帧内预测 模式。速率-失真分析通常确定经编码块与经编码以产生经编码块的原始未经编码块之 间的失真(或误差)的量,以及用以产生经编码块的位率(即,位的数目)。帧内预测处理 单元46可从用于各种经编码块的失真及速率计算比率,以确定哪一帧内预测模式针对 所述块展现最佳速率-失真值。

在任何状况下,在选择用于块的帧内预测模式之后,帧内预测处理单元46可将指 示用于块的选定帧内预测模式的信息提供给熵编码单元56。熵编码单元56可根据本发 明的技术而编码指示选定帧内预测模式的信息。视频编码器20可在经发射位流中包含 配置数据,配置数据可包含多个帧内预测模式索引表及多个经修改帧内预测模式索引 表(也被称作代码字映射表)、编码用于各种块的上下文的定义,以及将用于所述上下文 中的每一者的最可能帧内预测模式、帧内预测模式索引表及经修改帧内预测模式索引 表的指示。

在预测处理单元41经由帧间预测或帧内预测而产生用于当前视频块的预测性块之 后,视频编码器20通过从当前视频块减去预测性块而形成残差视频块。残差块中的残 差视频数据可包含在一或多个TU中且应用于变换处理单元52。变换处理单元52使用 诸如离散余弦变换(DCT)或概念上相似变换的变换而将残差视频数据变换成残差变换系 数。变换处理单元52可将残差视频数据从像素域转换到变换域,诸如,频域。

变换处理单元52可将所得变换系数发送到量化单元54。量化单元54量化变换系 数以进一步缩减位率。量化过程可缩减与所述系数中的一些或全部相关联的位深度。 可通过调整量化参数而修改量化程度。在一些实例中,量化单元54接着可执行包含经 量化变换系数的矩阵的扫描。替代地,熵编码单元56可执行所述扫描。

在量化之后,熵编码单元56熵编码经量化变换系数。举例来说,熵编码单元56 可执行上下文自适应性可变长度译码(CAVLC)、上下文自适应性二进制算术译码 (CABAC)、基于语法的上下文自适应性二进制算术译码(SBAC)、概率区间分割熵 (PIPE)译码,或另一熵编码方法或技术。在由熵编码单元56进行的熵编码之后,可将 经编码位流发射到视频解码器30,或对经编码位流存档以供视频解码器30稍后发射或 检索。熵编码单元56也可熵编码用于正被译码的当前视频切片的运动矢量及其它语法 元素。

反量化单元58及反变换处理单元60分别应用反量化及反变换,以在像素域中重 构残差块以供稍后用作参考图片的参考块。运动补偿单元44可通过将残差块加到参考 图片列表中的一者内的参考图片中的一者的预测性块而计算参考块。运动补偿单元44 也可将一或多个内插滤波器应用于经重构残差块以计算次整数像素值以供运动估计中 使用。求和器62将经重构残差块加到由运动补偿单元44产生的运动补偿式预测块, 以产生参考块以供存储在参考图片存储器64(也被称为经解码图片缓冲器)中。参考块 可由运动估计单元42及运动补偿单元44用作参考块以帧间预测后续视频帧或图片中 的块。

视频编码器20可经配置以实施本发明的技术。在一个实例中,视频编码器20可 经配置以在用于视频解码器的HRD设置指示在图片级别处的操作的状况下使用第一 DPB输出延迟来确定第一DPB输出时间、在用于视频解码器的HRD设置指示在子图 片级别处的操作的状况下使用第二DPB输出延迟来确定第二DPB输出时间、在经编码 视频位流中发信第一DPB输出延迟及第二DPB输出延迟。下文将参看图5来论述根据 本发明的技术的视频编码器20的操作的另外实例。

图4为说明可实施本发明所描述的技术的实例视频解码器30的框图。在图4的实 例中,视频解码器30包含经译码图片缓冲器(CPB)78、熵解码单元80、预测处理单元 81、反量化单元86、反变换处理单元88、求和器90,及经解码图片缓冲器(DPB)92。 预测处理单元81包含运动补偿单元82及帧内预测处理单元84。在一些实例中,视频 解码器30可执行与关于来自图3的视频编码器20所描述的编码遍次大体上互逆的解 码遍次。

CPB 78存储来自经编码图片位流的经译码图片。在一个实例中,CPB 78为含有按 解码次序的存取单元(AU)的先进先出缓冲器。AU为根据所指定分类规则而彼此相关 联、按解码次序连续且含有正好一个经译码图片的网络抽象层(NAL)单元集合。解码次 序为图片被解码的次序,且可不同于图片被显示的次序(即,显示次序)。CPB的操作可 由假设参考解码器(HRD)(诸如,根据本发明的技术而操作的HRD)指定。

在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视 频块及关联语法元素的经编码视频位流。视频解码器30的熵解码单元80熵解码所述 位流以产生经量化系数、运动矢量及其它语法元素。熵解码单元80将运动矢量及其它 语法元素转递到预测处理单元81。视频解码器30可在视频切片级别及/或视频块级别 处接收语法元素。

当视频切片被译码为经帧内译码(I)切片时,预测处理单元81的帧内预测处理单元 84可基于经发信帧内预测模式及来自当前帧或图片的经先前解码块的数据而产生用于 当前视频切片的视频块的预测数据。当视频帧被译码为经帧间译码(即,B或P)切片 时,预测处理单元81的运动补偿单元82基于从熵解码单元80接收的运动矢量及其它 语法元素而产生用于当前视频切片的视频块的预测性块。可从参考图片列表中的一者 内的参考图片中的一者产生预测性块。视频解码器30可基于存储在DPB 92中的参考 图片而使用默认构造技术来构造参考帧列表:列表0及列表1。

运动补偿单元82通过分析运动矢量及其它语法元素而确定用于当前视频切片的视 频块的预测信息,且使用所述预测信息以产生用于正被解码的当前视频块的预测性 块。举例来说,运动补偿单元82使用经接收语法元素中的一些以确定用以译码视频切 片的视频块的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切 片或P切片)、用于切片的参考图片列表中的一或多者的构造信息、用于切片的每一经 帧间编码视频块的运动矢量、用于切片的每一经帧间译码视频块的帧间预测状态,及 用以解码当前视频切片中的视频块的其它信息。

运动补偿单元82也可基于内插滤波器而执行内插。运动补偿单元82可使用如由 视频编码器20在视频块的编码期间使用的内插滤波器,以计算用于参考块的次整数像 素的经内插值。在这种状况下,运动补偿单元82可从经接收语法元素确定由视频编码 器20使用的内插滤波器,且使用所述内插滤波器以产生预测性块。

反量化单元86反量化(即,解量化)位流中提供且由熵解码单元80解码的经量化变 换系数。反量化过程可包含使用由视频编码器20针对视频切片中的每一视频块而计算 的量化参数,以确定量化程度且同样地确定应被应用的反量化程度。反变换处理单元 88将反转换(例如,反DCT、反整数变换或概念上相似反变换过程)应用于变换系数, 以便在像素域中产生残差块。

在运动补偿单元82基于运动矢量及其它语法元素而产生用于当前视频块的预测性 块之后,视频解码器30通过对来自反变换处理单元88的残差块与由运动补偿单元82 产生的对应预测性块求和而形成经解码视频块。求和器90表示执行这种求和运算的组 件。视需要,也可应用去块滤波器以滤波经解码块,以便移除块效应假象。也可使用 其它环路滤波器(在译码环路中或在译码环路之后)以使像素转变平滑,或以其它方式改 进视频质量。接着将给定帧或图片中的经解码视频块存储在DPB 92中,DPB 92存储 用于后续运动补偿的参考图片。DPB 92也存储经解码视频以供稍后呈现在显示装置(诸 如,图1的显示装置32)上。类似于CPB 78,在一个实例中,DPB 92的操作可由HRD 指定,如由本发明的技术所定义。

视频解码器30可经配置以实施本发明的技术。在一个实例中,视频解码器30可 经配置以接收用于经解码图片的第一DPB输出延迟及第二DPB输出延迟、在用于视频 解码器的HRD设置指示在图片级别处的操作的状况下针对经解码图片而使用第一DPB 输出延迟来确定第一DPB输出时间,及在用于视频解码器的HRD设置指示在子图片 级别处的操作的状况下针对经解码图片而使用第二DPB输出延迟来确定第二DPB输出 时间。下文将参看图6来论述根据本发明的技术的视频解码器30的操作的另外实例。

图5为展示根据本发明的技术的实例编码方法的流程图。图5的技术可由视频编 码器20的一或多个结构实施。

在一个实例中,视频编码器20可经配置以在用于视频解码器的HRD设置指示在 图片级别处的操作的状况下使用第一DPB输出延迟来确定第一DPB输出时间(500), 及在用于视频解码器的HRD设置指示在子图片级别处的操作的状况下使用第二DPB 输出延迟来确定第二DPB输出时间(502)。视频编码器20可经进一步配置以在经编码 视频位流中发信第一DPB输出延迟及第二DPB输出延迟(504)。

视频编码器20可经进一步配置以发信指示用于视频解码器的HRD设置处于图片 级别还是处于子图片级别的子图片CPB旗标(506),及基于子图片CPB旗标而编码视 频图片(508)。

在本发明的一个实例中,确定第二DPB输出时间包括将第二DPB输出延迟乘以子 图片时钟计时周期且将所得值加到CPB移除时间。在本发明的另一实例中,确定第一 DPB输出时间包括将第一DPB输出延迟乘以时钟计时周期且将所得值加到CPB移除 时间。

图6为展示根据本发明的技术的实例解码方法的流程图。图6的技术可由视频解 码器30的一或多个结构实施。

在一个实例中,视频解码器30可经配置以接收指示用于视频解码器的HRD设置 处于图片级别还是处于子图片级别的子图片CPB旗标(600),及基于子图片CPB旗标 而解码视频图片(602)。

视频解码器30可经进一步配置以接收用于经解码图片的第一DPB输出延迟及第 二DPB输出延迟(604),及在用于视频解码器的HRD设置指示在图片级别处的操作的 状况下针对经解码图片而使用第一DPB输出延迟来确定第一DPB输出时间(606),且 在用于视频解码器的HRD设置指示在子图片级别处的操作的状况下针对经解码图片而 使用第二DPB输出延迟来确定第二DPB输出时间(608)。

视频解码器30可经进一步配置以基于HRD设置而基于第一DPB输出时间或第二 DPB输出时间从经解码图片缓冲器输出图片(610)。如果子图片CPB旗标指示用于视频 解码器的HRD设置指示在图片级别处的操作,那么使用第一DPB输出时间,且如果 子图片CPB旗标指示用于视频解码器的HRD设置指示在子图片级别处的操作,那么 使用第二DPB输出时间。

在本发明的另一实例中,视频解码器30经配置以通过将第二DPB输出延迟乘以 子图片时钟计时周期且将所得值加到CPB移除时间而确定第二DPB输出时间。在本发 明的另一实例中,视频解码器30经配置以通过将第一DPB输出延迟乘以时钟计时周 期且将所得值加到CPB移除时间而确定第一DPB输出时间。

在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合予以实施。 如果以软件予以实施,那么所述功能可作为一或多个指令或代码而存储在计算机可读 媒体上或经由计算机可读媒体进行发射,且由基于硬件的处理单元执行。计算机可读 媒体可包含计算机可读存储媒体(其对应于诸如数据存储媒体的有形媒体)或通信媒体, 通信媒体包含促进(例如)根据通信协议而将计算机程序从一处传送到另一处的任何媒 体。以此方式,计算机可读媒体通常可对应于(1)为非暂时性的有形计算机可读存储媒 体,或(2)诸如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或 多个处理器存取以检索指令、代码及/或数据结构以用于实施本发明所描述的技术的任 何可用媒体。计算机程序产品可包含计算机可读媒体。

作为实例而非限制,这些计算机可读存储媒体可包括RAM、ROM、EEPROM、 CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、闪速存储器,或 可用以存储呈指令或数据结构的形式的所需程序代码且可由计算机存取的任何其它媒 体。而且,任何连接被适当地称为计算机可读媒体。举例来说,如果使用同轴电缆、 光纤电缆、双绞线、数字用户线(DSL)或诸如红外线、无线电及微波的无线技术而从网 站、服务器或其它远程源发射指令,那么同轴电缆、光纤电缆、双绞线、DSL或诸如 红外线、无线电及微波的无线技术包含在媒体的定义中。然而,应理解,计算机可读 存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而是有关于非 暂时性有形存储媒体。如本文所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光 学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘,其中磁盘通常以磁性方式再现数 据,而光盘通过激光以光学方式再现数据。以上各者的组合也应包含在计算机可读媒 体的范围内。

可由诸如以下各者的一或多个处理器执行指令:一或多个数字信号处理器(DSP)、 通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA),或其它等效集成 或离散逻辑电路系统。因此,如本文所使用的术语“处理器”可指上述结构或适合于 实施本文所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文所描 述的功能性可提供在经配置用于编码及解码的专用硬件及/或软件模块内,或并入在组 合式编码解码器中。而且,所述技术可完全地实施在一或多个电路或逻辑元件中。

本发明的技术可实施在各种各样的装置或设备中,所述装置或设备包含无线手 机、集成电路(IC)或IC集合(例如,芯片集)。在本发明中描述各种组件、模块或单元以 强调经配置以执行所揭示技术的装置的功能方面,但其未必要求通过不同硬件单元进 行实现。更确切地,如上文所描述,各种单元可组合在编码解码器硬件单元中,或由 共同操作性硬件单元的集合(包含如上文所描述的一或多个处理器)结合合适软件及/或 固件而提供。

已描述各种实例。这些及其它实例是在所附权利要求书的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号