首页> 中国专利> 对视频译码中的视频时序的图片次序计数与时序信息关系的信令

对视频译码中的视频时序的图片次序计数与时序信息关系的信令

摘要

在一实例中,本发明提供接收包括视频序列的经编码图片的经译码视频序列,及接收所述经译码视频序列的时序参数,所述时序参数包含所述经译码视频序列所参考的视频参数集VPS语法结构中的以下指示:所述经译码视频序列中的不是所述经译码视频序列中根据解码次序的第一图片的每一图片的图片次序计数POC值是否相对于所述经译码视频序列中的所述第一图片的输出时间而与所述图片的输出时间成比例。另一实例提供编码视频序列的图片以产生包括所述经编码图片的所述经译码视频序列,及通过在所述经译码视频序列所参考的所述VPS语法结构中用信号发送所述指示而用信号发送用于所述经译码视频序列的时序参数。

著录项

  • 公开/公告号CN104904222A

    专利类型发明专利

  • 公开/公告日2015-09-09

    原文格式PDF

  • 申请/专利权人 高通股份有限公司;

    申请/专利号CN201380069313.6

  • 发明设计人 王益魁;

    申请日2013-12-20

  • 分类号

  • 代理机构北京律盟知识产权代理有限责任公司;

  • 代理人宋献涛

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-18 10:50:22

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-12-04

    授权

    授权

  • 2016-01-27

    实质审查的生效 IPC(主分类):H04N19/70 申请日:20131220

    实质审查的生效

  • 2015-09-09

    公开

    公开

说明书

本申请案主张2013年1月7日申请的第61/749,866号美国临时申请案的权利,所 述申请案的全部内容以引用的方式并入本文中。

技术领域

本发明涉及视频译码和视频处理,且更具体来说涉及用于用信号发送视频信息中的 时序信息的技术。

背景技术

数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播系统、无线广 播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子图书阅读器、 数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式 或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输装置及其 类似者。数字视频装置实施视频压缩技术,例如由MPEG-2、MPEG-4、ITU-T H.263或 ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)所界定的标准、高效率视频译码 (HEVC)标准及这些标准的扩展中所描述的视频译码技术。视频装置可通过实施此类视频 压缩技术而更有效率地传输、接收、编码、解码及/或存储数字视频信息。

视频压缩技术执行空间(图片内)预测及/或时间(图片间)预测以减少或移除视频序列 中固有的冗余。对于基于块的视频译码来说,视频切片(例如,视频帧或视频帧的一部分) 可以分割成视频块,视频块还可被称作树块、译码单元(CU)及/或译码节点。使用相对于 同一图片中的相邻块中的参考样本的空间预测对图片的经帧内译码(I)切片中的视频块 进行编码。图片的经帧间编码(P或B)切片中的视频块可使用相对于同一图片中的相邻 块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可被 称为帧,且参考图片可涉及参考帧。

空间或时间预测利用预测块。残差数据表示待译码的原始块与预测块之间的像素 差。经帧间译码块是根据指向形成预测块的参考样本块的运动向量及指示经译码块与预 测块之间的差的残差数据编码的。经帧内译码块是根据帧内译码模式及残差数据来编 码。为了实现进一步压缩,可以将残差数据从像素域变换到变换域,从而产生残差变换 系数,接着可以对残差变换系数进行量化。可扫描最初布置为二维阵列的经量化变换系 数,以便产生变换系数的一维向量,且可应用熵译码以实现更多压缩。

经编码到位流的给定经译码视频序列包含经译码图片的有序序列。在H.264/AVC和 HEVC标准中,用于位流的经译码图片的解码次序与所述有序序列等效。然而,所述标 准还支持不同于所述解码次序的经解码图片的输出次序,且在此类情况下,经译码图片 与指定视频序列中的图片的输出次序的图片次序计数(POC)值相关联。

可在一或多个语法结构(或者称作为“参数集结构”或仅为“参数集”)的语法元素 中用信号发送用于视频序列的视频时序信息。语法结构可包含序列参数集(SPS),所述序 列参数集(SPS)包含应用到经译码视频序列的所有切片的译码信息。SPS自身可包含称作 为视频可用性信息(VUI)的参数,视频可用性信息(VUI)包含假想参考解码器(HRD)信息 以及用于增强针对各种目的的对应视频序列的使用的信息。HRD信息自身可使用可包含 在例如VUI语法结构的其它语法结构内的HRD语法结构来用信号发送。语法结构还可 包含描述对应视频序列的特性的视频参数集(VPS),视频参数集(VPS)例如为由多个层或 操作点共享的共同语法元素以及可为多个序列参数集共同的其它操作点信息,例如用于 各种层或子层的HRD信息。

发明内容

一般来说,本发明描述用于视频译码的技术,且更具体来说用于用信号发送视频信 息(例如)以指定图片输出时序和/或以界定缓冲模型(例如假想参考解码器(HRD))的技 术。在一些实例中,所述技术可包含针对经译码视频序列产生经编码位流以在视频参数 集(VPS)语法结构中用信号发送旗标,所述旗标指示经译码视频序列中的每一图片(除经 译码视频序列中按解码次序的第一图片外)的图片次序计数(POC)值是否相对于经译码 视频序列中的第一图片的输出时间而与所述图片的输出时间成比例。在一些情况下,所 述技术可包含产生经编码位流以仅在呈时间尺度和时钟节拍语法元素中的单位数目的 形式的时序信息也包含于VPS语法结构中时在VPS语法结构中用信号发送所述旗标。

在本发明的一个实例中,一种处理视频数据的方法包含:接收包括视频序列的经编 码图片的经译码视频序列;及接收用于所述经译码视频序列的时序参数,所述时序参数 包含所述经译码视频序列所参考的视频参数集(VPS)语法结构中的以下指示:所述经译 码视频序列中的不是所述经译码视频序列中根据解码次序的第一图片的每一图片的图 片次序计数(POC)值是否相对于所述经译码视频序列中的所述第一图片的输出时间而与 所述图片的输出时间成比例。

在本发明的另一实例中,一种编码视频数据的方法包含:编码视频序列的图片以产 生包括所述经编码图片的经译码视频序列;及通过在所述经译码视频序列所参考的视频 参数集(VPS)语法结构中用信号发送以下指示而用信号发送用于所述经译码视频序列的 时序参数:所述经译码视频序列中的不是所述经译码视频序列中根据解码次序的第一图 片的每一图片的图片次序计数(POC)值是否相对于所述经译码视频序列中的所述第一图 片的输出时间而与所述图片的输出时间成比例。

在本发明的另一实例中,一种用于处理视频数据的装置包含处理器,其经配置以: 接收包括视频序列的经编码图片的经译码视频序列;及接收用于所述经译码视频序列的 时序参数,所述时序参数包含所述经译码视频序列所参考的视频参数集(VPS)语法结构 中的以下指示:所述经译码视频序列中的不是所述经译码视频序列中根据解码次序的第 一图片的每一图片的图片次序计数(POC)值是否相对于所述经译码视频序列中的所述第 一图片的输出时间而与所述图片的输出时间成比例。

在本发明的另一实例中,一种用于编码视频数据的装置包含处理器,其经配置以: 编码视频序列的图片以产生包括所述经编码图片的经译码视频序列;及通过在所述经译 码视频序列所参考的视频参数集(VPS)语法结构中用信号发送以下指示而用信号发送用 于所述经译码视频序列的时序参数:所述经译码视频序列中的不是所述经译码视频序列 中根据解码次序的第一图片的每一图片的图片次序计数(POC)值是否相对于所述经译码 视频序列中的所述第一图片的输出时间而与所述图片的输出时间成比例。

在本发明的另一实例中,一种用于处理视频数据的装置包含:用于接收包括视频序 列的经编码图片的经译码视频序列的装置;及用于接收用于所述经译码视频序列的时序 参数的装置,所述时序参数包含所述经译码视频序列所参考的视频参数集(VPS)语法结 构中的以下指示:所述经译码视频序列中的不是所述经译码视频序列中根据解码次序的 第一图片的每一图片的图片次序计数(POC)值是否相对于所述经译码视频序列中的所述 第一图片的输出时间而与所述图片的输出时间成比例。

在另一实例中,本发明描述一种计算机可读存储媒体。所述计算机可读存储媒体具 有存储于其上的指令,所述指令在执行时致使一或多个处理器进行以下操作:接收包括 视频序列的经编码图片的经译码视频序列;及接收用于所述经译码视频序列的时序参 数,所述时序参数包含所述经译码视频序列所参考的视频参数集(VPS)语法结构中的以 下指示:所述经译码视频序列中的不是所述经译码视频序列中根据解码次序的第一图片 的每一图片的图片次序计数(POC)值是否相对于所述经译码视频序列中的所述第一图片 的输出时间而与所述图片的输出时间成比例。

一或多个实例的细节陈述于附图和以下描述中。其它特征、目标和优势将从所述描 述和所述图式以及从权利要求书显而易见。

附图说明

图1为说明可利用本发明中描述的技术的实例视频编码和解码系统的框图。

图2为说明可实施本发明中描述的技术的实例视频编码器的框图。

图3为说明可实施本发明中描述的技术的实例视频解码器的框图。

图4为说明根据本文描述的技术的用于参考图片集的实例译码结构的时序信息的框 图。

图5为说明根据本发明中描述的技术的操作的实例方法的流程图。

图6A到6B为说明根据本发明中描述的技术的操作的实例方法的流程图。

图7为说明根据本发明中描述的技术的操作的实例方法的流程图。

图8为说明根据本发明中描述的技术的操作的实例方法的流程图。

图9A到9B为说明根据本发明中描述的技术的操作的实例方法的流程图。

图10为说明根据本发明中描述的技术的操作的实例方法的流程图。

具体实施方式

本发明描述用于视频译码的各种技术,且更具体来说涉及用于用信号发送视频信息 (例如)以指定图片输出时序和/或界定缓冲或解码模型(例如假想参考解码器(HRD))的技 术。一般来说,在本发明中使用“用信号发送”以指在经译码位流内发生的信令。编码 器可产生语法元素以在位流中用信号发送信息作为视频编码过程的部分。解码装置或其 它视频处理装置可接收经译码位流,且解译所述经译码位流中的语法元素以作为视频解 码过程或其它视频处理的部分。

举例来说,为指示用于从经译码视频序列中的某一给定图片切换到根据输出排序的 下一图片的输出时序,在一些情况下,用于经译码视频序列的时序信息可用信号发送对 应于图片次序计数(POC)值的差等于一的时钟节拍的数目。POC值的差等于一可代表根 据输出排序的某一给定图片的POC值与下一图片的POC值(例如,根据输出排序的第2 图片的POC值与第3图片的POC值)之间的差。视频时序信息还可包含条件,所述条件 指明视频时序信息是否用信号发送对应于图片次序计数值的差等于一的所述时钟节拍 的数目。换句话说,仅在所述条件成立时,视频时序信息才用信号发送对应于图片次序 计数值的差等于一的所述时钟节拍的数目。在一些情况下,所述条件不成立,因此视频 时序信息不用信号发送对应于图片次序计数值的差等于一的所述时钟节拍的数目。所述 时钟节拍的数目可取决于时间尺度(对应于(例如)界定经用信号发送信息的时间坐标系 的振荡器频率,例如27MHz)以及在对应于时钟节拍计数器的一个增量(其称作为“时钟 节拍”)的时间尺度下操作的时钟的时间单位的数目。

在一些实例中,所述技术可包含针对经译码视频序列产生经编码位流以在视频参数 集(VPS)语法结构中用信号发送旗标,所述旗标指示经译码视频序列中的每一图片(除经 译码视频序列中按解码次序的第一图片外)的图片次序计数(POC)值是否相对于经译码 视频序列中的第一图片的输出时间而与所述图片的输出时间成比例。在一些情况下,所 述技术可包含以仅在呈时间尺度和时钟节拍语法元素中的单位数目的形式的时序信息 也包含于VPS语法结构中时才产生经编码位流以在VPS语法结构中用信号发送所述旗 标。

视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1视频、ITU-T H.262或ISO/IEC  MPEG-2视频、ITU-T H.263、ISO/IEC MPEG-4视频和ITU-T H.264(还称作ISO/IEC  MPEG-4 AVC),包含其可缩放视频译码(SVC)扩展和多视图视频译码(MVC)扩展。

另外,存在新的视频译码标准,即高效率视频译码(HEVC),其由ITU-T视频译码 专家组(VCEG)和ISO/IEC运动图片专家组(MPEG)的视频译码联合协作小组(JCT-VC)开 发。HEVC的最新工作草案(且在下文称作HEVC WD9或仅WD9)是布洛斯(Bross)等人 的“高效率视频译码(HEVC)文本规范草案9(SoDIS)的建议编辑改进(Proposed editorial  improvements for High Efficiency Video Coding(HEVC)text specification draft 9 (SoDIS))”,ITU-T SG 16 WP 3和ISO/IEC JTC 1/SC 29/WG 11的视频译码联合协作小组 (JCT-VC),第12次会议:瑞士日内瓦,2013年1月14日到23日,截至2013年1月7日可 从http://phenix.int-evry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L0030-v1.zip获 得。

HEVC标准的最近草案(称作“HEVC工作草案10”或“WD10”)描述于布洛斯等 人的文献JCTVC-L1003v34中,题为“高效率视频译码(HEVC)文本规范草案10(针对FDIS &Last Call)(High efficiency video coding(HEVC)text specification draft 10(for FDIS& Last Call))”,ITU-T SG16 WP3和ISO/IEC JTC1/SC29/WG11的视频译码联合小组 (JCT-VC),第12次会议:瑞士日内瓦,2013年1月14日到23日,所述草案可从 http://phenix.int-evry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1003-v34.zip 下载。

HEVC标准的另一草案(本文中称作“WD10版本”)描述于布洛斯等人的“编辑者 对HEVC版本1的建议校正(Editors'proposed corrections to HEVC version 1)”中,ITU-T  SG16 WP3和ISO/IEC JTC1/SC29/WG11的视频译码联合小组(JCT-VC),第13次会议(韩 国仁川,2013年4月),所述草案截至2013年6月7日可从 http://phenix.int-evry.fr/jct/doc_end_user/documents/13_Incheon/wg11/JCTVC-M0432-v3.zip 下载

HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的模型。HM 假定当前视频解码装置相对于在其它先前视频解码标准(例如,ITU-T H.264/AVC)的开发 期间可用的视频解码装置的能力的改进。举例来说,尽管H.264提供九个帧内预测编码 模式,但HEVC提供多达三十五个帧内预测编码模式。HEVC WD9和HEVC WD10的 全部内容以引用的方式并入本文中。

视频译码标准通常包含视频缓冲模型的规范。在AVC和HEVC中,缓冲模型被称 作假想参考解码器(HRD),其包含经译码图片缓冲器(CPB)和经解码图片缓冲器(DPB)两 者的缓冲模型。如HEVC WD9中所定义,HRD为指定对网络抽象层(NAL)单元流的可 变性的约束或符合编码过程可产生的字节流的假想解码器模型。在数学上指定CPB和 DPB行为。HRD对不同时序、缓冲器大小和位速率直接强加约束,且对位流特性和统 计间接强加约束。完整的HRD参数集包含五个基本参数:初始CPB移除延迟、CPB大 小、位速率、初始DPB输出延迟和DPB大小。

在AVC和HEVC中,将位流符合性和解码器符合性指定为HRD规范的部分。尽管 “假想参考解码器”包含术语“解码器”,但通常在编码器侧需要HRD来保证位流符合 性,且解码器侧通常不需要HRD。指定两类型的位流或HRD符合性,即类型I和类型 II。而且,指定两种类型的解码器符合性,即输出时序解码器符合性和输出次序解码器 符合性。

在HEVC WD9中,HRD操作需要在hrd_parameters()语法结构、缓冲周期补充增强 信息(SEI)消息、图片时序SEI消息中且有时还在解码单元信息SEI消息中用信号发送的 参数。hrd_parameters()语法结构可在视频参数集(VPS)、序列参数集(SPS)或其任何组合 中用信号发送。

在HEVC WD9中,hrd_parameters()语法结构包含用于视频时序信息的信令的语法 元素,包含时间尺度和时钟节拍中的单位数目。SPS的视频可用性信息(VUI)部分包含旗 标,所述旗标指示经译码视频序列中的每一图片(除经译码视频序列中按解码次序的第一 图片外)的图片次序计数(POC)值是否相对于经译码视频序列中的第一图片的输出时间 而与所述图片的输出时间成比例;如果是,则所述时钟节拍的数目对应于图片次序计数 值的差等于1。

HEVC WD9中的相关语法和语义如下。表1展示根据WD9的实例视频参数集原始 字节序列有效负载(RBSP)语法结构。

表1:实例视频参数集RBSP语法结构

在上表1中,语法元素vps_num_hrd_parameters指定存在于视频参数集原始字节序 列有效负载(RBSP)中的hrd_parameters()语法结构的数目。在符合此规范的此版本的位流 中,vps_num_hrd_parameters的值应小于或等于1。尽管在HEVC WD9中要求 vps_num_hrd_parameters的值小于或等于1,但解码器应允许在范围0到1024(包括0和 1024)中的vps_num_hrd_parameters的其它值出现于语法中。

语法元素hrd_op_set_idx[i]指定视频参数集(VPS)中的第i hrd_parameters()语法结构 所应用到的操作点集合在视频参数集所指定的操作点集合的列表中的索引。在符合此规 范的此版本的位流中,hrd_op_set_idx[i]的值应等于0。尽管在HEVC WD9中要求 hrd_op_set_idx[i]的值小于或等于1,但解码器应允许在范围0到1023中的 hrd_op_set_idx[i]的其它值出现于语法中。

语法元素cprms_present_flag[i]等于1指定所有子层共同的HRD参数存在于视频参 数集中的第i hrd_parameters()语法结构中。cprms_present_flag[i]等于0指定所有子层共 同的HRD参数不存在于视频参数集中的第i hrd_parameters()语法结构中,且经导出视频 参数集中的第(i-1)hrd_parameters()语法结构也是相同的。推断cprms_present_flag[0]等于 1。

下表2展示根据WD9的VUI参数语法结构。

表2:VUI参数语法结构

在上表2中,语法元素hrd_parameters_present_flag等于1指定语法结构 hrd_parameters()存在于vui_parameters()语法结构中。hrd_parameters_present_flag等于0 指定语法结构hrd_parameters()不存在于vui_parameters()语法结构中。

语法元素poc_proportional_to_timing_flag等于1指示经译码视频序列中的每一图片 (除经译码视频序列中按解码次序的第一图片外)的图片次序计数值相对于经译码视频序 列中的第一图片的输出时间而与所述图片的输出时间成比例。 poc_proportional_to_timing_flag等于0指示经译码视频序列中的每一图片(除经译码视频 序列中按解码次序的第一图片外)的图片次序计数值可能或可能并非相对于经译码视频 序列中的第一图片的输出时间而与所述图片的输出时间成比例。

语法元素num_ticks_poc_diff_one_minus1加1指定对应于图片次序计数值的差等于 1的时钟节拍的数目。

下表3展示根据WD9的实例HRD参数语法结构。

表3:实例HRD参数语法结构

在上表3中,语法元素timing_info_present_flag等于1指定num_units_in_tick和 time_scale存在于hrd_parameters()语法结构中。如果timing_info_present_flag等于0,则 num_units_in_tick和time_scale不存在于hrd_parameters()语法结构中。如果不存在,则 推断timing_info_present_flag的值为0。

语法元素num_units_in_tick为在对应于时钟节拍计数器的一个增量(称作时钟节拍) 的频率time_scale Hz下操作的时钟的时间单位的数目。语法元素num_units_in_tick的值 应大于0。时钟节拍为当sub_pic_cpb_params_present_flag等于0时可用经译码数据表示 的时间的最小间隔。举例来说,当视频信号的图片速率为25Hz时,time_scale可等于 27,000,000,且num_units_in_tick可等于1,080,000。

语法元素time_scale为在一秒中经过的时间单位的数目。举例来说,使用27MHz 频率来测量时间的时间坐标系具有为27,000,000的time_scale。语法元素time_scale的 值应大于0。

如在HEVC WD9指定且如上文描述的时序信令可展现许多问题。第一,用于用信 号发送语法元素num_ticks_poc_diff_one_minus1的条件为 “if(poc_proportional_to_timing_flag&&timing_info_present_flag)”。此条件包含对两个 用信号发送的语法元素的相依性:poc_proportional_to_timing_flag和 timing_info_present_flag。然而,从HEVC WD9规范并不清楚:用于条件的 timing_info_present_flag是参考SPS的VUI部分中的hrd_parameters()语法结构(如果存 在)的语法元素timing_info_present_flag还是参考参考VPS中的hrd_parameters()语法结 构的语法元素timing_info_present_flag。

另外,多个层或可缩放视频位流的多个可能位流子集可共享时间尺度和时钟节拍中 的单位数目的共同值,所述共同值在hrd_parameters()语法结构的语法元素time_scale和 num_units_in_tick中的HEVC WD9中指定,例如,所述共同值可在SPS的VUI部分中 且在VPS中重复用信号发送。此类重复如果存在于位流中则可导致位浪费。

此外,如果图片次序计数(POC)值与可缩放视频位流的若干层中的任一者的输出时 间成比例,则POC值通常与可缩放视频位流的所有层的输出时间成比例。然而,HEVC  WD9规范并未提供在可缩放视频位流中用信号发送POC值与可缩放视频位流的所有层 或所有可能位流子集的输出时间成比例的指示。举例来说,参考可缩放视频位流的“层” 可指可缩放层、纹理视图和/或深度视图。另外,尽管HEVC WD9指定旗标 poc_proportional_to_timing_flag总是在SPS的VUI语法结构中用信号发送,但如果语法 元素time_scale和num_units_in_tick也未在位流中用信号发送,则旗标 poc_proportional_to_timing_flag不具有效用。

本发明的技术可解决上述问题中的一或多者以及提供其它改进,从而实现用于HRD 操作的参数的有效信令。本文参考HEVC WD9和其潜在改进来描述所述技术的各种实 例。解决方案适用于包含视频缓冲模型的规范的任何视频译码标准(例如包含AVC和 HEVC),但为了说明的目的,描述特定针对在HEVC WD9中定义且根据本发明的技术 而修改的HRD参数信令。

图1是说明可利用本发明中描述的技术的实例视频编码和解码系统10的框图。如 图1中所示,系统10包含源装置12,所述源装置产生经编码视频数据以在稍后时间由 目的地装置14解码。源装置12及目的地装置14可包括广泛范围的装置中的任一者, 包含桌上型计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、电话手持机(例 如,所谓的“智能”电话)、所谓的“智能”平板计算机、电视机、摄像机、显示装置、 数字媒体播放器、视频游戏控制台、视频流式传输装置或其类似者。在一些情况下,源 装置12和目的地装置14可能经装备以用于无线通信。

目的地装置14可经由链路16接收待解码的经编码视频数据。链路16可包括能够 将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个 实例中,链路16可包括使得源装置12能够实时将经编码视频数据直接传输到目的地装 置14的通信媒体。经编码视频数据可根据通信标准(例如,无线通信协议)来调制,且被 传输到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或 一或多个物理传输线路。通信媒体可形成基于包的网络(例如,局域网、广域网或全球网 络,例如因特网)的部分。通信媒体可包含路由器、交换器、基站或可用于促进从源装置 12到目的地装置14的通信的任何其它装备。

或者,经编码数据可以从输出接口22输出到存储装置34。类似地,可以通过输入 接口从存储装置34存取经编码数据。存储装置34可包含多种分布式或本地存取的数据 存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易 失性或非易失性存储器或任何其它用于存储经编码视频数据的合适的数字存储媒体。在 另一实例中,存储装置34可以对应于文件服务器或可保持由源装置12产生的经编码视 频的另一中间存储装置。目的地装置14可经由流式传输或下载从存储装置34存取经存 储的视频数据。文件服务器可以是能够存储经编码视频数据并且将所述经编码视频数据 传输到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如,用 于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可 以通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含无线通道 (例如,Wi-Fi连接)、有线连接(例如,DSL、缆线调制解调器,等等),或适合于存取存 储于文件服务器上的经编码视频数据的以上两者的组合。经编码视频数据从存储装置34 的传输可能是流式传输、下载传输或两者的组合。

本发明的技术不必限于无线应用或环境。所述技术可以应用于支持多种多媒体应用 中的任一者的视频译码,例如空中协议电视广播、有线电视传输、卫星电视传输、流式 视频传输(例如,经由因特网)、编码数字视频以供存储在数据存储媒体上,解码存储在 数据存储媒体上的数字视频,或其它应用。在一些实例中,系统10可经配置以支持单 向或双向视频传输,以支持例如视频流式传输、视频回放、视频广播和/或视频电话等应 用。

在图1的实例中,源装置12包含视频源18、视频编码器20和输出接口22。在一 些情况下,输出接口22可包含调制器/解调器(调制解调器)及/或发射器。在源装置12中, 视频源18可包含例如视频俘获装置(例如,摄像机)、含有先前俘获的视频的视频存档、 用于从视频内容提供者接收视频的视频馈入接口及/或用于产生计算机图形数据作为源 视频的计算机图形系统,或此类源的组合等源。作为一个实例,如果视频源18是摄像 机,那么源装置12和目的地装置14可以形成所谓的摄像机电话或视频电话。然而,本 发明中描述的技术一般可适用于视频译码,且可应用于无线及/或有线应用。

可由视频编码器20来编码所俘获视频、经预先俘获的视频或计算机产生的视频。 经编码视频数据可经由源装置12的输出接口22直接传输到目的地装置14。经编码视频 数据还可(或替代地)存储到存储装置34上以供稍后由目的地装置14或其它装置存取以 用于解码及/或回放。

目的地装置14包含输入接口28、视频解码器30及显示装置32。在一些情况下, 输入接口28可包含接收器及/或调制解调器。目的地装置14的输入接口28经由链路16 接收经编码视频数据。经由链路16传达或在存储装置34上提供的经编码视频数据可包 含由视频编码器20产生的多种语法元素以供由例如视频解码器30等视频解码器用于解 码视频数据。这些语法元素可与在通信媒体上传输、存储在存储媒体上或存储在文件服 务器上的经编码视频数据包含在一起。

显示装置32可与目的地装置14集成或在目的地装置14外部。在一些实例中,目 的地装置14可包含集成显示装置,且还经配置以与外部显示装置介接。在其它实例中, 目的地装置14可为显示装置。一般来说,显示装置32将经解码视频数据显示给用户, 且可包括多种显示装置中的任一者,例如液晶显示器(LCD)、等离子显示器、有机发光 二极管(OLED)显示器或另一类型的显示装置。

视频编码器20及视频解码器30可根据视频压缩标准(例如,目前正在开发的高效率 视频译码(HEVC)标准)来操作,且可符合HEVC测试模型(HM)。或者,视频编码器20 和视频解码器30可根据其它专有或业界标准来操作,所述标准例如是ITU-T H.264标准 (或者被称作MPEG-4第10部分,高级视频译码(AVC)),或此类标准的扩展。然而,本 发明的技术不限于任何特定译码标准。视频压缩标准的其它实例包含MPEG-2及ITU-T  H.263。

尽管图1中未展示,但在一些方面中,视频编码器20及视频解码器30可各自与音 频编码器及解码器集成,且可包含适当MUX-DEMUX单元或其它硬件及软件以处置对 共同数据流或单独数据流中的音频及视频两者的编码。在一些实例中,如果适用, MUX-DEMUX单元可符合ITU H.223多路复用器协议,或例如用户数据报协议(UDP)等 其它协议。

视频编码器20及视频解码器30各自可实施为多种合适的编码器电路中的任一者, 例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门 阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地用软件实施所述技 术时,装置可将用于软件的指令存储在合适的非暂时性计算机可读媒体中且使用一或多 个处理器用硬件执行所述指令以执行本发明的技术。视频编码器20及视频解码器30中 的每一者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成 为相应装置中的组合编码器/解码器(CODEC)的部分。

JCT-VC正致力于HEVC标准的开发。HEVC标准化努力是基于视频译码装置的演 进模型,其被称作HEVC测试模型(HM)。HM假设视频译码装置相对于根据(例如)ITU-T  H.264/AVC的现有装置的若干额外能力。举例来说,H.264提供九个帧内预测编码模式, 而HM可提供多达三十三个帧内预测编码模式。

一般来说,HM的工作模型描述视频帧或图片可以被划分为包含亮度和色度样本两 者的一序列的树块或最大译码单元(LCU)。树块具有与H.264标准的宏块类似的目的。 切片包含呈译码次序的多个连续树块。视频帧或图片可被分割成一或多个切片。每一树 块可以根据四叉树而分裂成译码单元(CU)。举例来说,作为四叉树的根节点的树块可分 裂成四个子节点,且每一子节点又可为父节点且分裂成另外四个子节点。最后的未经分 裂的子节点(作为四叉树的叶节点)包括译码节点,即,经译码视频块。与经译码位流相 关联的语法数据可界定树块可分裂的最大次数,且还可界定译码节点的最小大小。

CU包含译码节点以及与所述译码节点相关联的预测单元(PU)及变换单元(TU)。CU 的大小一般对应于译码节点的大小并且形状通常必定是正方形。CU的大小可以在从8×8 像素直到具有最大64×64像素或更大的树块的大小的范围内。每一CU可含有一或多个 PU及一或多个TU。举例来说,与CU相关联的语法数据可描述将CU分割成一或多个 PU。分割模式可以在CU被跳过或经直接模式编码、帧内预测模式编码或帧间预测模式 编码之间有区别。PU可分割成非正方形形状。举例来说,与CU相关联的语法数据还可 描述CU根据四叉树被分割为一或多个TU。TU可以是正方形或非正方形形状。

HEVC标准允许根据TU的变换,TU可针对不同CU而有所不同。TU的大小通常 是基于针对经分割LCU界定的给定CU内的PU的大小而设置,但是情况可能并不总是 如此。TU通常与PU大小相同或小于PU。在一些实例中,对应于CU的残差样本可以 使用被称为“残差四叉树”(RQT)的四叉树结构而细分成较小单元。RQT的叶节点可被 称为变换单元(TU)。可以变换与TU相关联的像素差值以产生变换系数,可以将所述变 换系数量化。

一般来说,PU包含与预测过程有关的数据。举例来说,当PU经帧内模式编码时, PU可包含描述PU的帧内预测模式的数据。作为另一实例,当PU经帧间模式编码时, PU可包含界定PU的运动向量的数据。界定PU的运动向量的数据可描述(例如)运动向 量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八 分之一像素精度)、运动向量指向的参考帧,和/或运动向量的参考图片列表(例如,列表 0、列表1或列表C)。

一般来说,TU用于变换过程和量化过程。具有一或多个PU的给定CU还可包含一 或多个变换单元(TU)。在预测之后,视频编码器20可根据PU而从译码节点所识别的视 频块计算残差值。接着更新译码节点以参考残差值而非原始视频块。残差值包括像素差 值,可使用TU中所规定的变换和其它变换信息来将所述像素差值变换为变换系数、量 化和扫描以产生串行化变换系数用于熵译码。可再次更新译码节点以参考这些串行化变 换系数。本发明通常使用术语“视频块”来指CU的译码节点。在一些特定情况下,本 发明还可使用术语“视频块”来指包含译码节点和若干PU和TU的树块(即,LCU或 CU)。

视频序列通常包含一系列视频帧或图片。图片群组(GOP)一般包括一系列一或多个 视频图片。GOP可包含GOP的标头、图片中的一或多者的标头或其它处的语法数据, 其描述GOP中所包含的图片的数目。图片的每一切片可包含描述用于相应切片的编码 模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块操作以便编码视 频数据。视频块可以对应于CU内的译码节点。视频块可以具有固定或变化的大小,并 且根据指定译码标准可以有不同大小。

作为实例,HM支持各种PU大小的预测。假设特定CU的大小是2N×2N,那么HM 支持2N×2N或N×N的PU大小的帧内预测,及2N×2N、2N×N、N×2N或N×N的对称 PU大小的帧间预测。HM还支持用于2N×nU、2N×nD、nL×2N及nR×2N的PU大小的 帧间预测的不对称分割。在不对称分割中,不分割CU的一个方向,而将另一方向分割 成25%及75%。CU的对应于25%分区的部分由“n”继之以“上”、“下”、“左”或 “右”的指示来指示。因此,例如,“2N×nU”是指经水平分割的2N×2N CU,其中顶 部为2N×0.5N PU,而底部为2N×1.5N PU。

在本发明中,“N×N”与“N乘N”可以可互换地使用,以在垂直和水平尺寸方面 指代视频块的像素尺寸,例如16×16像素或16乘16像素。一般来说,16×16块将在垂 直方向上具有16个像素(y=16),并且在水平方向上具有16个像素(x=16)。同样地,N×N 块一般在垂直方向上具有N个像素,且在水平方向上具有N个像素,其中N表示非负 整数值。块中的像素可按行及列布置。此外,块不一定需要在水平方向与垂直方向上具 有相同数目的像素。举例来说,块可包括N×M像素,其中M未必等于N。

在使用CU的PU进行帧内预测性或帧间预测性译码后,视频编码器20可计算残差 数据,对所述残差数据应用CU的TU所指定的变换。残差数据可对应于未经编码图片 的像素与对应于CU的预测值之间的像素差。视频编码器20可形成用于CU的残差数据, 且接着变换所述残差数据以产生变换系数。

在应用任何变换以产生变换系数之后,视频编码器20可执行变换系数的量化。量 化一般指如下过程:将变换系数量化以可能地减少用以表示所述系数的数据的量,从而 提供进一步压缩。所述量化过程可减少与所述系数中的一些或所有相关联的位深度。举 例来说,可在量化期间将n位值下舍入到m位值,其中n大于m。

在一些实例中,视频编码器20可利用预定义扫描次序来扫描经量化的变换系数, 以产生可经熵编码的串行化向量。在其它实例中,视频编码器20可执行自适应扫描。 在扫描经量化的变换系数以形成一维向量之后,视频编码器20可(例如)根据上下文自适 应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文 自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法而熵编码 所述一维向量。视频编码器20还可熵编码与经编码视频数据相关联的语法元素以供视 频解码器30解码视频数据。

为了执行CABAC,视频编码器20可将上下文模型内的上下文指派给待发射的符号。 所述上下文可能涉及(例如)符号的相邻值是否为非零。为了执行CAVLC,视频编码器 20可针对待发射的符号而选择可变长度码。可建构VLC中的码字,使得相对较短的码 对应于更有可能的符号,而较长码对应于较不可能的符号。以此方式,使用VLC可实 现位节省(与(例如)针对待发射的每一符号使用等长度码字相比较)。概率确定可基于指派 给符号的上下文。

源装置12可产生经编码位流以包含符合根据本发明中描述的技术的语法结构的语 法元素。在一些实例中,视频编码器20可产生经编码位流以在用于经译码视频序列的 视频参数集(VPS)语法结构中或在序列参数集(SPS)语法结构的视频可用性信息(VUI)部 分中直接用信号发送界定针对以下情况的条件的所有变量:用信号发送对应于图片次序 计数(POC)值的差等于1的时钟节拍的数目。换句话说,不在并入于VPS语法结构或SPS 语法结构的VUI部分中的另一语法结构(例如HRD参数语法结构)中用信号发送针对用 于用信号发送对应于图片次序计数(POC)值的差等于1的时钟节拍的数目的条件的语法 元素,视频编码器20产生经编码位流以在VPS和/或VUI语法结构中用信号发送界定所 述条件的语法元素,且无需参考潜在并入于VPS和VUI语法结构中的任一者或两者中 的另一语法结构。语法元素可包含timing_info_present_flag语法元素,其在HEVC WD9 中经指定为HRD参数语法结构的语法元素。结果,所述技术可通过在语法中清晰指定 界定所述条件的语法元素的源而减少且潜在地消除HEVC WD9内的模糊性。

视频编码器20可测试经编码位流对于要求的符合性,所述要求经指定为在视频译 码规范(例如HEVC WD9)或后续规范(例如HEVC WD10)中定义的一或多个位流符合性 测试。视频编码器20可包含或以其它方式使用假想参考解码器以测试经编码位流的符 合性。根据本文描述的技术,视频编码器20可通过以下操作来测试经编码位流的符合 性:解码经编码位流以从经译码视频序列的VPS语法结构或在SPS语法结构的VUI部 分中确定界定针对以下情况的条件的语法元素:用信号发送对应于POC值的差等于1 的时钟节拍的数目。如果所述条件根据语法元素值而成立,则视频编码器20可确定对 应于POC值的差等于1的时钟节拍的数目,且使用所确定数目个时钟节拍作为输入用 于(例如)在包含于经编码位流中的经编码图片的解码期间确定CPB下溢或上溢。

在一些情况下,在目的地装置14处,处于测试中的视频解码器30(或VUT)在一些 情况下可接收视频编码器20所产生的经编码位流的表示,以在经译码视频序列的VPS 语法结构中或在SPS语法结构的VUI部分中直接用信号发送界定针对以下情况的条件 的所有语法元素:用信号发送对应于图片次序计数(POC)值的差等于1的时钟节拍的数 目。视频解码器30可解码经编码位流以从经译码视频序列的VPS语法结构或在SPS语 法结构的VUI部分中确定界定针对以下情况的条件的语法元素:用信号发送对应于POC 值的差等于1的时钟节拍的数目。如果所述条件根据语法元素值而成立,则视频解码器 30可确定对应于POC值的差等于1的时钟节拍的数目,且使用所确定数目个时钟节拍 作为输入以用于(例如)在包含于经编码位流中的经编码图片的解码期间确定CPB下溢或 上溢。

在一些实例中,视频编码器20可产生经编码位流以在给定经译码视频序列的VPS 语法结构和VUI语法结构中的每一者中用信号发送时间尺度和时钟节拍中的单位数目 至多一次。即,在用于经编码位流的给定VPS语法结构中,视频编码器20可用信号发 送时间尺度和时钟节拍语法元素中的单位数目至多一次。类似地,在用于经编码位流的 给定VUI语法结构(例如,SPS语法结构的VUI部分)中,视频编码器20可用信号发送 时间尺度和时钟节拍语法元素中的单位数目至多一次。结果,根据本文描述的技术而操 作的视频编码器20可减少在经编码位流中的时间尺度语法元素(按照WD9的time_scale) 的实例数目和时钟节拍(按照WD9的num_units_in_tick)语法元素中的单位数目。另外, 在一些情况下,视频编码器20可产生经编码位流以在给定经译码视频序列的VPS和VUI 语法结构中的每一者中直接用信号发送时间尺度和时钟节拍中的单位数目,而非在并入 于VPS和/或VUI语法结构内的HRD参数语法结构中。

根据本文描述的技术,视频编码器20可通过以下操作来测试经编码位流(其由视频 编码器20产生以在用于给定经译码时序的VPS和VUI语法结构中的每一者中用信号发 送时间尺度和时钟节拍中的单位数目至多一次)的符合性:解码经编码位流以从经编码位 流的VPS语法结构来确定时间尺度和时钟节拍中的单位数目,所述经编码位流在VPS 语法结构中对时间尺度和时钟节拍语法元素中的单位数目进行编码至多一次。在一些情 况下,视频编码器20可通过以下操作来测试经编码位流的符合性:解码经编码位流以 从经编码位流的VUI语法结构来确定时间尺度和时钟节拍中的单位数目,所述经编码位 流在VUI语法结构中对时间尺度和时钟节拍语法元素中的单位数目进行编码至多一次。 时间尺度和时钟节拍中的单位数目可不在并入于VPS和/或VUI语法结构内的HRD参 数语法结构中用信号发送。视频编码器20可使用所确定的时间尺度和所确定的时钟节 拍中的单位数目作为输入,以用于(例如)在包含于经编码位流中的经编码图片的解码期 间确定CPB下溢或上溢。

在一些情况下,在目的地装置14处,处于测试中的视频解码器30可在一些情况下 接收视频编码器20所产生的经编码位流的表示,以在给定经译码视频序列的VPS和VUI 语法结构中的每一者中用信号发送时间尺度和时钟节拍中的单位数目至多一次。视频解 码器30可解码经编码位流以从经编码位流的VPS语法结构来确定时间尺度和时钟节拍 中的单位数目,所述经编码位流在VPS语法结构中对时间尺度和时钟节拍语法元素中的 单位数目进行编码至多一次。在一些情况下,视频解码器30可通过以下操作来测试经 编码位流的符合性:解码经编码位流以从经编码位流的VUI语法结构来确定时间尺度和 时钟节拍中的单位数目,所述经编码位流在VUI语法结构中对时间尺度和时钟节拍语法 元素中的单位数目进行编码至多一次。时间尺度和时钟节拍中的单位数目可不在并入于 VPS和/或VUI语法结构内的HRD参数语法结构中用信号发送。视频解码器30可使用 所确定的时间尺度和所确定的时钟节拍中的单位数目作为输入,以用于(例如)在包含于 经编码位流中的经编码图片的解码期间确定CPB下溢或上溢。

在一些实例中,视频编码器20可产生经编码位流以在一或多个经译码视频序列的 VPS语法结构中用信号发送旗标,所述旗标指示经译码视频序列中的每一图片(除经译 码视频序列中按解码次序的第一图片外)的POC值是否相对于经译码视频序列中的第一 图片的输出时间而与所述图片的输出时间成比例。此指示旗标可替代地被称作为POC 与时序成比例指示旗标。结果,视频编码器20可减少针对经译码视频序列的多个层和/ 或具有多个层的可缩放视频位流而用信号发送的时序信息中的指示的实例数目。在一些 情况下,视频编码器20可仅在还包含时间尺度和时钟节拍语法元素中的单位数目的情 况下在VPS语法结构中包含此旗标。视频编码器20可以此方式在使用POC与时序成比 例指示所需的时钟节拍信息还不存在的情况下而避免用信号发送此特定时序信息(即,经 译码视频序列中的每一图片(除经译码视频序列中按解码次序的第一图片外)的POC值是 否相对于经译码视频序列中的第一图片的输出时间而与所述图片的输出时间成比例)。

根据本文描述的技术,视频编码器20可测试经编码位流(其由视频编码器20产生) 的符合性,以在一或多个经译码视频序列的VPS语法结构中用信号发送POC与时序成 比例指示旗标。视频编码器20可通过解码经编码位流以确定所述旗标的值来测试经编 码位流的符合性。视频编码器20可另外或替代地测试视频编码器20所产生的经编码位 流,以仅在还包含时间尺度和时钟节拍语法元素中的单位数目的情况下在VPS语法结构 中用信号发送所述旗标。视频编码器20可使用所确定的POC与时序成比例指示旗标的 值以及时间尺度和时钟节拍语法元素中的单位数目作为输入,以用于(例如)在包含于经 编码位流中的经编码图片的解码期间确定CPB下溢或上溢。

在一些情况下,在目的地装置14处,处于测试中的视频解码器30可在一些情况下 接收视频编码器20所产生的经编码位流的表示,以在一或多个经译码视频序列的VPS 语法结构中用信号发送POC与时序成比例指示旗标。视频解码器30可通过解码经编码 位流以确定所述旗标的值来测试经编码位流的符合性。视频解码器30可另外或替代地 测试视频解码器30所产生的经编码位流,以仅在还包含时间尺度和时钟节拍语法元素 中的单位数目的情况下在VPS语法结构中用信号发送所述旗标。视频解码器30可使用 所确定的POC与时序成比例指示旗标的值以及时间尺度和时钟节拍语法元素中的单位 数目作为输入,以用于(例如)在包含于经编码位流中的经编码图片的解码期间确定CPB 下溢或上溢。

图2是说明可实施本发明中描述的技术的实例视频编码器20的框图。视频编码器 20可以执行视频切片内的视频块的帧内译码及帧间译码。帧内译码依赖于空间预测来减 少或去除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测来减少或 去除视频序列的邻接帧或图片内的视频中的时间冗余。帧内模式(I模式)可以指若干基于 空间的压缩模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可以 指若干基于时间的压缩模式中的任一者。

在图2的实例中,视频编码器20包含分割单元35、预测模块41、参考图片存储器 64、求和器50、变换模块52、量化单元54和熵编码单元56。预测模块41包含运动估 计单元42、运动补偿单元44和帧内预测模块46。对于视频块重构,视频编码器20还 包含反量化单元58、反变换模块60和求和器62。还可包含解块滤波器(图2中未展示) 以对块边界进行滤波以从经重构的视频移除成块性假影。如果需要,则解块滤波器通常 将对求和器62的输出进行滤波。除解块滤波器之外,还可使用额外的环路滤波器(环路 内或环路后)。

如图2中所展示,视频编码器20接收视频数据,且分割单元35将数据分割成视频 块。此分割还可包含分割成切片、图像块或其它较大单元,以及例如根据LCU及CU的 四叉树结构的视频块分割。视频编码器20大体说明编码待编码视频切片内的视频块的 组件。所述切片可以划分成多个视频块(且可能划分成被称作图像块的数组视频块)。预 测模块41可基于错误结果(例如,译码速率及失真等级)针对当前视频块选择多种可能译 码模式中的一者,例如,多种帧内译码模式中的一者或多种帧间译码模式中的一者。预 测模块41可将所得的经帧内译码或经帧间译码块提供到求和器50以产生残差块数据, 且提供到求和器62以重构经编码块以用于用作参考图片。

预测模块41内的帧内预测模块46可相对于与待译码的当前块在相同的帧或切片中 的一或多个相邻块执行当前视频块的帧内预测译码,以提供空间压缩。预测模块41内 的运动估计单元42及运动补偿单元44相对于一或多个参考图片中的一或多个预测块执 行当前视频块的帧间预测译码以提供时间压缩。

运动估计单元42可经配置以根据用于视频序列的预定模式为视频切片确定帧间预 测模式。预定模式可将序列中的视频切片指定为P切片、B切片或GPB切片。运动估计 单元42与运动补偿单元44可高度集成,但出于概念上的目的而分开予以说明。运动估 计单元42所执行的运动估计是产生运动向量的过程,所述过程估计视频块的运动。举 例来说,运动向量可以指示当前视频帧或图片内的视频块的PU相对于参考图片内的预 测块的移位。

预测块是被发现在像素差方面与待译码的视频块的PU紧密匹配的块,像素差可通 过绝对差总和(SAD)、平方差总和(SSD)或其它差异度量来确定。在一些实例中,视频编 码器20可计算存储于参考图片存储器64中的参考图片的子整数像素位置的值。举例来 说,视频编码器20可以内插参考图片的四分之一像素位置、八分之一像素位置或其它 分数像素位置的值。因此,运动估计单元42可相对于全像素位置和分数像素位置执行 运动搜索并且输出具有分数像素精度的运动向量。

运动估计单元42通过比较PU的位置与参考图片的预测块的位置来计算经帧间译码 切片中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参 考图片列表(列表1),所述参考图片列表中的每一者识别存储在参考图片存储器64中的 一或多个参考图片。运动估计单元42将计算出来的运动向量发送到熵编码单元56及运 动补偿单元44。

通过运动补偿单元44执行的运动补偿可以涉及基于通过运动估计(可能执行对子像 素精确度的内插)确定的运动向量获取或产生预测块。在接收到当前视频块的PU的运动 向量后,运动补偿单元44即刻可以在参考图片列表中的一者中定位所述运动向量指向 的预测块。视频编码器20通过从正被译码的当前视频块的像素值减去预测块的像素值 从而形成像素差值来形成残差视频块。像素差值形成用于所述块的残差数据,并且可包 含亮度及色度差分量两者。求和器50表示执行此减法运算的一或多个组件。运动补偿 单元44还可产生与视频块及视频切片相关联的语法元素55以供视频解码器30在解码 视频切片的视频块时使用。

运动补偿单元44可产生符合根据本发明中描述的技术的语法结构的语法元素55。 在一些实例中,视频编码器20可产生语法元素55以在与视频块相关联的视频参数集 (VPS)语法结构中或在序列参数集(SPS)语法结构的视频可用性信息(VUI)部分中直接用 信号发送界定针对以下情况的条件的所有语法元素:用信号发送对应于图片次序计数 (POC)值的差等于1的时钟节拍的数目。换句话说,不在并入于VPS语法结构或SPS语 法结构的VUI部分中的另一语法结构(例如HRD参数语法结构)中用信号发送针对用于 用信号发送对应于图片次序计数(POC)值的差等于1的时钟节拍的数目的条件的语法元 素,运动补偿单元44产生经编码位流以在VPS和/或VUI语法结构中用信号发送界定所 述条件的语法元素的语法元素,且无需参考潜在并入于VPS和VUI语法结构中的任一 者或两者中的另一语法结构。

在一些实例中,运动补偿单元44可产生语法元素55以在给定经译码视频序列的 VPS和VUI语法结构中的每一者中用信号发送时间尺度和时钟节拍中的单位数目至多 一次。即,在用于经编码位流的给定VPS语法结构中,运动补偿单元44可产生语法元 素55以用信号发送时间尺度和时钟节拍语法元素中的单位数目至多一次。类似地,在 用于经编码位流的给定VUI语法结构(例如,SPS语法结构的VUI部分)中,运动补偿单 元44可产生语法元素55以用信号发送时间尺度和时钟节拍语法元素中的单位数目至多 一次。另外,在一些情况下,运动补偿单元44可产生语法元素55以在给定经译码视频 序列的VPS和VUI语法结构中的每一者中直接用信号发送时间尺度和时钟节拍中的单 位数目,而非在并入于VPS和/或VUI语法结构内的HRD参数语法结构中。

在一些实例中,运动补偿单元44可产生语法元素55以在一或多个经译码视频序列 的VPS语法结构中用信号发送旗标,所述旗标指示经译码视频序列中的每一图片(除经 译码视频序列中按解码次序的第一图片外)的POC值是否相对于经译码视频序列中的第 一图片的输出时间而与所述图片的输出时间成比例。此指示旗标可替代地被称作为POC 与时序成比例指示旗标。结果,运动补偿单元44可减少针对经译码视频序列的多个层 和/或具有多个层的可缩放视频位流而用信号发送的时序信息中的指示的实例数目。在一 些情况下,运动补偿单元44可仅在还包含时间尺度和时钟节拍语法元素中的单位数目 的情况下在VPS语法结构中包含此旗标。运动补偿单元44可以此方式在使用POC与时 序成比例指示所需的时钟节拍信息还不存在的情况下而避免用信号发送此特定时序信 息(即,经译码视频序列中的每一图片(除经译码视频序列中按解码次序的第一图片外)的 POC值是否相对于经译码视频序列中的第一图片的输出时间而与所述图片的输出时间 成比例)。

用以实行用于产生语法元素55的上述技术的HEVC WD9文本的实例改变如下(其 它未提及部分可相对于HEVC WD9未修改):

以下为经修改以解决上述问题中的一或多者的视频参数集RBSP语法结构的实例 (加下划线的语法为对HEVC WD9的视频参数集RBSP语法结构的添加;其它语法可相 对于HEVC WD9而不变):

表4:实例视频参数集RBSP语法结构

表4根据以下视频参数集(VPS)RBSP语义来定义新添加的语法元素:

vps_timing_info_present_flag等于1指定vps_num_units_in_tick、vps_time_scale和 vps_poc_proportional_to_timing_flag存在于视频参数集中。vps_timing_info_present_flag 等于0指定vps_num_units_in_tick、vps_time_scale和vps_poc_proportional_to_timing_flag 不存在于视频参数集中。

vps_num_units_in_tick为在对应于时钟节拍计数器的一个增量(称作时钟节拍)的频 率vps_time_scale Hz下操作的时钟的时间单位的数目。vps_num_units_in_tick的值应大 于0。以秒为单位的时钟节拍等于vps_num_units_in_tick除以vps_time_scale的商。举 例来说,当视频信号的图片速率为25Hz时,vps_time_scale可等于27,000,000,且 vps_num_units_in_tick可等于1,080,000,且因此时钟节拍可为0.04秒。

vps_time_scale为在一秒中经过的时间单位的数目。举例来说,使用27MHz频率 来测量时间的时间坐标系具有为27,000,000的vps_time_scale。vps_time_scale的值应大 于0。

vps_poc_proportional_to_timing_flag等于1指示经译码视频序列中的每一图片(除 经译码视频序列中按解码次序的第一图片外)的图片次序计数值相对于经译码视频序列 中的第一图片的输出时间而与所述图片的输出时间成比例。 vps_poc_proportional_to_timing_flag等于0指示经译码视频序列中的每一图片(除经译码 视频序列中按解码次序的第一图片外)的图片次序计数值相对于经译码视频序列中的第 一图片的输出时间可能与或可能不与所述图片的输出时间成比例。

vps_num_ticks_poc_diff_one_minus1加1指定对应于图片次序计数值的差等于1 的时钟节拍的数目。vps_num_ticks_poc_diff_one_minus1的值应在0到2^32-1的范围 中(包括0和2^32-1)。

以下为经修改以解决上述问题中的一或多者的VUI参数语法结构的实例(加下划线 的语法为对HEVC WD9的VUI参数语法结构的添加;从HEVC WD9的VUI参数语法 结构移除斜体的语法;其它语法可相对于HEVC WD9而不变):

表5:实例修改的VUI参数语法结构

表5根据以下VUI参数语义(同样移除用于移除的语法元素的语义)来定义新添加的 语法元素:

sps_timing_info_present_flag等于1指定sps_num_units_in_tick、sps_time_scale和 sps_poc_proportional_to_timing_flag存在于vui_parameters()语法结构中。 sps_timing_info_present_flag等于0指定sps_num_units_in_tick、sps_time_scale和 sps_poc_proportional_to_timing_flag不存在于vui_parameters()语法结构中。

sps_num_units_in_tick为在对应于时钟节拍计数器的一个增量(称作时钟节拍)的频 率sps_time_scale Hz下操作的时钟的时间单位的数目。sps_num_units_in_tick应大于0。 以秒为单位的时钟节拍等于sps_num_units_in_tick除以sps_time_scale的商。举例来说, 当视频信号的图片速率为25Hz时,sps_time_scale可等于27,000,000,且 sps_num_units_in_tick可等于1,080,000,且因此时钟节拍可等于0.04秒(参见等式(1))。 当vps_num_units_in_tick存在于序列参数集所参考的视频参数集中时, sps_num_units_in_tick(当存在时)应等于vps_num_units_in_tick。

将用于导出变量ClockTick(在本文还称作“时钟节拍”)的公式修改为如下:

ClockTick=sps_num_units_in_ticksps_time_scale    等式(1)

sps_time_scale为在一秒中经过的时间单位的数目。举例来说,使用27MHz频率来 测量时间的时间坐标系具有为27,000,000的sps_time_scale。sps_time_scale的值应大于 0。当vps_time_scale存在于序列参数集所参考的视频参数集中时,sps_time_scale(当存 在时)应等于vps_time_scale。

sps_poc_proportional_to_timing_flag等于1指示经译码视频序列中的每一图片(除 经译码视频序列中按解码次序的第一图片外)的图片次序计数值相对于经译码视频序列 中的第一图片的输出时间而与所述图片的输出时间成比例。 sps_poc_proportional_to_timing_flag等于0指示经译码视频序列中的每一图片(除经译码 视频序列中按解码次序的第一图片外)的图片次序计数值相对于经译码视频序列中的第 一图片的输出时间可能与或可能不与所述图片的输出时间成比例。当 vps_poc_proportional_to_timing_flag存在于序列参数集所参考的视频参数集中时, sps_poc_proportional_to_timing_flag(当存在时)应等于vps_poc_proportional_to_timing_flag。

sps_num_ticks_poc_diff_one_minus1加1指定对应于图片次序计数值的差等于1的 时钟节拍的数目。sps_num_ticks_poc_diff_one_minus1的值应在0到2^32-1的范围中(包 括0和2^32-1)。当vps_num_ticks_poc_diff_one_minus1存在于序列参数集所参考的视频 参数集中时,sps_num_ticks_poc_diff_one_minus1(当存在时)应等于 sps_num_ticks_poc_diff_one_minus1。

以下为经修改以解决上述问题中的一或多者的HRD参数语法结构的实例(从HEVC  WD9的HRD参数语法结构移除斜体的语法):

表6:实例修改的HRD参数语法结构

同样移除根据表6的实例修改的HRD参数语法结构而移除的语法元素的语义。

作为如上文所描述由运动估计单元42和运动补偿单元44执行的帧间预测的替代方 案,帧内预测模块46可以对当前块进行帧内预测。明确地说,帧内预测模块46可以确 定用来编码当前块的帧内预测模式。在一些实例中,帧内预测模块46可(例如)在单独编 码回合期间使用各种帧内预测模式对当前块进行编码,且帧内预测模块46(在一些实例 中,或为模式选择单元40)可从所测试的模式中选择将使用的适当的帧内预测模式。举 例来说,帧内预测模块46可以使用速率失真分析计算针对各种经测试帧内预测模式的 速率失真值,并且从所述经测试模式当中选择具有最佳速率失真特性的帧内预测模式。 速率失真分析一般确定经编码块与经编码以产生所述经编码块的原始的未经编码块之 间的失真(或误差)的量,以及用于产生经编码块的位速率(也就是说,位数目)。帧内预测 模块46可以根据用于各种经编码块的失真及速率计算比率,以确定哪种帧内预测模式 对于所述块展现最佳速率失真值。

在任何情况下,在选择了用于一块的帧内预测模式之后,帧内预测模块46可将指 示用于所述块的选定帧内预测模式的信息提供到熵编码单元56。熵编码单元56可根据 本发明的技术编码指示所述选定帧内预测模式的信息。视频编码器20可在所传输的位 流中包含配置数据,所述配置数据可包含多个帧内预测模式索引表及多个修改的帧内预 测模式索引表(还被称作码字映射表)、编码用于各种块的上下文的界定,及用于所述上 下文中的每一者的最可能的帧内预测模式、帧内预测模式索引表及修改的帧内预测模式 索引表的指示。

在预测模块41经由帧间预测或帧内预测产生当前视频块的预测块之后,视频编码 器20通过从当前视频块减去预测块而形成残差视频块。残差块中的残差视频数据可包 含在一或多个TU中并应用于变换模块52。变换模块52使用例如离散余弦变换(DCT) 或概念上类似的变换等变换将残差视频数据变换成残差变换系数。变换模块52可以将 残差视频数据从像素域变换到变换域,例如频域。

变换模块52可将所得变换系数发送到量化单元54。量化单元54将变换系数量化以 进一步减小位速率。量化过程可减少与系数中的一些系数或全部相关联的位深度。可通 过调整量化参数来修改量化程度。在一些实例中,量化单元54可以接着执行对包含经 量化的变换系数的矩阵的扫描。替代地,熵编码单元56可以执行所述扫描。

在量化之后,熵编码单元56对经量化变换系数进行熵编码。举例来说,熵编码单 元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码 (CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE) 译码或另一熵编码方法或技术。在熵编码单元56进行的熵编码之后,可将经编码位流 传输到视频解码器30,或将经编码位流存档以供稍后传输或由视频解码器30检索。熵 编码单元56还可对正被编码的当前视频切片的运动向量和其它语法元素进行熵编码。

反量化单元58和反变换模块60分别应用反量化和反变换以在像素域中重构残差 块,例如以供稍后用作参考图片的参考块。运动补偿单元44可以通过将残差块添加到 参考图片列表中的一者内的参考图片中的一者的预测块中来计算参考块。运动补偿单元 44还可将一或多个内插滤波器应用于经重构的残差块以计算子整数像素值用于运动估 计。求和器62将经重构的残差块添加到由运动补偿单元44产生的运动补偿预测块以产 生参考块用于存储在参考图片存储器64(有时称为经解码图片缓冲器(DPB))中。参考块 可由运动估计单元42和运动补偿单元44用作参考块以对后续视频帧或图片中的块进行 帧间预测。

视频编码器20可任选地包含假想参考解码器(HRD)57(通过使用虚线而被说明为任 选的),以检查视频编码器20的元件所产生的经编码位流对于针对HRD 57而界定的缓 冲器模型的符合性。HRD 57可检测类型I和/或类型II位流或位流子集的HRD符合性。 HRD 57的操作所需的参数集通过两种类型的HRD参数集(NAL HRD参数和VCL HRD 参数)中的一者来用信号发送。如上文所述,HRD参数集可并入于SPS语法结构和/或 VPS语法结构内。

HRD 57可测试视频块和相关联语法元素55对于如在视频译码规范(例如HEVC  WD9)或后续规范(例如HEVC WD10)中定义的一或多个位流符合性测试所指定的要求的 符合性。举例来说,HRD 57可通过以下操作来测试经编码位流的符合性:处理语法元 素55以从经译码视频序列的VPS语法结构或在SPS语法结构的VUI部分中确定界定针 对以下情况的条件的语法元素:用信号发送对应于POC值的差等于1的时钟节拍的数 目。如果所述条件根据语法元素值而成立,则HRD 57可确定对应于POC值的差等于1 的时钟节拍的数目,且使用所确定数目个时钟节拍作为输入以用于(例如)在包含于经编 码位流中的经编码图片的解码期间确定CPB下溢或上溢。在本文关于语法元素而使用术 语“处理”可指:用以获得呈解码器/HRD 57可使用的形式的语法元素的提取、解码和 提取、读取、解析和任何其它可用操作或操作的组合。

作为另一实例,HRD 57可通过以下操作来测试经编码位流的符合性:解码经编码 位流以从语法元素55的VPS语法结构来确定时间尺度和时钟节拍中的单位数目,语法 元素55在VPS语法结构中对时间尺度和时钟节拍语法元素中的单位数目进行编码至多 一次。在一些情况下,HRD 57可通过以下操作来测试经编码位流的符合性:解码语法 元素55以从经编码位流的VUI语法结构来确定时间尺度和时钟节拍中的单位数目,所 述经编码位流在VUI语法结构中对时间尺度和时钟节拍语法元素中的单位数目进行编 码至多一次。时间尺度和时钟节拍中的单位数目可不在并入于VPS和/或VUI语法结构 内的HRD参数语法结构中用信号发送。HRD 57可使用所确定的时间尺度和所确定的时 钟节拍中的单位数目作为输入,以用于(例如)在包含于经编码位流中的经编码图片的解 码期间确定CPB下溢或上溢。

根据本文描述的技术,HRD 57可通过从用于一或多个经译码视频序列的语法元素 55的VPS语法结构来解码POC与时序成比例指示旗标的值而测试经编码位流的符合性。 HRD 57可另外或替代地仅在还包含时间尺度和时钟节拍语法元素中的单位数目的情况 下在VPS语法结构中解码POC与时序成比例指示旗标的值而测试经编码位流的符合性。 HRD 57可使用所确定的POC与时序成比例指示旗标的值以及时间尺度和时钟节拍语法 元素中的单位数目作为输入,以用于(例如)在包含于经编码位流中的经编码图片的解码 期间确定CPB下溢或上溢。

图3为说明可实施本发明中描述的技术的实例视频解码器76的框图。在图3的实 例中,视频解码器76包含经译码图片缓冲器(CPB)78、熵解码单元80、预测模块81、 反量化单元86、反变换单元88、求和器90和经解码图片缓冲器(DPB)92。预测模块81 包含运动补偿单元82和帧内预测模块84。在一些实例中,视频解码器76可执行与关于 来自图2的视频编码器20所描述的编码遍次大体上互逆的解码遍次。视频解码器76可 表示目的地装置14的视频解码器30或图2的假想参考解码器57的实例例子。

CPB 78存储来自经编码图片位流的经译码图片。在一个实例中,CBP 78为含有按 解码次序的存取单元(AU)的先入先出缓冲器。AU为根据指定分类规则而彼此相关联的 网络抽象层(NAL)单元的集合,所述NAL单元在解码次序上为连续的,且各自仅含有一 个经译码图片。解码次序为图片经解码的次序,且可与显示图片的次序(即,显示次序) 不同。CPB的操作可通过假想参考解码器(HRD)来指定。

在解码过程期间,视频解码器76接收经编码视频位流,其表示来自视频编码器20 的经编码视频切片的视频块和相关联语法元素。视频解码器76的熵解码单元80解码所 述位流以产生经量化系数、运动向量和其它语法元素55。熵解码单元80将运动向量和 其它语法元素55转发到预测模块81。视频解码器76可接收在视频切片层级和/或视频 块层级处的语法元素55。经编码视频位流可包含根据下文描述的技术而用信号发送的时 序信息。举例来说,经编码视频位流可包含视频参数集(VPS)、序列参数集(SPS),或具 有根据本文描述的技术的语法结构的其任何组合,以用信号发送用于HRD操作的参数。

当视频切片经译码为经帧内译码(I)切片时,预测模块81的帧内预测模块84可基于 用信号发送的帧内预测模式及来自当前帧或图片的先前经解码块的数据而产生用于当 前视频切片的视频块的预测数据。当视频帧经译码为经帧间译码(即,B、P或GPB)切片 时,预测模块81的运动补偿单元82基于从熵解码单元80接收到的运动向量和其它语 法元素55产生用于当前视频切片的视频块的预测块。预测块可以从参考图片列表中的 一者内的参考图片中的一者产生。视频解码器76可以基于存储在DPB 92中的参考图片 使用默认建构技术建构参考帧列表:列表0和列表1。

运动补偿单元82通过解析运动向量及其它语法元素55来确定用于当前视频切片的 视频块的预测信息,并且使用所述预测信息产生用于正被解码的当前视频块的预测块。 举例来说,运动补偿单元82使用所接收的语法元素55中的一些语法元素来确定用于对 视频切片的视频块进行译码的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类 型(例如,B切片、P切片或GPB切片)、用于切片的参考图片列表中的一或多者的建构 信息、用于切片的每一经帧间编码视频块的运动向量、用于切片的每一经帧间译码视频 块的帧间预测状态,及用以对当前视频切片中的视频块进行解码的其它信息。

运动补偿单元82还可基于内插滤波器执行内插。运动补偿单元82可使用由视频编 码器20在编码视频块期间使用的内插滤波器来计算参考块的子整数像素的内插值。在 此状况下,运动补偿单元82可根据所接收的语法元素55而确定由视频编码器20使用 的内插滤波器且使用所述内插滤波器来产生预测块。

反量化单元86将在位流中提供且由熵解码单元80解码的经量化变换系数反量化, 即,解量化。反量化过程可包含使用视频编码器20针对视频切片中的每一视频块计算 以确定应该应用的量化程度和同样反量化程度的量化参数。反变换单元88对变换系数 应用反变换,例如反DCT、反整数变换或概念上类似的反变换过程,以便产生像素域中 的残差块。

在运动补偿单元82基于运动向量和其它语法元素55而产生当前视频块的预测性块 后,视频解码器76通过将来自反变换单元88的残差块与由运动补偿单元82所产生的 对应预测性块求和而形成经解码视频块。求和器90表示执行此求和运算的(一或多个) 组件。如果需要,还可应用解块滤波器来对经解码块滤波以便移除成块性假影。其它环 路滤波器(译码环路中或译码环路后)还可用以使像素转变平滑,或以其它方式改进视频 质量。接着将给定帧或图片中的经解码视频块存储于DPB 92中,DPB 92存储用于后续 运动补偿的参考图片。DPB 92还存储经解码视频以用于稍后呈现于显示装置上,例如 图1的显示装置32。类似于CPB 78,在一个实例中,DPB 92的操作可通过假想参考解 码器(HRD)来指定。

如本发明中所描述,编码器20和解码器76表示经配置以执行如本发明中所描述的 用于在视频译码过程中用信号发送时序的技术的装置的实例。因此,用于用信号发送时 间的本发明中所描述的操作可由编码器20、解码器76或两者来执行。在一些情况下, 编码器20可用信号发送时序信息,且解码器76可接收此类时序信息(例如)以用于界定 一或多个HRD特征、特性、参数或条件。

在一些情况下,视频解码器76可为处于测试中的视频解码器76(或VUT)。视频解 码器76可接收视频编码器20所产生的经编码位流的表示,以在用于经译码视频序列的 语法元素55的VPS语法结构中或在SPS语法结构的VUI部分中直接用信号发送界定针 对以下情况的条件的所有语法元素:用信号发送对应于图片次序计数(POC)值的差等于1 的时钟节拍的数目。视频解码器76可解码经编码位流以从经译码视频序列的VPS语法 结构或在SPS语法结构的VUI部分中确定界定针对以下情况的条件的语法元素:用信 号发送对应于POC值的差等于1的时钟节拍的数目。如果所述条件根据语法元素值而 成立,则视频解码器76可确定对应于POC值的差等于1的时钟节拍的数目,且使用所 确定数目个时钟节拍作为输入以用于(例如)在包含于经编码位流中的经编码图片的解码 期间确定CPB 78下溢或上溢。

在另一实例中,视频编码器20可接收视频编码器20所产生的经编码位流的表示, 以在用于给定经译码视频序列的语法元素55的VPS和VUI语法结构中的每一者中用信 号发送时间尺度和时钟节拍中的单位数目至多一次。视频解码器76可解码经编码位流 以从经编码位流的VPS语法结构来确定时间尺度和时钟节拍中的单位数目,所述经编码 位流在VPS语法结构中对时间尺度和时钟节拍语法元素中的单位数目进行编码至多一 次。在一些情况下,视频解码器76可通过以下操作来测试经编码位流的符合性:解码 经编码位流以从经编码位流的VUI语法结构来确定时间尺度和时钟节拍中的单位数目, 所述经编码位流在VUI语法结构中对时间尺度和时钟节拍语法元素中的单位数目进行 编码至多一次。时间尺度和时钟节拍中的单位数目可不在并入于VPS和/或VUI语法结 构内的HRD参数语法结构中用信号发送。视频解码器76可使用所确定的时间尺度和所 确定的时钟节拍中的单位数目作为输入,以用于(例如)在包含于经编码位流中的经编码 图片的解码期间确定CPB 78下溢或上溢。

在另一实例中,视频解码器76可接收视频编码器20所产生的经编码位流的表示, 以在一或多个经译码视频序列的语法元素55的VPS语法结构中用信号发送POC与时序 成比例指示旗标。视频解码器76可通过解码经编码位流以确定所述旗标的值来测试经 编码位流的符合性。视频解码器76可另外或替代地测试视频解码器76所产生的经编码 位流,以仅在还包含时间尺度和时钟节拍语法元素中的单位数目的情况下在VPS语法结 构中用信号发送所述旗标。视频解码器76可使用所确定的POC与时序成比例指示旗标 的值以及时间尺度和时钟节拍语法元素中的单位数目作为输入,以用于(例如)在包含于 经编码位流中的经编码图片的解码期间确定CPB 78下溢或上溢。

图4为说明用于参考图片集的实例译码结构100的框图。译码结构100包含切片 102A到102E(统称为“切片102”)。与译码结构100相关联的图片次序计数108表示参 考图片集中的对应切片的输出次序。举例来说,将首先输出I切片102A(POC值0),而 其次输出b切片102B(POC值1)。与译码结构100相关联的解码次序110表示参考图片 集中的对应切片的解码次序。举例来说,将首先输出I切片102A(解码次序1),而其次 输出b切片102B(解码次序2)。

箭头104指示沿着时间连续区t的图片的输出时间。时间间隔106表示对应于图片 次序计数(POC)值的差等于1的时间间隔。时间间隔106可包含时钟节拍的数目,其可 取决于时间尺度(对应于(例如)界定用于用信号发送的信息的时间坐标系的振荡器频率, 例如27MHz)以及在对应于时钟节拍计数器的一个增量(其称作为“时钟节拍”)的时间 尺度下操作的时钟的时间单位的数目。根据本文描述的技术,视频编码器20可产生位 流以在用于经译码视频序列的视频参数集(VPS)语法结构中或在序列参数集(SPS)语法结 构的视频可用性信息(VUI)部分中直接用信号发送界定针对以下情况的条件的语法元 素:用信号发送对应于图片次序计数(POC)值的差等于1的时钟节拍的数目。

图5为说明根据本发明中描述的技术的操作的实例方法的流程图。视频编码器20 编码视频序列的图片以产生经译码视频序列(200)。视频编码器20另外产生用于经译码 视频序列的参数集。参数集可包含根据序列参数集(SPS)语法结构和/或根据视频参数集 (VPS)语法结构而编码的参数。根据本文描述的技术,视频编码器20将用于时钟节拍中 的单位数目和时间尺度的语法元素直接编码到经译码视频序列的VPS语法结构和/或直 接编码到SPS语法结构(202)。术语“直接”指示可产生此类编码而无需在VPS语法结 构或SPS语法结构(在适用时)中并入用于针对独立参数集语法结构而定义的时钟节拍中 的单位数目和时间尺度的语法元素,例如对应于如在HEVC WD9中定义的假想参考解 码器(HRD)参数集。

另外,视频编码器20将针对以下情况的条件直接编码到经译码视频序列的VPS语 法结构和/或SPS语法结构:用信号发送对应于图片次序计数(POC)值的差等于一的时钟 节拍的数目(204)。所述条件可包含表示布尔(Boolean)公式的变量的一或多个语法元素, 在此情况下,视频编码器20可将每一此类语法元素直接编码到经译码视频序列的VPS 语法结构和/或SPS语法结构中。视频编码器20输出经译码视频序列以及所述经译码视 频序列的VPS语法结构和/或SPS语法结构(206)。在一些情况下,视频编码器20将这 些结构输出到视频编码器20的HRD。

图6A到6B为说明根据本发明中描述的技术的操作的实例方法的流程图。在图6A 中,视频编码器20编码视频序列的图片以产生经译码视频序列(300)。视频编码器20另 外产生用于经译码视频序列的参数集。参数集可包含根据视频参数集(VPS)语法结构而 编码的参数。根据本文描述的技术,视频编码器20将用于时钟节拍中的单位数目和时 间尺度的语法元素直接且至多一次编码到经译码视频序列的VPS语法结构(302)。在一 些情况下,甚至在VPS语法结构包含HRD参数的多个实例的情况下,通过将语法元素 直接编码到VPS语法结构(至多一次)而非编码到HRD参数集(或任何其它并入的参数集 语法结构),VPS语法结构可包含用于时钟节拍中的单位数目和时间尺度中的每一者的 单一语法元素。视频编码器20输出经译码视频序列以及所述经译码视频序列的VPS语 法结构(304)。在一些情况下,视频编码器20将这些结构输出到视频编码器20的HRD。

在图6B中,视频编码器20编码视频序列的图片以产生经译码视频序列(310)。视频 编码器20另外产生用于经译码视频序列的参数集。参数集可包含根据视频参数集(SPS) 语法结构而编码的参数。根据本文描述的技术,视频编码器20将用于时钟节拍中的单 位数目和时间尺度的语法元素直接且至多一次编码到经译码视频序列的SPS语法结构 (312)。在一些情况下,甚至在SPS语法结构包含HRD参数的多个实例的情况下,通过 将语法元素直接编码到SPS语法结构(至多一次)而非编码到HRD参数集(或任何其它并 入的参数集语法结构),SPS语法结构可包含用于时钟节拍中的单位数目和时间尺度中的 每一者的单一语法元素。视频编码器20输出经译码视频序列以及所述经译码视频序列 的SPS语法结构(314)。在一些情况下,视频编码器20将这些结构输出到视频编码器20 的HRD。在一些情况下,视频编码器20将用于时钟节拍中的单位数目和时间尺度的语 法元素编码到经译码视频序列的VPS语法结构和SPS语法结构两者。

图7为说明根据本发明中描述的技术的操作的实例方法的流程图。视频编码器20 编码视频序列的图片以产生经译码视频序列(400)。视频编码器20另外产生用于经译码 视频序列的参数集。参数集可包含根据视频参数集(VPS)语法结构而编码的参数。如果 将包含时序信息(例如)用于界定HRD缓冲模型(402的“是”分支),则视频编码器20将 具有一值的语法元素直接编码到经译码视频序列的VPS语法结构,所述值指定经译码视 频序列中的每一图片(除经译码视频序列中按解码次序的第一图片外)的图片次序计数 (POC)值相对于经译码视频序列中的第一图片的输出时间是否与所述图片的输出时间成 比例(404)。所述语法元素可在语义上类似于HEVC WD9所定义的 poc_proportional_to_timing_flag。时序信息可表示时钟节拍中的单位数目和时间尺度。

如果语法元素的值为真(406的“是”分支),则视频编码器20还编码用于对应于图 片次序计数值的差等于一的时钟节拍的数目的语法元素(408)。因为视频编码器20将语 法元素编码到VPS,所以语法元素的值可应用到所有层或可缩放视频位流的所有可能位 流子集,这是由于VPS表示最高层参数集且描述经译码图片序列的整体特性。

如果在VPS语法结构中将不包含时序信息(402的“否”分支),则视频编码器20对 于以下两者均不编码:用于指示POC与时序信息成比例的语法元素;及用于对应于图 片次序计数值的差等于一的时钟节拍的数目的语法元素。如果POC不与时序信息成比 例(即,值为假)(406的“否”分支),则视频编码器20不编码用于对应于图片次序计数 值的差等于一的时钟节拍的数目的语法元素。

视频编码器20输出经译码视频序列以及所述经译码视频序列的VPS语法结构 (410)。在一些情况下,视频编码器20将这些结构输出到视频编码器20的HRD。

图8为说明根据本发明中描述的技术的操作的实例方法的流程图。视频解码器装置 30或视频编码器装置20的假想参考解码器57(在下文为“解码器”)接收经译码视频序 列和用于所述经译码视频序列的视频参数集(VPS)语法结构和/或序列参数集(SPS)语法 结构(500)。可将经译码视频序列和/或语法结构编码到包含一或多个经编码图片的位流。

解码器处理VPS语法结构和/或SPS语法结构以提取语法元素,所述语法元素直接 在VPS语法结构和/或SPS语法结构中指定针对以下情况的条件:用信号发送对应于图 片次序计数(POC)值的差等于一的时钟节拍的数目(502)。所述条件可包含表示布尔 (Boolean)公式的变量的一或多个语法元素,在此情况下,解码器可处理直接来自经译码 视频序列的VPS语法结构和/或SPS语法结构的每一此类语法元素。

解码器另外处理VPS语法结构和/或SPS语法结构以直接从经译码视频序列的VPS 语法结构和/或直接从SPS语法结构提取用于时钟节拍中的单位数目和时间尺度的语法 元素(504)。解码器接着可验证经译码视频序列对于视频缓冲模型的符合性,所述视频缓 冲模型至少部分由针对所述条件、如从VPS语法结构和/或SPS语法结构提取以及如从 对应语法元素读取的时钟节拍中的单位数目和时间尺度的值来界定(506)。

图9A到9B为说明根据本发明中描述的技术的操作的实例方法的流程图。在图9A 中,视频解码器装置30或视频编码器装置20的假想参考解码器57(在下文为“解码器”) 接收经译码视频序列和用于所述经译码视频序列的视频参数集(VPS)语法结构(600)。可 将经译码视频序列和/或VPS语法结构编码到包含一或多个经编码图片的位流。

根据本文描述的技术,解码器处理VPS语法结构以提取用于时钟节拍中的单位数目 和时间尺度的语法元素,所述语法元素直接出现(且至多一次)于经译码视频序列的VPS 语法结构中(602)。解码器接着可验证经译码视频序列对于视频缓冲模型的符合性,所述 视频缓冲模型至少部分由如从VPS语法结构提取以及如从对应语法元素读取的时钟节 拍中的单位数目和时间尺度的值来界定(604)。

在图9B中,解码器接收经译码视频序列和用于所述经译码视频序列的视频参数集 (SPS)语法结构(610)。可将经译码视频序列和/或SPS语法结构编码到包含一或多个经编 码图片的位流。

根据本文描述的技术,解码器处理SPS语法结构以提取用于时钟节拍中的单位数目 和时间尺度的语法元素,所述语法元素直接出现(且至多一次)于经译码视频序列的SPS 语法结构中(612)。解码器接着可验证经译码视频序列对于视频缓冲模型的符合性,所述 视频缓冲模型至少部分由如从SPS语法结构提取以及如从对应语法元素读取的时钟节 拍中的单位数目和时间尺度的值来界定(614)。

图10为说明根据本发明中描述的技术的操作的实例方法的流程图。在图10中,视 频解码器装置30或视频编码器装置20的假想参考解码器57(在下文为“解码器”)接收 经译码视频序列和用于所述经译码视频序列的视频参数集(VPS)语法结构(700)。可将经 译码视频序列和/或VPS语法结构编码到包含一或多个经编码图片的位流。

解码器处理VPS语法结构以提取语法元素,所述语法元素指定经译码视频序列中的 每一图片(除经译码视频序列中按解码次序的第一图片外)的图片次序计数值相对于经译 码视频序列中的第一图片的输出时间而与所述图片的输出时间成比例(702)。如果语法元 素的值为真,则解码器进一步处理VPS语法结构以提取用于对应于图片次序计数值的差 等于一的时钟节拍的数目的语法元素(706)。解码器接着可验证经译码视频序列对于视频 缓冲模型的符合性,所述视频缓冲模型至少部分由如从VPS语法结构提取以及如从对应 语法元素读取的用于对应于图片次序计数值的差等于一的时钟节拍的数目的值来界定 (708)。

在一或多个实例中,所描述的功能可以用硬件、软件、固件或其任何组合来实施。 如果以软件实施,则所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传 输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对 应于有形媒体,例如数据存储媒体,或包含任何促进将计算机程序从一处传送到另一处 的媒体(例如,根据通信协议)的通信媒体。以此方式,计算机可读媒体一般可对应于(1) 非暂时性的有形计算机可读存储媒体或(2)例如信号或载波等通信媒体。数据存储媒体可 为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的 指令、代码及/或数据结构的任何可用媒体。计算机程序产品可以包含计算机可读媒体。

举例来说且并非限制,所述计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM 或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,快闪存储器,或可用于存储 呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。同样,任 何连接可恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞 线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它 远程源传输指令,那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和微 波等无线技术包含在媒体的界定中。然而,应理解,所述计算机可读存储媒体和数据存 储媒体并不包含连接、载波、信号或其它瞬时媒体,而是实际上针对非瞬时的有形存储 媒体。如本文所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功 能光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式重现数据,而光盘使用 激光以光学方式重现数据。上述各者的组合也应包含在计算机可读媒体的范围内。

指令可以由一或多个处理器执行,所述一或多个处理器例如是一或多个数字信号处 理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它 等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或 适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本 文中所描述的功能性可以在经配置用于编码和解码的专用硬件和/或软件模块内提供,或 者并入在组合编解码器中。并且,可将所述技术完全实施于一或多个电路或逻辑元件中。

本发明的技术可实施于广泛多种装置或设备中,包含无线手持机、集成电路(IC)或 IC组(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所 揭示技术的装置的功能方面,但不必需要通过不同硬件单元实现。实际上,如上文所描 述,各种单元可以结合合适的软件及/或固件组合在编码解码器硬件单元中,或者通过互 操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。

已描述各种实例。这些及其它实例在所附权利要求书的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号