首页> 中国专利> 在MPEG-2系统中组合多视角视频译码子位流

在MPEG-2系统中组合多视角视频译码子位流

摘要

一种多路分用器可组合子位流的视角分量。在一个实例中,一种设备包含多路分用器,所述多路分用器从包含主要子位流和嵌入子位流的所接收位流中产生符合多视角视频译码MVC标准的位流。为产生所述符合MVC标准的位流,所述多路分用器确定所述主要子位流的视角分量是否具有比所述嵌入子位流的视角分量的视角次序索引大的视角次序索引,并将来自视角次序索引较低的子位流的视角分量添加到所述所产生的位流。所述所接收的位流可在每一视角分量之间包含定界符网络抽象层NAL单元以区别所述视角分量。所述设备可进一步包含视频解码器以解码由所述多路分用器产生的所述位流。

著录项

  • 公开/公告号CN102804773A

    专利类型发明专利

  • 公开/公告日2012-11-28

    原文格式PDF

  • 申请/专利权人 高通股份有限公司;

    申请/专利号CN201080029011.2

  • 发明设计人 陈英;马尔塔·卡切维奇;陈培松;

    申请日2010-06-28

  • 分类号H04N7/26;H04N7/50;H04N21/2343;H04N21/2362;H04N21/434;H04N21/845;

  • 代理机构北京律盟知识产权代理有限责任公司;

  • 代理人宋献涛

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-18 07:31:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-03-15

    授权

    授权

  • 2013-01-23

    实质审查的生效 IPC(主分类):H04N7/26 申请日:20100628

    实质审查的生效

  • 2012-11-28

    公开

    公开

说明书

相关申请案

本申请案主张2009年6月29日申请的第61/221,449号美国临时申请案和2009年6 月12日申请的第61/186,613号美国临时申请案的权益,所述两个临时申请案的全部内 容的相应全文在此以引用的方式明确地并入本文中。

相关申请案的交叉参考

本专利申请案与以下共同待决美国专利申请案相关:由Ying Chen与本案同时申请 的“MPEG-2系统上的多视角视频译码(MULTIVIEW VIDEO CODING OVER MPEG-2  SYSTEMS)”,所述专利申请案代理人案号为092514,转让给本受让人,且以引用的方 式明确地并入本文中。

技术领域

本发明涉及经编码的视频数据的传送。

背景技术

数字视频能力可并入到广泛装置中,包括数字电视、数字直播系统、无线广播系统、 个人数字助理(PDA)、膝上型或台式计算机、数码相机、数字记录装置、数字媒体播 放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电传会议装置 等。数字视频装置实施视频压缩技术,例如由MPEG-2、MPEG-4、ITU-T H.263或ITU-T  H.264/MPEG-4第10部分先进视频译码(AVC)所定义的标准和此类标准的扩展版中描 述的技术,以更有效地发射和接收数字视频信息。

视频压缩技术执行空间预测和/或时间预测以减少或移除视频序列中固有的冗余。对 于基于块的视频译码,可将视频帧或片段分割成宏块。每一宏块可经进一步分割。帧内 译码(I)帧或片段中的宏块使用相对于相邻宏块的空间预测来编码。帧间译码(P或B) 帧或片段中的宏块可使用相对于同一帧或片段中的相邻宏块的空间预测或相对于其它 参考帧的时间预测。

在已编码视频数据后,视频数据可由多路复用器来包化以供发射或存储。MPEG-2 包括“系统”部分,其定义用于许多视频编码标准的传送层。MPEG-2传送层系统可由 MPEG-2视频编码器或其它符合不同视频编码标准的视频编码器使用。举例来说, MPEG-4指定不同于MPEG-2的编码和解码方法的编码和解码方法,但实施MPEG-4标 准的技术的视频编码器仍可利用MPEG-2传送层方法。一般来说,对“MPEG-2系统” 的提及指代由MPEG-2所指定的视频数据的传送层。由MPEG-2所指定的传送层在本发 明中也称为“MPEG-2传送流”或简称为“传送流”。同样,MPEG-2系统的传送层还包 括节目流。传送流和节目流通常包括用于传递类似数据的不同格式,其中传送流包含包 括音频数据与视频数据两者的一个或一个以上“节目”,而节目流包括包含音频数据与 视频数据两者的一个节目。

MPEG-2系统规范描述可如何将经压缩的多媒体(视频和音频)数据流与其它数据 一起多路复用以形成适合于数字发射或存储的单一数据流。在2006年5月的“信息技 术-动画和相关联音频的一般译码:系统,推荐H.222.0;国际标准化组织,ISO/IEC  JTC1/SC29/WG11;动画和相关联音频的译码(Information Technology-Generic Coding of  Moving Pictures and Associated Audio:Systems,Recommendation H.222.0;International  Organisation for Standardisation,ISO/IEC JTC1/SC29/WG11;Coding of Moving Pictures  and Associated Audio)”中指定MPEG-2系统的最新规范。MPEG最近针对MPEG-2系 统设计了MVC的传送标准,且此规范的最新版本为“ISO/IEC 13818-1的研究:MVC的 2007/FPDAM4传送(Study of ISO/IEC 13818-1:2007/FPDAM4 Transport of MVC)”, MPEG doc.N10572,MPEG of ISO/IEC JTC1/SC29/WG11,美国夏威夷毛伊岛(Maui, Hawaii,USA),2009年4月。

发明内容

大体上,本发明描述用于改进MPEG-2(动画专家组)系统中多视角视频译码的技 术。本发明的技术大体来说相对于多视角视频译码(MVC)而扩展MPEG-2传送层(例 如,MPEG-2传送流和MPEG-2节目流)的能力。举例来说,本发明的技术使得MVC 视频流的不连续视角的发射能够在传送层处发射。本发明的技术进一步使得传送流(或 节目)的子位流各自能够包括不连续视角。所述技术还使得接收装置在接收到包含多个 子位流(每一子位流具有不连续视角)的传送层流后能够即刻重新布置子位流中的视角, 使得传送流经适当地定序(即,根据视角次序索引按递增次序),以使得解码器可适当 地解码所述视角中的每一者的帧。

在一个实例中,一种方法包括通过源装置建构数据结构,所述数据结构用于信令相 应MPEG-2(动画专家组)系统标准位流包含场景的与第一视角次序索引相关联的第一 视角和所述场景的与第二视角次序索引相关联的第二视角,其中所述第一视角次序索引 和所述第二视角次序索引为不连续的。所述方法还包括输出所述数据结构,例如,将所 述数据结构发射到目的地装置或将所述数据结构存储到计算机可读媒体。

在另一实例中,一种设备包括:视频编码器,其编码场景的多个视角;多路复用器, 其建构数据结构,所述数据结构用于信令相应MPEG-2(动画专家组)系统标准位流包 含所述场景的所述多个视角中的与第一视角次序索引相关联的第一视角和所述场景的 所述多个视角中的与第二视角次序索引相关联的第二视角,其中所述第一视角次序索引 和所述第二视角次序索引为不连续的;以及输出接口,其输出所述数据结构。

在另一实例中,一种设备包括:用于通过源装置建构数据结构的装置,所述数据结 构用于信令相应MPEG-2(动画专家组)系统标准位流包含场景的与第一视角次序索引 相关联的第一视角和所述场景的与第二视角次序索引相关联的第二视角,其中所述第一 视角次序索引和所述第二视角次序索引为不连续的;以及用于输出所述数据结构的装 置。

在另一实例中,一种计算机可读存储媒体以多个指令进行编码,所述指令致使处理 器建构数据结构并输出所述数据结构,所述数据结构用于信令相应MPEG-2(动画专家 组)系统标准位流包含场景的与第一视角次序索引相关联的第一视角和所述场景的与第 二视角次序索引相关联的第二视角,其中所述第一视角次序索引和所述第二视角次序索 引为不连续的。

在又一实例中,一种方法包括通过客户端装置从包含主要子位流和所述主要子位流 的嵌入子位流的所接收位流产生符合多视角视频译码(MVC)标准的位流,其中产生所 述符合MVC标准的位流包括确定所述主要子位流的视角分量是否具有大于嵌入子位流 的视角分量的视角次序索引的视角次序索引,当主要子位流的视角分量的视角次序索引 大于嵌入子位流的视角分量的视角次序索引时,将嵌入子位流的视角分量添加到所产生 的位流,且当主要子位流的视角分量的视角次序索引不大于嵌入子位流的视角分量的视 角次序索引时,将主要子位流的视角分量添加到所产生的位流。所述方法进一步包括将 所产生的位流输出到视频解码器。

在另一实例中,一种设备包括:输入接口,其接收包含主要子位流和所述主要子位 流的嵌入子位流的位流;多路分用器,其从所接收的位流产生符合多视角视频译码 (MVC)标准的位流,其中为了产生所述符合MVC标准的位流,所述多路分用器确定 所述主要子位流的视角分量是否具有大于嵌入子位流的视角分量的视角次序索引的视 角次序索引,当主要子位流的视角分量的视角次序索引大于嵌入子位流的视角分量的视 角次序索引时将嵌入子位流的视角分量添加到所产生的位流,且当主要子位流的视角分 量的视角次序索引不大于嵌入子位流的视角分量的视角次序索引时将主要子位流的视 角分量添加到所产生的位流;以及视频解码器,其解码由多路分用器产生的位流。

在另一实例中,一种设备包括:用于从包含主要子位流和所述主要子位流的嵌入子 位流的所接收位流产生符合多视角视频译码(MVC)标准的位流的装置;用于确定所述 主要子位流的视角分量是否具有大于嵌入子位流的视角分量的视角次序索引的视角次 序索引的装置;用于当主要子位流的视角分量的视角次序索引大于嵌入子位流的视角分 量的视角次序索引时将嵌入子位流的视角分量添加到所产生的位流的装置;以及用于当 主要子位流的视角分量的视角次序索引不大于嵌入子位流的视角分量的视角次序索引 时将主要子位流的视角分量添加到所产生的位流的装置;以及用于将所产生的位流输出 到视频解码器的装置。

在另一实例中,一种计算机可读存储媒体以指令进行编码,所述指令用于致使客户 端装置的可编程处理器从包含主要子位流和所述主要子位流的嵌入子位流的所接收位 流产生符合多视角视频译码(MVC)标准的位流并将所产生的位流输出到视频解码器, 包含用以确定所述主要子位流的视角分量是否具有大于嵌入子位流的视角分量的视角 次序索引的视角次序索引的指令,当主要子位流的视角分量的视角次序索引大于嵌入子 位流的视角分量的视角次序索引时,将嵌入子位流的视角分量添加到所产生的位流,且 当主要子位流的视角分量的视角次序索引不大于嵌入子位流的视角分量的视角次序索 引时,将主要子位流的视角分量添加到所产生的位流。

附图和下文描述中阐述一个或一个以上实例的细节。其它特征、目标和优点将从描 述内容和图式以及从权利要求书而显而易见。

附图说明

图1为说明其中音频/视频(A/V)源装置将音频和视频数据传送到A/V目的地装置 的实例系统的框图。

图2为说明多路复用器的组件的实例布置的框图。

图3为说明节目特定信息表的实例集合的框图。

图4为说明可包括于多视角视频译码(MVC)扩展描述符中的实例数据集的框图。

图5为说明可包括于分级结构描述符中的实例数据集的框图。

图6为说明实例MVC预测图案的概念图。

图7为说明用于从服务器将具有拥有不连续视角次序索引的视角的子集的MPEG-2 系统流发送到客户端的实例方法的流程图。

图8为说明用于组合两个或两个以上子位流的视角分量以产生位流使得所述视角分 量具有递增视角次序索引的实例方法的流程图。

具体实施方式

本发明的技术大体来说针对增强MPEG-2(动画专家组)系统(即,就传送层细节 来说符合MPEG-2的系统)中的多视角视频译码(MVC)。举例来说,MPEG-4提供用 于视频编码的标准,但通常假定遵从MPEG-4标准的视频编码器将利用MPEG-2传送层 系统。因此,本发明的技术适用于符合MPEG-2、MPEG-4、ITU-T H.263、ITU-T  H.264/MPEG-4或利用MPEG-2传送流和/或节目流的任何其它视频编码标准的视频编码 器。

特定来说,本发明的技术可用以修改用于MPEG-2传送流和节目流的传送层处的语 法元素。举例来说,本发明的技术包括在传送流中发射以特定地识别在传送流中发送的 多视角视频数据的每一视角的描述符。举例来说,服务器装置可提供各种服务,所述服 务中的每一者包含多视角视频译码视频数据的特定视角的相应子集,其中可基于由客户 端装置执行的应用程序、由客户端装置执行的解码器的能力、由客户端装置表达的偏好 或其它选择标准来选择服务的视角子集。

根据本发明的技术,服务器装置可提供具有不连续视角次序索引的视角的子集。在 一个实例中,服务器装置在可包括于节目映射表(PMT)或节目流映射(PSM)中的 MVC扩展描述符中特定地信令将包括于传送流中的所述视角中的每一者。

在一些实例中,服务器装置可在单一传送流或节目流中发送多个子位流。通过使得 位流的视角能够为不连续的,本发明的技术还使对应于每一子位流的视角的视角次序索 引能够为不连续的。虽然这些技术使得每一子位流中的视角次序索引能够为不连续的, 但是仍需要视角次序索引在子位流中递增,以便符合现有位流标准(例如,MPEG-2系 统标准)。然而,因为第一子位流和第二子位流的视角可各自为不连续的,所以所述视 角相对于视角次序索引来说可能无序地到达客户端装置。本发明的技术还使得客户端装 置能够处理此种传送流以有效地重新定序第一子位流和第二子位流的视角,使得所述视 角的视角次序索引递增。具有不连续视角次序索引的视角组合可用于实现视角可调能 力,其对于带宽调适、解码器效率可能有用并提供其它此类优点。举例来说,与将需要 将所有视角发送到客户端装置且客户端装置解码具有连续视角次序索引的每一视角的 常规技术相比,本发明的技术使得能够仅发送客户端装置特别需要的那些视角,即使在 此导致具有不连续视角次序索引的视角时也如此。以此方式,客户端装置可仅接收特定 服务所需的那些视角,而非具有介入视角次序索引的所有视角。

虽然在各个部分中本发明可个别地提及“传送流”或“节目流”,但应理解,本发 明的技术大体来说适用于MPEG-2传送流和节目流中的任一者或两者。大体上,本发明 描述用于执行本发明的技术的实例描述符。描述符用以扩展流的功能性。本发明的描述 符可由传送流与节目流两者使用以实施本发明的技术。

本发明还使用以下术语,且提议将这些术语连同如所指示的术语的语义一起包括于 当前MPEG-2系统标准的修订版中:

·AVC视频子位流:MVC位流的基本视角。

·MVC的AVC视频子位流:舍弃前置NAL单元的MVC位流的基本视角。

·MVC基本视角子位流:MVC的AVC视频子流或AVC视频子位流。

·MVC视角分量子集:一个视角分量的NAL单元。

·MVC view_id子集:一个视角的NAL单元。

·MVC视频子位流:非基本视角的NAL单元。

图1为说明其中音频/视频(A/V)源装置20将音频和视频数据传送到A/V目的地 装置40的实例系统10的框图。图1的系统10可对应于视频电传会议系统、服务器/客 户端系统、广播装置/接收器系统,或将视频数据从源装置(例如,A/V源装置20)发 送到目的地装置(例如,A/V目的地装置40)的任何其它系统。在一些实例中,A/V源 装置20和A/V目的地装置40可执行双向信息交换。即,A/V源装置20和A/V目的地 装置40可能能够编码与解码(以及发射和接收)音频和视频数据。在一些实例中,音 频编码器26可包含语音编码器,也称为声码器。

在图1的实例中,A/V源装置20包含音频源22和视频源24。音频源22可包含(例 如)麦克风,其产生表示待由音频编码器26编码的所俘获音频数据的电信号。或者, 音频源22可包含存储先前记录的音频数据的存储媒体、例如计算机化合成器等音频数 据产生器,或任何其它音频数据源。视频源24可包含产生待由视频编码器28编码的视 频数据的视频相机、编码有先前记录的视频数据的存储媒体、视频数据产生单元或任何 其它视频数据源。原始音频和视频数据可包含模拟或数字数据。模拟数据可在由音频编 码器26和/或视频编码器28编码之前经数字化。音频源22可在发言参与者发言的同时 从所述发言参与者获得音频数据,且视频源24可同时获得发言参与者的视频数据。在 其它实例中,音频源22可包含包括所存储的音频数据的计算机可读存储媒体,且视频 源24可包含包括所存储的视频数据的计算机可读存储媒体。以此方式,本发明中所描 述的技术可应用于直播串流实时音频和视频数据或应用于归档的预先记录的音频和视 频数据。

对应于视频帧的音频帧通常为含有与由视频源24俘获的含于视频帧中的视频数据 同时由音频源22俘获的音频数据的音频帧。举例来说,在发言参与者通常通过发言而 产生音频数据的同时,音频源22俘获音频数据,且视频源24同时(即,在音频源22 正俘获音频数据的同时)俘获发言参与者的视频数据。因此,音频帧可在时间上对应于 一个或一个以上特定视频帧。因此,对应于视频帧的音频帧通常对应于其中音频数据和 视频数据被同时俘获且音频帧和视频帧分别包含同时被俘获的音频数据和视频数据的 情境。

在一些实例中,音频编码器26可在每一经编码音频帧中编码时间戳,所述时间戳 表示记录经编码音频帧的音频数据的时间,且类似地,视频编码器28可在每一经编码 视频帧中编码时间戳,所述时间戳表示记录经编码视频帧的视频数据的时间。在此类实 例中,对应于视频帧的音频帧可包含包括时间戳的音频帧和包含相同时间戳的视频帧。 A/V源装置20可包括内部时钟,音频编码器26和/或视频编码器28可从所述内部时钟 产生时间戳,或音频源22和视频源24可使用所述内部时钟来分别使音频数据和视频数 据与时间戳相关联。在一些实例中,音频源22可对应于记录音频数据的时间而将数据 发送到音频编码器26,且视频源24可对应于记录视频数据的时间而将数据发送到视频 编码器28。在一些实例中,音频编码器26可在经编码音频数据中编码序列识别符以指 示经编码音频数据的相对时间定序,而无需指示记录音频数据的绝对时间,且类似地, 视频编码器28也可使用序列识别符来指示经编码视频数据的相对时间定序。类似地, 在一些实例中,序列识别符可与时间戳映射或以其它方式与所述时间戳相关。

本发明的技术大体来说针对经编码多媒体(例如,音频和视频)数据的传送,以及 所传送多媒体数据的接收和随后解译以及解码。本发明的技术尤其适用于多视角视频译 码(MVC)数据(即,包含多个视角的视频数据)的传送。如图1的实例中所示,视频 源24可将场景的多个视角提供到视频编码器28。MVC对于产生将由三维显示器(例如, 立体或自动立体三维显示器)使用的三维视频数据可为有用的。

A/V源装置20可将“服务”提供到A/V目的地装置40。服务通常对应于MVC数 据的可用视角的子集。举例来说,MVC数据可用于定序为零到七的八个视角。一个服 务可对应于具有两个视角的立体视频,而另一服务可对应于四个视角,且又一服务可对 应于全部八个视角。大体上,一服务对应于可用视角的任何组合(即,任何子集)。一 服务还可对应于可用视角以及音频数据的组合。

根据本发明的技术,A/V源装置20能够提供对应于包括不连续视角次序索引的视 角的子集的服务。通常,视角由视角识别符(也称为“view_id”)表示。视角识别符通 常包含可用以识别视角的语法元素。当编码视角时,MVC编码器提供所述视角的 view_id。view_id可由MVC解码器使用以用于视角间预测或由其它单元使用以用于其 它用途(例如,用于呈现)。

视角间预测是一种用于参考在共同时间位置处的一个或一个以上帧将帧的MVC视 频数据译码为不同视角的经编码帧的技术。图6(下文较详细论述)提供用于视角间预 测的实例译码方案。通常,在空间上、在时间上和/或参考在共同时间位置处的其它视角 的帧来预测性地编码MVC视频数据的经编码帧。因此,参考视角(从其预测其它视角) 通常在参考视角充当其参考的视角之前被解码,以使得这些经解码的视角可在解码参考 视角时用于参考。解码次序无需对应于view_id的次序。因此,使用视角次序索引描述 视角的解码次序。视角次序索引为指示接入单元中的相应视角分量的解码次序的索引。

每一个别数据流(无论是音频还是视频)被称为基本流。基本流为节目的单一经数 字译码(可能经压缩)的分量。举例来说,节目的经译码视频或音频部分可为基本流。 基本流可在经多路复用成节目流或传送流之前转换成包化基本流(PES)。在同一节目内, 流ID用以区分属于一个基本流的PES包与其它包。基本流的数据的基本单位为包化基 本流(PES)包。因而,MVC视频数据的每一视角对应于相应基本流。类似地,音频数 据对应于相应基本流。在图1的实例中,多路复用器30接收包含来自视频编码器28的 视频数据的基本流和包含来自音频编码器26的音频数据的基本流。在一些实例中,视 频编码器28和音频编码器26可各自包括用于由经编码数据形成PES包的包化器。在其 它实例中,视频编码器28和音频编码器26可各自与用于由经编码数据形成PES包的相 应包化器介接。在另外其它实例中,多路复用器30可包括用于由经编码音频和视频数 据形成PES包的包化器。

如本发明中所使用,“节目”可包含音频数据与视频数据(例如,由A/V源装置20 的服务传递的音频基本流与可用视角的子集)的组合。每一PES包包括识别PES包所 属的基本流的stream_id。多路复用器30负责将基本流组合成构成性节目流或传送流。 节目流和传送流为以不同应用程序为目标的两个交替多路复用流。

通常,节目流由一个节目的数据组成,而传送流可包含一个或一个以上节目的数据。 多路复用器30可基于所提供的服务、流将传递到的媒体、待发送的节目的数目或其它 考虑因素来编码节目流或传送流中的一者或两者。举例来说,当待于存储媒体中编码视 频数据时,多路复用器30可能更可能形成节目流,而当待经由网络、广播来串流或作 为视频电话的一部分而发送视频数据时,多路复用器30可能更可能使用传送流。

多路复用器30倾向于使用节目流来存储和显示来自数字存储服务的单一节目。节 目流希望用于无错误环境或对遭遇错误较不敏感的环境,因为节目流对错误相当敏感。 节目流仅包含属于其的基本流,且通常含有具有可变长度包的包。在节目流中,从组成 性基本流导出的PES包经组织成“封装(pack)”。封装包含封装标头、可选系统标头和 以任何次序从组成性基本流中的任一者取得的任何数目的PES包。系统标头含有节目流 的特性的概述,例如节目流的最大数据速率、组成性视频和音频基本流的数目、进一步 的定时信息,或其它信息。解码器可使用系统标头中含有的信息来确定解码器是否能够 解码节目流。

多路复用器30可使用传送流来用于在可能易出错的信道上同时传递多个节目。传 送流为针对多节目应用(例如,广播)而设计的多路复用流,使得单一传送流可容纳许 多独立节目。传送流包含一连串传送包,所述传送包中的每一者为188字节长。短的固 定长度包的使用意味着传送流比节目流较不容易出错。此外,可通过经由标准错误保护 过程(例如,里德-所罗门(Reed-Solomon)编码)来处理包而向每一188字节长的传送 包给出额外错误保护。举例来说,传送流的改进的错误恢复意味着其具有较好机会存活 于广播环境中发现的易出错信道中。

可能看起来传送流由于其增加的错误恢复和同时载运许多节目的能力而明显地为 两个多路复用流中的较好者。然而,传送流为比节目流更复杂的多路复用流,且因此更 难以建立和多路分用。传送包的第一字节为具有值0x47(十六进制47,二进制 “01000111”、十进制71)的同步字节。单一传送流可载运许多不同节目,每一节目包含 许多包化基本流。多路复用器30可使用13位包识别符(PID)字段来区分含有一个基 本流的数据的传送包与载运其它基本流的数据的传送包。多路复用器负责确保每一基本 流被授予唯一PID值。传送包的最末字节为连续性计数字段。多路复用器30使属于同 一基本流的连续传送包之间的连续性计数字段的值递增。此使得解码器或目的地装置 (例如,A/V目的地装置40)的其它单元能够检测传送包的损失或增益且有希望消除原 本可能从此事件产生的错误。

多路复用器30从音频编码器26和视频编码器28接收节目的基本流的PES包,且 由PES包形成相应网络抽象层(NAL)单元。在H.264/AVC(高级视频译码)的实例中, 经译码的视频区段被组织成NAL单元,其提供“网络友好”视频表示寻址应用,例如 视频电话、存储、广播或串流。NAL单元可经分类成视频译码层(VCL)NAL单元和 非VCL NAL单元。VCL单元含有核心压缩引擎且可包含块、宏块和/或片段级。其它 NAL单元为非VCL NAL单元。

多路复用器30可形成包含识别NAL所属的节目的标头以及有效负载(例如,音频 数据、视频数据或描述NAL单元所对应的传送流或节目流的数据)的NAL单元。举例 来说,在H.264/AVC中,NAL单元包括1字节标头和具有变化的大小的有效负载。在 一个实例中,NAL单元标头包含priority_id元素、temporal_id元素、anchor_pic_flag元 素、view_id元素、non_idr_flag元素,和inter_view_flag元素。在常规MVC中,保留 由H.264定义的NAL单元,前置NAL单元和MVC译码的片段NAL单元(其包括4 字节MVC NAL单元标头和NAL单元有效负载)除外。

NAL标头的priority_id元素可用于简单单程位流调适过程。temporal_id元素可用于 指定相应NAL单元的时间层,其中不同时间层对应于不同帧速率。anchor_pic_flag元素 可指示图片为锚定图片还是非锚定图片。

锚定图片和以输出次序(即,显示次序)继其之后的所有图片可在不以解码次序(即, 位流次序)解码先前图片的情况下被正确地解码,且因而可用作随机接入点。锚定图片 与非锚定图片可具有不同的相依性,两者均在序列参数集合中以信号通知。将在本章的 以下部分中论述并使用其它旗标。此锚定图片也可称为开放GOP(图片群组)接入点, 而在non_idr_flag元素等于零时也支持封闭GOP接入点。non_idr_flag元素指示图片为 瞬时解码器再新(IDR)图片还是视角IDR(V-IDR)图片。通常,IDR图片和以输出次 序或位流次序继其之后的所有图片可在不以解码次序或显示次序解码先前图片的情况 下被正确地解码。

view_id元素包含可用以识别视角的语法信息,其可用于MVC解码器内部的数据交 互(例如,用于视角间预测)和解码器外部的数据交互(例如,用于呈现)。inter_view_flag 元素可指定相应NAL单元是否被其它视角用于视角间预测。为传达基本视角的4字节 NAL单元标头信息(其可符合AVC),在MVC中定义前置NAL单元。在MVC的情形 下,基本视角接入单元包括视角的当前时间例项的VCL NAL单元以及其前置NAL单元, 所述前置NAL单元仅含有NAL单元标头。H.264/AVC解码器可忽略前置NAL单元。

有效负载中包括视频数据的NAL单元可包含各种粒度级的视频数据。举例来说, NAL单元可包含视频数据的块、宏块、多个宏块、视频数据的片段,或视频数据的整个 帧。多路复用器30可从视频编码器28接收呈基本流的PES包的形式的经译码的视频数 据。多路复用器30可通过将stream_id映射到相应节目(例如,在数据库或其它数据结 构(例如节目映射表(PMT)或节目流映射(PSM))中)而使每一基本流与相应节目 相关联。

多路复用器30还可从多个NAL单元组合接入单元。通常,接入单元可包含一个或 一个以上NAL单元,其用于表示视频数据的帧以及音频数据可用时对应于所述帧的此 音频数据。在对应于H.264/AVC的实例中,接入单元可包含在一个时间例项中的经译码 的图片,其可作为主译码图片呈现。因此,接入单元可包含共同时间例项中的所有音频 和视频帧,例如,对应于时间X的所有视角。本发明还将特定视角的经编码图片称为“视 角分量”。即,视角分量包含特定视角在特定时间的经编码图片(或帧)。因此,接入单 元可定义为包含共同时间例项的所有视角分量。

多路复用器30还可将关于节目的数据嵌入在NAL单元中。举例来说,多路复用器 30可建立包含节目映射表(PMT)或节目流映射(PSM)的NAL单元。通常,PMT用 以描述传送流,而PSM用以描述节目流。如下文关于图2的实例较详细地描述,多路 复用器30可包含使从音频编码器26和视频编码器28接收的基本流与节目且因此与相 应传送流和/或节目流相关联的数据存储单元或与所述数据存储单元交互。

MPEG-2系统标准允许通过“描述符”而扩展系统。PMT与PSM均包括描述符循 环,一个或一个以上描述符可插入在所述描述符循环中。通常,描述符包含可用以扩展 节目和/或节目元素的定义的结构。本发明描述用于执行本发明的技术的两个描述符: MVC扩展描述符和分级结构描述符。大体上,本发明的MVC扩展描述符通过特定地识 别嵌入在节目流或传送流中的视角的视角次序索引来增强常规MVC扩展描述符,而本 发明的分级结构描述符包括指示相关联节目元素是否增加由分级结构描述符的元素参 考的节目元素所产生的位流的视角的数目的旗标。

例如ITU-T H.261、H.263、MPEG-1、MPEG-2和H.264/MPEG-4第10部分等视频 压缩标准利用运动补偿时间预测来减少时间冗余。编码器使用根据一些先前编码的图片 (本文中也称为帧)的运动补偿预测来根据运动向量预测当前译码的图片。典型的视频 译码中存在三种主要图片类型。其为帧内译码图片(“I图片”或“I帧”)、预测的图片 (“P图片”或“P帧”)和双向预测图片(“B图片”或“B帧”)。P图片按时间次序仅使 用在当前图片之前的参考图片。在B图片中,B图片的每一块可从一个或两个参考图片 而加以预测。这些参考图片可按时间次序位于当前图片之前或之后。

根据H.264译码标准,作为一实例,B图片使用先前译码的参考图片的两个列表(列 表0和列表1)。这两个列表可各自含有按时间次序的过去和/或未来的译码图片。B图 片中的块可以以下若干方式中的一者来预测:根据列表0参考图片的运动补偿预测、根 据列表1参考图片的运动补偿预测或根据列表0与列表1参考图片两者的组合的运动补 偿预测。为得到列表0与列表1参考图片两者的组合,分别从列表0和列表1参考图片 获得两个运动补偿参考区域。其组合将用以预测当前块。

ITU-T H.264标准支持各种块大小(例如用于明度分量的16乘16、8乘8或4乘4 和用于色度分量的8×8)的帧内预测,以及各种块大小(例如用于明度分量的16×16、 16×8、8×16、8×8、8×4、4×8和4×4以及用于色度分量的相应按比例调整的大小)的帧 间预测。在本发明中,“×”与“乘”可互换地使用以指代根据垂直尺寸和水平尺寸的块 的像素尺寸,例如16×16像素或16乘16像素。通常,16×16块将具有垂直方向上的16 个像素(y=16)和水平方向上的16个像素(x=16)。同样,N×N块通常具有垂直方 向中的N个像素和水平方向中的N个像素,其中N表示非负整数值。块中的像素可布 置成行和列。

小于16乘16的块大小可称为16乘16宏块的分割。视频块可包含在像素域中的像 素数据的块,或在变换域中的变换系数的块(例如,在将例如离散余弦变换(DCT)、 整数变换、小波变换或概念上类似的变换等变换应用于表示经译码视频块与预测性视频 块之间的像素差的残余视频块数据之后)。在一些状况下,视频块可包含变换域中的量 化变换系数的块。

较小视频块可提供较好分辨率,且可用于定位包括高阶细节的视频帧。通常,可将 宏块和各种分割(有时称为子块)认为是视频块。另外,片段可被认为是多个视频块, 例如宏块和/或子块。每一片段可为视频帧的可独立解码单元。或者,帧自身可为可解码 单元,或帧的其它部分可经定义为可解码单元。术语“经译码单元”或“译码单元”可 指代视频帧的任何可独立解码单元,例如整个帧、帧的片段、也称为序列的图片群组 (GOP)或根据可适用译码技术定义的另一可独立解码单元。

术语宏块指代用于根据包含16×16像素的二维像素阵列编码图片和/或视频数据的 数据结构。每一像素包含色度分量和照度分量。因此,宏块可界定四个照度块(每一照 度块包含8×8像素的二维阵列)、两个色度块(每一色度块包含16×16像素的二维阵列) 和包含语法信息(例如经译码块型样(CBP)、编码模式(例如,帧内(I)或帧间(P 或B)编码模式)、帧内编码块的分割的分割大小(例如,16×16、16×8、8×16、8×8、8×4、 4×8或4×4),或帧间编码的宏块的一个或一个以上运动向量)的标头。

视频编码器28、视频解码器48、音频编码器26、音频解码器46、多路复用器30 和多路分用器38各自可实施为多种合适的编码器或解码器电路中的任一者(如果适用), 例如,一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现 场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件,或其任何组合。视频编 码器28和视频解码器48中的每一者可包括于一个或一个以上编码器或解码器中,所述 一个或一个以上编码器或解码器中的任一者可集成为组合的视频编码器/解码器 (CODEC)的一部分。同样,音频编码器26和音频解码器46中的每一者可包括于一个 或一个以上编码器或解码器中,所述一个或一个以上编码器或解码器中的任一者可集成 为组合的音频编码器/解码器(CODEC)的一部分。包括视频编码器28、视频解码器48、 音频编码器26、音频解码器46、多路复用器30和/或多路分用器38的设备可包含集成 电路、微处理器和/或无线通信装置(例如蜂窝式电话)。

本发明的技术可提供某些优于用于MVC子位流的常规技术的优点,常规技术不能 支持信令一些操作点的特性。不同于常规技术,本发明的MVC扩展描述符的语法元素 和语义使得能实现不连续视角次序索引值,因而使得有可能支持符合MVC且具有不连 续视角次序索引值的位流或子位流。本发明还提议用于信令视角增强的分级结构描述 符,其使得解码器能够确定MVC子位流依赖于其它视角来进行成功解码。

为提供对特性信令的较好支持,视角次序索引值(如所提议的MVC扩展描述符中 所信令)可视情况为不连续的。此外,可在MVC扩展描述符中信令视角次序索引值或 view_id值。

作为替代方案,可使用视角次序索引重新映射机制,其中在符合MVC的子位流被 多路复用之前通过修改有效的常规序列参数集合(SPS)MVC扩展中所定义的视角次序 而将此MVC子位流的视角的视角次序索引值映射成连续视角次序索引值。在此机制中, 常规MVC扩展描述符用于信令视角ID(而非视角次序索引),且因而编码器可经重新 配置以将视角编码为具有不同视角ID,而解码器可经重新配置以根据重新配置的编码次 序以不同方式解译常规MVC扩展描述符。举例来说,假定存在分别具有视角次序索引 0、1和2的具有view_id 0、1和2的三个视角。进一步假定服务仅需要视角0和视角2。 编码器可按对应于视角ID 0、2、1的次序编码所述视角,使得常规SPS MVC扩展描述 符可用于信令具有0、2、1次序的view_id值。以此方式,视角2可具有为1的视角次 序索引,使得视角0和视角2的组合具有连续视角次序索引。

另外,为避免在MVC的AVC视频子位流存在时前置NAL单元的重复,本发明提 议应定义前置MVC子位流,且在一些实例中,当存在至少一个MVC子位流时包括此 前置MVC子位流。此外,本发明提议可使属于基本视角的MVC特定SEI消息(即, 在AVC规范的附录H中定义的SEI消息)或应用于MVC位流的所有视角的MVC SEI 消息在此“前置MVC子位流”内相关联以使得能在存储大小或带宽优化方面实现有效 存储和传送。本发明还提议可将相同概念应用于在MPEG-2系统上传送可缩放视频, MPEG-2系统也称为信息技术的修正版3-动画和相关联音频信息的一般译码系统(本发 明中称为“MPEG-2系统”或“MPEG-2系统标准”)。

在多路复用器30已从所接收的数据组合NAL单元和/或接入单元后,多路复用器 30将所述单元传递到输出接口32以用于输出。输出接口32可包含(例如)发射器、收 发器、用于将数据写入到计算机可读媒体的装置,例如,光学驱动器、磁性媒体驱动器 (例如,软盘驱动器)、通用串行总线(USB)端口、网络接口或其它输出接口。输出接 口32将NAL单元或接入单元输出到计算机可读媒体34,例如,发射信号、磁性媒体、 光学媒体、存储器、快闪驱动器或其它计算机可读媒体。

最后,输入接口36从计算机可读媒体34检索数据。输入接口36可包含(例如) 光学驱动器、磁性媒体驱动器、USB端口、接收器、收发器或其它计算机可读媒体接口。 输入接口36可将NAL单元或接入单元提供到多路分用器38。多路分用器38可将传送 流或节目流多路分用成构成性PES流,将PES流解包化以检索经编码的数据,并视经 编码的数据为音频流的一部分还是视频流的一部分(例如,如流的PES包标头所指示) 而将经编码数据发送到音频解码器46或视频解码器48。音频解码器46解码经编码的音 频数据且将经解码的音频数据发送到音频输出42,而视频解码器48解码经编码的视频 数据且将经解码的视频数据(其可包括流的多个视角)发送到视频输出44。视频输出 44可包含使用场景的多个视角的显示器,例如,同时呈现场景的每一视角的立体或自动 立体显示器。

另外,例如,当嵌入子位流的至少一个视角具有拥有小于主要子位流(其中嵌入有 所述嵌入的子位流)的视角的视角次序索引的视角次序索引的视角时,多路分用器38 可再定序一个或一个以上子位流的视角,使得流的视角次序索引具有严格递增的次序。 以此方式,A/V目的地装置40可对应于包含从所接收的位流产生符合MVC标准的位流 的多路分用器的设备。

图2为说明多路复用器30(图1)的组件的实例布置的框图。在图2的实例中,多 路复用器30包括流管理单元60、视频输入接口80、音频输入接口82、多路复用流输出 接口84和节目特定信息表88。流管理单元60包括NAL单元构造器62、PMT构造器 64、流识别符(流ID)查找单元66和节目识别符(PID)指派单元68。

在图2的实例中,视频输入接口80和音频输入接口82包括用于由经编码的视频数 据和经编码的音频数据形成PES单元的相应包化器。在其它实例中,视频包化器和/或 音频包化器可存在于多路复用器30外部。关于图2的实例,视频输入接口80可由从视 频编码器28所接收的经编码的视频数据形成PES包,且音频输入接口82可由从音频编 码器26所接收的经编码的音频数据形成PES包。

流管理单元60从视频输入接口80和音频输入接口82接收PES包。每一PES包包 括识别PES包所属的基本流的流ID。流ID查找单元66可通过查询节目特定信息表88 而确定PES包对应的节目。即,流ID查找单元66可确定所接收的PES包对应于哪一 节目。每一节目可包含多个基本流,而通常,一个基本流对应于仅一个节目。然而,在 一些实例中,基本流可包括于多个节目中。每一PES包可包括于从多路复用器30输出 的多个流中,因为各种服务可能各自包括可用音频和视频流的各种子集。因此,流ID 查找单元66可确定PES包是否应包括于一个或一个以上输出流(例如,一个或一个以 上传送流或节目流)中,且特定来说确定哪一输出流中应包括所述PES包。

在一个实例中,每一基本流对应于一节目。多路复用器30可负责确保每一基本流 与特定节目(且因此,与节目ID(PID))相关联。当接收到包括多路复用器30不可辨 识的流ID(例如,未存储于节目特定信息表88中的流ID)的PES包时,PID指派单元 68在节目特定信息表88中建立一个或一个以上新条目以使新流ID与未使用的PID相 关联。

在确定PES包对应的节目后,NAL单元构造器62(例如)通过封装具有NAL单元 标头(包括PES包的流ID对应的节目的PID)的PES包而形成包含PES包的NAL单 元。在一些实例中,NAL单元构造器62或流管理单元60的另一子单元可形成包含多个 NAL单元的接入单元。

PMT构造器64使用来自节目特定信息表88的信息而针对多路复用器30的相应输 出流建立节目映射表(PMT)。在另一实例中,流管理单元60可包含用于针对由多路复 用器30输出的节目流建立节目流映射的PSM构造器。在一些实例中,多路复用器30 可包含PMT构造器64与PSM构造器两者,且输出传送流和节目流中的任一者或两者。 在图2的实例中,PMT构造器64可构造包括由本发明指定的描述符(例如,MVC增强 描述符和分级结构描述符)以及任何其它必要描述符的PMT和所述PMT的PMT数据。 PMT构造器64可周期性地(例如,在某一时间周期后或在已发射某一数据量后)发送 用于传送流的随后PMT。PMT构造器64可将所建立的PMT传递到NAL单元构造器62 以用于(例如)通过封装具有相应NAL单元标头(包括相应PID)的PMT而形成包含 PMT的NAL单元。

多路复用流输出接口84可从流管理单元60接收一个或一个以上NAL单元和/或接 入单元,例如,包含PES包(例如,音频或视频数据)的NAL单元和/或包含PMT的 NAL单元。在一些实例中,多路复用流输出接口84可在从流管理单元60接收到NAL 单元后由对应于共同时间位置的一个或一个以上NAL单元形成接入单元。多路复用流 输出接口84将NAL单元或接入单元作为相应传送流或节目流中的输出而发射。

图3为说明节目特定信息表88的实例集合的框图。可基于传送包的PID值来确定 所述传送包所属的基本流。为了使解码器正确地解码所接收数据,解码器需要能够确定 哪些基本流属于每一节目。如包括于节目特定信息表88中的节目特定信息可明确地指 定节目与组成性基本流(component elementary stream)之间的关系。在图3的实例中, 节目特定信息表88包括网络信息表100、条件接入表102、节目接入表104和节目映射 表106。对于图3的实例,假定输出流包含MPEG-2传送流。在替代实例中,输出流可 包含节目流,在所述状况下,节目映射表106可以节目流映射来替代。

MPEG-2系统规范指定传送流中所载运的每一节目具有与其相关联的节目映射表 (例如,节目映射表106)。节目映射表106可包括关于节目和节目包括的基本流的细节。 作为一个实例,节目(识别为节目编号3)可含有具有PID 33的视频基本流、具有PID  57的英语音频流和具有PID 60的中文音频流。准许PMT包括一个以上节目。

由MPEG-2系统规范所指定的基本节目映射表可以MPEG-2系统规范中所指定的许 多描述符中的一些(例如,描述符108)来修饰。描述符108可包括MPEG-2系统规范 所指定的描述符中的任一者或全部。通常,描述符(例如,描述符108)传达关于节目 或其组成性基本流的更多信息。描述符可包括视频编码参数、音频编码参数、语言识别、 摇摄和扫描信息、条件接入细节、版权信息或其它此类信息。广播员或其它用户可定义 额外私用描述符。

根据一个实施例,可使用两个描述符,以便允许在输出流(例如,传送流或节目流) 中载运不连续的视角次序索引。如图2中所示,本发明的两个描述符包括MVC扩展描 述符110和分级结构描述符112。在视频相关的组成性基本流中,还存在分级结构描述 符,其提供用以识别含有经分层编码的视频、音频和私用流的分量的节目元素的信息。

在多路复用器30的输出包含节目流的实例中,节目特定信息表88可包括节目流映 射(PSM)。PSM可提供对相应节目流中的基本流和基本流彼此间的关系的描述。在一 些实例中,节目流映射还可对应于传送流。当载运于相应传送流中时,PSM结构不应修 改。多路复用器30可通过将PES包的stream_id值设定为0xBC(即,十六进制值BC, 其对应于二进制值10111100或十进制值188)而指示PSM存在于PES包中。

多路复用器30将可用于传送流中的所有节目的完整列表保存于节目关联表104中。 多路复用器30还可将节目关联表嵌入于NAL单元中。多路复用器30可通过向NAL单 元指派为0的PID值而指示NAL单元包括节目关联表。多路复用器30可将每一节目连 同含有相应节目映射表的传送包的PID值一起列于节目关联表104中。使用上文提及的 同一实例,指定节目编号3的基本流的实例节目映射表具有为1001的PID,且另一PMT 具有为1002的另一PID。此信息集合可包括于节目关联表104中。

网络信息表(NIT)和条件接入表(CAT):PAT中指定的节目编号零具有特殊含义。 特定来说,节目编号零用以指出到网络信息表的路径。所述表为任选的且当存在时,其 希望提供关于载运传送流的物理网络的信息,例如,信道频率、卫星转频器细节、调制 特性、服务发源站、可用替代网络的服务名称和细节。

如果扰乱传送流中的任何基本流,那么条件接入表必须存在。所述表提供使用中的 扰乱系统的细节且提供含有条件接入管理和权益信息的传送包的PID值。此信息的格式 未在MPEG-2中指定。

图4为说明可包括于MVC扩展描述符110中的数据的实例集合的框图。在图4的 实例中,MVC扩展描述符110包括描述符标志字段120、描述符长度字段122、平均位 速率字段124、最大位速率字段126、保留字段128、时间识别符(ID)起始字段130、 时间ID结束字段132、无补充增强信息(SEI)NAL单元存在字段134、一个或一个以 上视角次序索引字段136和一个或一个以上保留拖尾位字段138。MVC扩展描述符110 还指定操作点,其对应于MVC子位流。下文中MVC扩展描述符110的字段的位深度 对应于MVC扩展描述符的一个实例。其它实例可包括其它位深度、值或范围以个别地 信令包括于相应位流或子位流中的每一视角的每一视角次序索引。

描述符标志字段120对应于包括于每一描述符中的八位描述符标志字段(如 MPEG-2系统标准所阐述)以特定地识别描述符。MPEG-2系统标准定义特定描述符标 志且将其它描述符标志值(例如,值36到63)标记为“保留”。本发明的技术提议将 MVC扩展描述符110的描述符标志字段120的值设定为“49”,其对应于如MPEG-2系 统规范中所指定的保留描述符标志中的一者。

描述符长度字段122对应于也包括于每一描述符中的八位描述符长度字段,如 MPEG-2系统标准所阐述。多路复用器30可将描述符长度字段122的值设定为等于紧随 描述符长度字段122之后的MVC扩展描述符110的字节的数目。因为MVC扩展描述 符110可包含可变长度(例如,基于包括于MVC扩展描述符110的特定例项中的视角 次序索引136的数目),所以多路复用器30计算MVC扩展描述符110的例项的大小并 相应地设定描述符的例项的描述符长度字段122的值。

平均位速率字段124包含指示经重新组合的AVC视频流的平均位速率(以每秒千 位为单位)的16位字段。即,当由MVC扩展描述符110对应的传送流或节目流的构成 部分组合视频流时,平均位速率字段124描述视频流的平均位速率。在一些实例中,多 路复用器30可将平均位速率字段124的值设定为零以指示平均位速率不由MVC扩展描 述符110指示。

最大位速率字段126包含指示经重新组合的AVC视频流的最大位速率(以每秒千 位为单位)的16位字段。即,当由MVC扩展描述符110对应的传送流或节目流的构成 部分组合视频流时,最大位速率字段126描述视频流的最大位速率。在一些实例中,多 路复用器30可将最大位速率字段126的值设定为零以指示最大位速率不由MVC扩展描 述符110指示。

时间ID起始字段130包含指示相关联MVC视频子位流中所含有的所有NAL单元 的NAL单元标头语法元素的temporal_id的最大值的三位字段。即,时间ID值包括于 每一NAL单元的标头中。通常,时间ID值对应于特定帧速率,其中相对较大的时间ID 值对应于较高帧速率。举例来说,时间ID的“0”值可对应于15帧/秒(fps)的帧速率, 时间ID的“1”值可对应于30fps的帧速率。以此方式,在此实例中,将具有为0的时 间ID的所有图片聚集成一集合可用以形成具有15fps的帧速率的视频区段,而将具有 为0的时间ID的所有图片和具有为1的时间ID的所有图片聚集成不同集合可用以形成 具有30fps的帧速率的不同视频区段。多路复用器30确定MVC视频子位流的所有NAL 单元的最小时间ID且将时间ID起始字段130的值设定为等于此确定的最小时间ID值。

时间ID结束字段132包含指示相关联MVC视频子位流中所含有的所有NAL单元 的NAL单元标头语法元素的时间ID的最大值的三位字段。因此,多路复用器30确定 MVC视频子位流的所有NAL单元的最大时间ID,并将时间ID起始字段130的值设定 为等于此确定的最大时间ID值。

无SEI NAL单元存在字段134包含当设定为“1”时指示无补充增强信息NAL单元 存在于相关联视频子位流中的1位旗标。多路复用器30可确定一个或一个以上补充增 强信息NAL单元是否已经置于位流中,且在位流中不存在SEI NAL单元时将无SEI NAL 单元存在字段134的值设定为值“1”,但可在位流中存在至少一个SEI NAL单元时将无 SEI NAL单元存在字段134的值设定为值“0”。

在一个方面中,本发明的技术描述常规MVC扩展描述符的修改以包括一个或一个 以上视角次序索引字段136(使用如下表1中所示的循环来表示)。视角次序索引字段 136中的每一者包含指示相关联MVC视频子位流中所含有的NAL单元的一相应者的视 角次序索引的值的10位字段。多路复用器30可根据包括于MVC视频子位流中的视角 的视角次序索引来设定视角次序索引字段136的值。此外,视角次序索引字段136的值 可以递升次序来信令。以此方式,MVC扩展描述符110可描述包括于MVC视频子位流 中的视角的不连续视角次序索引。

在图4的实例中,MVC扩展描述符110还包含保留拖尾位字段138。本发明描述在 不指定必需如何使用这些值的情况下为未来目的而保留这些位。在各种实例中,保留拖 尾位可表示为MVC扩展描述符110的一个单一连续保留位区段或在多个个别位上的循 环。

下表1描述本发明的MVC扩展描述符110的语法元素。表1还针对每一语法元素 描述用以表示语法元素的位的数目和描述语法元素的类型的助记码。当在经编码的位流 中发射MVC扩展描述符110时,位的数目对应于分配给相应语法元素的位的数目。助 记码用于MPEG-2系统标准中以描述经编码的位流中使用的不同数据类型。本发明中使 用的助记码包括“uimsbf”(MPEG-2系统标准将其定义为具有最高有效位第一的无符号 整数),和“bslbf”(MPEG-2系统标准将其定义为具有左位第一的位串,其中“左”为 MPEG-2系统标准中写入位串的次序)。表1的实例中的语法元素中的每一者对应于上文 关于MVC扩展描述符110所描述的语法元素中的相应者。特定来说,本发明在表1中 提供“for”循环以特定地信令节目流或传送流的每一视角的视角次序索引。以此方式, 表1的MVC扩展描述符中的“for”循环可用于信令相应MPEG-2系统标准位流包含与 第一视角次序索引相关联的场景的第一视角和与第二视角次序索引相关联的所述场景 的第二视角,其中第一视角次序索引和第二视角次序索引为不连续的。

表1-MVC扩展描述符

在另一实例中,可改为个别地信令保留的拖尾位。下表2说明个别地信令保留的拖 尾位中的每一者的实例MVC扩展描述符。

表2-具有个别信令的拖尾位的MVC扩展描述符

图5为说明可包括于分级结构描述符112中的数据的实例集合的框图。在图5的实 例中,分级结构描述符112包括描述符标志字段150、描述符长度字段152、视角增强 旗标字段154、时间可调能力旗标字段156、空间可调能力旗标字段158、质量可调能力 旗标字段160、分级结构类型字段162、保留字段164、分级结构层索引字段166、TREF 存在旗标字段168、保留字段170、分级结构嵌入层索引字段172、保留字段174和分级 结构信道字段176。为改进信令、视角可调能力和/或视角依赖关系,本发明的技术可提 供在分级结构描述符中信令一个旗标,其指示相关联的节目元素是否增加由 hierarchy_embedded_layer_index参考的节目元素引起的位流的视角的数目。

如上文所提及,MPEG-2系统规范指定每一描述符包括描述符标志字段和描述符长 度字段。因此,分级结构描述符112包括描述符标志字段150和描述符长度字段152。 根据MPEG-2系统规范,多路复用器30可将描述符标志字段150的值设定为分级结构 描述符112的值“4”。

分级结构描述符112的长度可先验地确定,因为分级结构描述符112的每一例项应 包括相同量的数据。在一个实例中,参看下表3,多路复用器30可将描述符长度字段 152的值设定为值32,其指示在描述符长度字段152的末端后的分级结构描述符112的 例项中的位的数目。

本发明的技术提议将视角增强旗标字段154添加到常规分级结构描述符。根据本发 明的技术,视角增强旗标字段154可包含当设定为“0”时指示相关联节目元素增加由 分级结构嵌入层索引所参考的节目元素引起的位流的视角的数目的1位旗标。本发明的 技术还提议为视角增强旗标字段154保留值“1”。

分级结构类型字段162描述相关联分级结构与其分级结构嵌入层之间的分级结构关 系。在一个实例中,多路复用器30基于分级结构关系来设定分级结构类型字段162的 值,例如,如下表4所描述。作为一个实例,当可调能力应用于一个以上维度时,多路 复用器30可将分级结构类型字段162设定为值“8”(如表4中所示的“组合的可调能 力”),且多路复用器30根据从相应流的PES包和PES包标头中所检索的数据来设定时 间可调能力旗标字段156、空间可调能力旗标字段158和质量可调能力旗标字段160的 值。通常,多路复用器30可确定对应于各种视角的不同流和/或音频数据流之间的相依 性。多路复用器30还可确定包含增强层的相依流为空间层、信噪比(SNR)增强层、 质量增强层还是另一类型的增强层。

作为另一实例,对于MVC视频子位流,多路复用器30可将分级结构类型字段162 设定为值“9”(如表4中所示的“MVC”),且可将可调能力旗标字段156、空间可调能 力旗标字段158和质量可调能力旗标字段160中的每一者的值设定为“1”。作为又一实 例,对于MVC基本视角子位流,多路复用器30可将分级结构类型字段162的值设定为 值“15”,且可将可调能力旗标字段156、空间可调能力旗标字段158和质量可调能力旗 标字段160的值设定为“1”。作为再一实例,对于前置MVC子位流,多路复用器30可 将分级结构类型字段162的值设定为值“14”,且可将可调能力旗标字段156、空间可调 能力旗标字段158和质量可调能力旗标字段160设定为“1”。

分级结构层索引字段166可包含定义编码层分级结构表中的相关联节目元素的唯一 索引的6位字段。索引在单一节目定义中可为唯一的。对于符合ITU-T Rec. H.264|ISO/IEC 14496-10的附录G中所定义的一个或一个以上简档的AVC视频流的视频 子位流,此为节目元素索引,其以如下方式指派:如果按hierarchy_layer_index的递增 次序重新组合同一接入单元的视频子位流的相关联的SVC相依性表示,那么位流次序 将为正确的。对于符合ITU-T Rec.H.264|ISO/IEC 14496-10的附录H中所定义的一个或 一个以上简档的AVC视频流的MVC视频子位流,此为节目元素索引,其以如下方式指 派:这些值中的任一者大于前置MVC子位流的分级结构描述符中所指定的 hierarchy_layer_index值。

分级结构嵌入层索引字段172可包含定义在解码与分级结构描述符112的相应例项 相关联的基本流前需要接入的节目元素的分级结构层表索引的6位字段。本发明在分级 结构字段162具有值15(即,对应于基本层的值)时不定义分级结构嵌入层索引字段 172的值。

分级结构信道字段176可包含指示发射信道的有序集合中的相关联节目元素的所要 信道数目的6位字段。关于整个发射分级结构定义,由分级结构信道字段176的最低值 来定义最稳健发射信道。注意,可同时将给定分级结构信道指派给若干节目元素。

保留字段164、170和174为未来标准发展的未来使用而保留。本发明的技术此时 不提议将语义含义指派给保留字段164、170和174的值。

时间戳参考(TREF)存在旗标字段168为指示TREF字段是否存在于相应PES包 标头中的1位字段。PES包中的TREF字段为在三个单独字段中编码的33位数字。TREF 字段指示如由DTS(或在没有DTS的情况下,由相应基本流n中的相同的第j个接入单 元的PES标头的PTS)所指示的系统目标解码器中的解码时间值。

下表3描述本发明的分级结构描述符112的语法元素。表3还针对每一语法元素提 供用以表示语法元素的位的数目和描述所述语法元素的类型的助记码。当在经编码的位 流中发射分级结构描述符112时,位的数目对应于分配给相应语法元素的位的数目。在 MPEG-2系统标准中使用助记码以描述用于经编码的位流中的不同数据类型。本发明中 所使用的助记码包括“uimsbf”(MPEG-2系统标准将其定义为具有最高有效位第一的无 符号整数),和“bslbf”(MPEG-2系统标准将其定义为具有左位第一的位串,其中“左” 为在MPEG-2系统标准中写入位串的次序)。表3的实例中的语法元素中的每一者对应 于上文关于分级结构描述符112所描述的语法元素中的相应者。

表3-分级结构描述符

下表4描述分级结构描述符112的分级结构类型字段162的各种可能值,以及每一 值的含义。本发明提议为分级结构类型字段162(其包含作为对相应位流的描述的“前 置MVC子位流”的描述)添加可能值“14”。本发明的技术定义前置MVC子位流以包 含具有等于20的nal_unit_type(即,NAL单元的类型值)的所有前置NAL单元和相关 联的非VCL NAL单元,在以MVC的AVC视频子位流重新组合后,所述相关联的非 VCL NAL单元符合ITU-T Rec.H.264|ISO/IEC 14496-10的附录H中定义的一个或一个 以上简档。本发明的技术还提议,当存在MVC的AVC视频子位流时,前置MVC子位 流也应存在。

表4-分级结构类型字段值

  值  描述   0  保留   1  空间可调能力   2  SNR可调能力   3  时间可调能力   4  数据分割   5  扩展位流   6  私用流   7  多视角简档   8  组合的可调能力   9  MVC视频子位流   10-13  保留   14  前置MVC子位流   15  基本层或MVC基本视角子位流或MVC的AVC视频子位流

在一些实例中,分级结构描述符112可用于信令由递增的子位流和嵌入的子位流信 令的MVC子位流。嵌入子位流包括对应于hierarchy_embedded_layer_index的直接相依 性子位流和此直接相依性子位流的所有嵌入子位流。在本发明中,明确地含有的视角被 称为增强视角,而嵌入的视角被称为相依视角。

图6为说明实例MVC预测图案的概念图。在图6的实例中,说明八个视角(具有 视角ID“S0”到“S7”),且针对每一视角说明12个时间位置(“T0”到“T11”)。即, 图6中的每一行对应于一视角,而每一列指示一时间位置。

虽然MVC具有可由H.264/AVC解码器解码的所谓的基本视角,且MVC也可支持 立体视角对,但MVC的优点在于其可支持使用两个以上视角作为3D视频输入并解码 由多个视角表示的此3D视频的实例。具有MVC解码器的客户端的呈现器(renderer) 可预期具有多个视角的3D视频内容。

使用包括字母的阴影块以图6中的每一行和每一列的指示来指示图6中的帧,所述 阴影块指明相应帧是经帧内译码(即,I帧)还是在一个方向上经帧间译码(即,如P 帧)或在多个方向上经帧间译码(即,如B帧)。通常,预测由箭头指示,其中被指向 的(pointed-to)帧使用始端(point-from)对象用于预测参考。举例来说,根据时间位 置T0处的视角S0的I帧来预测时间位置T0处的视角S2的P帧。

如同单视角视频编码的情况,多视角视频译码视频序列的帧可关于不同时间位置处 的帧来预测性地编码。举例来说,时间位置T1处的视角S0的b帧具有从时间位置T0 处的视角S0的I帧指向其的箭头,从而指示b帧是从I帧而预测。然而,另外,在多视 角视频编码的情形下,帧可经视角间预测。即,视角分量可使用其它视角中的视角分量 用于参考。举例来说,在MVC中,可实现视角间预测,如同在另一视角中的视角分量 为预测间参考。在序列参数集合(SPS)MVC扩展中信令可能的视角问参考,且可通过 参考图片列表构造过程来修改可能的视角问参考,其实现预测间或视角间预测参考的灵 活定序。下表5提供MVC扩展序列参数集合的实例定义。

表5

图6提供视角间预测的各种实例。在图6的实例中,视角S1的帧说明为是从视角 S1的不同时间位置处的帧加以预测,以及从同一时间位置处的视角S0和S2的帧中的 帧而加以视角间预测。举例来说,时间位置T1处的视角S1的b帧是从时间位置T0和 T2处的视角S1的B帧以及时间位置T1处的视角S0和S2的b帧中的每一者加以预测。

在图6的实例中,大写字母“B”和小写字母“b”希望指示帧之间的不同分级结构 层关系,而非不同编码方法。通常,大写字母“B”帧在预测分级结构方面与小写字母 “b”帧相比相对较高。图6还使用不同阴影程度说明预测分级结构的变化,其中较大量 的阴影(即,相对较暗)帧在预测分级结构方面高于具有较少阴影(即,相对较亮)的 帧。举例来说,图6中的所有I帧说明为具有满阴影,而P帧具有稍微较亮的阴影,且 B帧(和小写字母b帧)具有相对于彼此的各种阴影程度,但始终亮于P帧和I帧的阴 影。

通常,预测分级结构与视角次序索引有关,因为在预测分级结构方面相对较高的帧 应在解码在预测分级结构方面相对较低的帧之前解码,使得在预测分级结构方面相对较 高的那些帧可在解码在预测分级结构方面相对较低的帧期间用作参考帧。视角次序索引 为指示接入单元中的视角分量的解码次序的索引。如H.264/AVC的附录H(MVC修正 版)中所指定,SPS MVC扩展中暗含视角次序索引。在SPS中,对于每一索引i,信令 相应view_id。视角分量的解码应遵循视角次序索引的递升次序。如果呈现所有视角, 那么视角次序索引处于从0到num_views_minus_1的连续次序。

以此方式,用作参考帧的帧可在解码根据参考帧编码的帧之前被解码。视角次序索 引为指示接入单元中的视角分量的解码次序的索引。对于每一视角次序索引i,信令相 应view_id。视角分量的解码遵循视角次序索引的递升次序。如果呈现所有视角,那么 视角次序索引的集合包含从0到比视角总数小1的连续定序的集合。

对于处于分级结构的相同级处的某些帧,相对于彼此的解码次序可能并不重要。举 例来说,时间位置T0处的视角S0的I帧用作时间位置T0处的视角S2的P帧的参考帧, 所述P帧又用作时间位置T0处的视角S4的P帧的参考帧。因此,时间位置T0处的视 角S0的I帧应在时间位置T0处的视角S2的P帧之前加以解码,时间位置T0处的视角 S2的P帧应在时间位置T0处的视角S4的P帧之前加以解码。然而,在视角S1与S3 之间,解码次序并不重要,因为视角S1与S3并不依赖于彼此来进行预测,而改为仅从 在预测分级结构方面较高的视角加以预测。此外,视角S1可在视角S4之前加以解码, 只要视角S1在视角S0和S2之后加以解码即可。

以此方式,分级结构定序可用以描述视角S0到S7。假设符号SA>SB意味着视角 SA应在视角SB之前加以解码。在图6的实例中,使用此符号,S0>S2>S4>S6>S7。并 且,关于图6的实例,S0>S1、S2>S1、S2>S3、S4>S3、S4>S5且S6>S5。不违反这些 要求的视角的任何解码次序是可能的。因此,在仅有某些限制的情况下,许多不同解码 次序是可能的。下文呈现两个实例解码次序,但应理解,许多其它解码次序是可能的。 在下表6中所说明的一个实例中,尽快地解码视角。

表6

  视角ID   S0   S1   S2   S3   S4   S5   S6   S7   视角次序索引   0   2   1   4   3   6   5   7

表6的实例认识到视角S1可在已解码视角S0和S2后即刻解码,视角S3可在已解 码视角S2和S4后即刻解码,且视角S5可在已解码视角S4和S6后即刻解码。

下表7提供另一实例解码次序,其中解码次序使得用作另一视角的参考的任一视角 在未用作任何其它视角的参考的视角之前加以解码。

表7

  视角ID   S0   S1   S2   S3   S4   S5   S6   S7   视角次序索引   0   5   1   6   2   7   3   4

表7的实例认识到,视角S1、S3、S5和S7的帧不充当任何其它视角的帧的参考帧, 且因此,视角S1、S3、S5和S7在用作参考帧的那些视角(即,图6的实例中的视角 S0、S2、S4和S6)的帧后加以解码。相对于彼此,视角S1、S3、S5和S7可以任何次 序来解码。因此,在表7的实例中,视角S7在视角S1、S3和S5中的每一者之前加以 解码。

应清楚,可能在每一视角的帧以及每一视角的帧的时间位置之间存在分级结构关 系。关于图6的实例,时间位置T0处的帧是从处于时间位置T0处的其它视角的帧来帧 内预测或视角间预测。类似地,时间位置T8处的帧是从处于时间位置T8处的其它视角 的帧而帧间预测或视角内预测。因此,关于时间分级结构,时间位置T0和T8在时间分 级结构的顶部。

在图6的实例中,时间位置T4处的帧在时间分级结构方面低于时间位置T0和T8 的帧,因为时间位置T4的帧参考时间位置T0和T8的帧而经B译码。时间位置T2和 T6处的帧在时间分级结构方面低于时间位置T4处的帧。最终,时间位置T1、T3、T5 和T7处的帧在时间分级结构方面低于时间位置T2和T6的帧。

在MVC中,可提取完整位流的子集以形成仍符合MVC的子位流。存在特定应用 基于(例如)由服务器提供的服务、一个或一个以上客户端的解码器的容量、支持和能 力和/或一个或一个以上客户端的偏好而可能需要的许多可能的子位流。举例来说,客户 端可能仅需要三个视角,且可能存在两种情形。在一个实例中,一个客户端可能需要平 滑观看体验(smooth viewing experience)且可能更喜欢具有view_id值S0、S1和S2的 视角,而另一其它客户端可能需要视角可调能力且更喜欢具有view_id值S0、S2和S4 的视角。如果最初关于表6的实例而定序view_id,那么在这两个实例中视角次序索引 值分别为{0,1,2}和{0,1,4}。注意,这些子位流均可解码为独立MVC位流且可同 时被支持。

图7为说明用于将具有拥有不连续视角次序索引的视角的子集的MPEG-2系统流从 服务器发送到客户端的实例方法的流程图。举例来说,关于A/V源装置20和A/V目的 地装置40描述图7的方法,但应理解,其它实例可执行图7的方法。在图7的实例中, 可由A/V源装置20执行属于“服务器”的动作,而可由A/V目的地装置40执行由“客 户端”执行的动作。

在图7的实例中,A/V源装置20最初基于由A/V源装置20提供的服务而确定将发 送到A/V目的地装置40的可用视角的子集(200)。如上文所论述,服务通常包含视角 的选择。关于图6的实例,服务可包含视角S0、S2和S4。假定这些视角的视角次序索 引为表6所指定的视角次序索引,作为一实例,视角S0、S2和S4的视角次序索引可包 含视角次序索引0、1和3。出于解释的目的,图7的方法的剩余论述使用这些视角ID 和视角次序索引作为实例。

A/V源装置20接着可基于经确定将作为服务的供应的一部分而发送的视角来准备 一节目映射表(PMT)(202)。特定来说,多路复用器30的PMT构造器64可基于从节 目特定信息表88检索的信息而针对对应于由A/V源装置20提供的服务的一个或一个以 上节目准备PMT。根据本发明的技术,PMT的准备包括产生MVC扩展描述符110和分 级结构描述符112。

为产生MVC扩展描述符110,多路复用器30的PMT构造器64将描述符标志字段 120设定为等于“49”。PMT构造器64根据如由节目特定信息表88存储的节目的节目 特定数据来设定平均位速率字段124、最大位速率字段126、时间ID起始字段130、时 间ID结束字段132和无SEI NAL单元存在字段134的值。PMT构造器64还根据选定 视角的视角次序索引来设定视角次序索引字段136的值。在上文描述的实例中,PMT构 造器64包括表示视角次序索引0、1和3的三个视角次序索引字段值。以此方式,此实 例提供个别地指示节目的视角的每一视角次序索引的MVC扩展描述符。此外,因为跳 过视角次序索引“2”,所以此实例为其中视角次序索引不连续的实例。

为产生分级结构描述符112,PMT构造器64根据节目特定信息表88来设定分级结 构描述符112的字段的值。根据本发明的技术,PMT构造器64还可将视角增强旗标字 段154的值设定为值“0”以指示相关联的节目元素增强由分级结构嵌入层索引字段172 的值参考的节目元素所引起的位流的视角的数目。

在产生PMT后,A/V源装置20可(例如)以NAL单元的形式将PMT发射到A/V 目的地装置40(204)。在一些实例中,A/V源装置20可周期地(例如,在预定时间间 隔之后或在已发送特定数据量之后)将PMT重新发送到A/V目的地装置40。A/V目的 地装置40可将来自PMT的节目信息记录于客户端侧存储媒体中(208),所述客户端侧 存储媒体可基本上为多路复用器30的节目特定信息表88的镜像。举例来说,多路分用 器38可包含类似于多路复用器30的节目特定信息表88的节目特定信息表的集合。在 接收到节目特定信息(例如,所发射的PMT)后,多路分用器38可更新多路分用器38 的节目特定信息表。

多路复用器30可接着接收与由A/V源装置20所提供的服务相关联的一个或一个以 上节目的PES包(210)。多路复用器30可通过对PES包的流ID执行查找来确定PES 包将包括于到A/V目的地装置40的传送流中。当PES包的流ID与将包括于传送流中 的视角匹配时,多路复用器30可(例如)通过封装具有对应于节目的节目ID(PID) 的PES包来由PES包形成NAL单元(212)。多路复用器30还可由多个此类NAL单元 形成接入单元(214),并将所述接入单元发送到A/V目的地装置40(216)。

A/V目的地装置40接着可从A/V源装置20接收接入单元(218),并(例如)通过 参考接入单元的PID而使接入单元与节目相关联(220)。A/V目的地装置40的多路分 用器38可将接入单元多路分用成构成性NAL单元(且因此多路分用成PES包),多路 分用器38可最终将所述PES包传递到音频解码器46和/或视频解码器48。视频解码器 48可解码视角中的每一者且将经解码的视角发送到视频输出44,视频输出44可包含立 体或自动立体视频显示器或需要多个视角的其它显示装置。同样,音频解码器46可解 码音频帧以形成经解码的音频数据且将所述音频数据发送到音频输出42(例如,扬声 器)。以此方式,A/V目的地装置40可解码并显示所接收的数据(222)。

图8为说明用于组合两个或两个以上子位流的视角分量以产生位流使得视角分量具 有递增视角次序索引的实例方法的流程图。所述方法可在不参考相应子位流的视角ID 和视角分量的情况下定序子位流。关于图6的实例,假定传送流(或节目流)的第一子 位流包括视角S0、S2和S4的视角分量,而传送流的第二子位流(对应于第一子位流的 嵌入子位流)包括视角S1和S3的视角分量。本发明也可将嵌入子位流称为“相依子位 流”。同样,本发明可将嵌入有相依子位流的子位流称为主要子位流。因此,图8的第 一子位流可称为主要子位流,而第二子位流可称为嵌入子位流或相依子位流。

假定此实例的视角次序索引如关于表6的实例而界定,第一子位流中的视角分量的 视角次序索引(分别)为0、1和3,而第二子位流的视角次序索引为2和4。因此,在 此实例中,如果在第二子位流的视角分量前完全解码第一位流的视角分量,那么根据视 角次序索引的解码次序将对应于0、1、3、2、4。因为视角次序索引用以描述解码次序, 所以此解码次序将构成对MVC规范的违反。因此,图8的方法可用以根据视角次序索 引重新定序视角分量,使得视角分量的解码次序符合MVC规范。

图8的方法大体来说对应于包括当组合子位流时每一接入单元中的视角分量应遵循 如所有当前子位流及其嵌入子位流中传达的视角次序索引的递增次序的实例方法。本发 明的技术可在不检查NAL单元的NAL单元标头中的view_id语法元素并将其映射到视 角次序索引的情况下对符合MVC的子位流进行可能的组合。图8的方法可用以产生包 含对应于按与符合MVC标准的次序的子位流的view_ID的索引的列表(称为“分级结 构层索引列表”(HLI))。

最初,客户端装置(例如A/V目的地装置40)接收具有两个子位流的视角分量的 接入单元(250)。举例来说,假定第二子位流包含第一子位流的嵌入或相依子位流。关 于两个子位流来描述图8的实例方法。然而,图8的技术还可应用于具有两个以上子位 流的实例。此外,出于举例和解释的目的,关于A/V目的地装置40的多路分用器38描 述图8的方法。然而,应理解,图8的方法可由任何装置、模块、单元,或固件、硬件 和/或软件组件的组合来执行,以用于重新组织两个或两个以上子位流的视角使其符合 MVC标准。

假定根据MVC标准来定序每一子位流的视角分量。因此,多路分用器38确定子位 流的视角分量中的哪一者具有最小视角次序索引(252)。多路分用器38接着可将视角 分量(其可包含一个或一个以上NAL单元)的索引添加到处于下一可用位置处的HLI 列表(254)。在一些实例中,视角分量可包含包括多媒体数据的一个或一个以上NAL 单元以及可用以区分视角分量与另一随后的视角分量的定界符NAL单元。多路分用器 38接着可确定是否保留第一子位流的任何视角分量(256)。

当保留第一子位流的视角分量时(256的“是”分支),多路分用器38可确定是否 也保留第二子位流的视角分量(258)。当第一子位流与第二子位流两者均包括至少一个 视角分量时(258的“是”分支),多路分用器38返回到步骤252以确定视角分量的最 小视角次序索引并将所述最小视角分量的视角索引添加到HLI列表。然而,当仅保留第 一子位流而不保留第二子位流的视角分量时(258的“否”分支),多路分用器38可将 第一子位流的剩余视角分量添加到HLI列表(260)。

另一方面,当无第一子位流的视角分量保留时(256的“否”分支),多路分用器 38可确定是否保留第二子位流的视角分量(262)。当第二子位流具有剩余视角分量时, 多路分用器38可将第二子位流的剩余视角分量添加到HLI列表(264)。

在HLI列表包含按相应视角次序索引的次序的视角ID后(例如,在完成步骤260、 264,或262的“否”分支后),多路分用器38可形成新位流,其包含按根据HLI列表 所确定的次序的子位流。即,对于新位流的接入单元(其中接入单元包含多个视角分量), 在新位流中定序视角分量,使得视角分量中的每一者的视角次序索引大于所有前面的视 角次序索引并小于所有随后的视角次序索引。接着可将此位流转发到(例如)视频解码 器48,以用于解码视角分量,并最终显示视角分量。

以下实例算法提供用于定序子位流以使其符合MVC标准的实例过程。在实例中, 存在对应于当前MVC子位流或嵌入子位流的hierarchy_layer_index(HLIList)值的列表。 如上文所指出,视角分量可包含多个NAL单元。同样,在一些实例中,视角分量可包 含(或继之以)定界符NAL单元以区别每一视角分量与另一视角分量。

组合新位流的过程可界定如下:

1)将相依子位流设定为不具有嵌入子位流的子位流。

2)以hierarchy_layer_index的递升次序。重复地应用以下操作:

1.以等于HLI的hierarchy_layer_index组合符合MVC并在分级结构描述符中描述的 子位流;

2.此过程使下列各项作为输入:

i.明确存在的增强子位流;

ii.相依子位流。注意,其符合MVC,且因而具有以视角次序索引的递增次序置于每 一接入单元中的视角分量;

iii.增强子位流中的视角次序索引的列表;

iv.相依子位流中的视角次序索引的列表;

3.所述过程使下列各项作为输出:

i.新子位流,其具有经组合的所有视角分量且因而符合MVC并形成对应于分级结构 描述符中定义的HLI的完整操作点;

ii.新子位流中的视角次序索引的列表;

4.将步骤3中所产生的新子位流设定为相依子位流;

5.如果HLI为HLIList的列表中的最后一者,那么将相依子位流设定为最终组合的 MVC子位流并终止整个组合过程。

以下算法描述基于如上述实例算法的步骤2中所需的相依子位流和增强子位流而组 合子位流的实例过程:

1.组合过程的输入为两个列表和两个子位流,其每一者已经按视角次序索引的递升 次序来定序。两个列表中的每一者含有按递升次序的视角次序索引,两个列表为 VOIdxListE和VOIdxListD。两个子位流为相依子位流和增强子位流。新列表为 VOIdxListNew,其在开头为空。

2.对于每一接入单元,应用以下步骤:

i.将VOIdxE设定为VOIdxListE的第一值,并将VOIdxD设定为VOIdxListD的第 一值;

ii.如果VOIdxE小于VOIdxD,那么组合来自增强子位流的一个视角分量,将VOIdxE 设定为VOIdxListE中的下一值,将VOIdxCurr设定为VOIdxE;否则,组合来自相依子 位流的一个视角分量,将VOIdxD设定为VOIdxListD中的下一值,将VOIdxCurr设定 为VOIdxD。将VOIdxCurr添加到VOIdxListNew。

●当组合来自子位流的一个视角分量时,添加NAL单元直到遇到定界符NAL单 元为止。

iii.如果VOIdxE不在VOIdxListE的末端且VOIdxD不在VOIdxListD的末端,那么 终止整个过程;否则,转到步骤iv。

iv.否则,如果VOIdxE处于VOIdxListE的末端,那么组合相依子位流中的所有剩余 视角分量,将VOIdxListD中的所有剩余值添加到VOIdxListNew中,且将VOIdxD设定 为VOIdxListD的末端。

v.否则,如果VOIdxD处于VOIdxListD的末端,那么组合增强子位流中的所有剩余 视角分量,将VOIdxListE中的所有剩余值添加到VOIdxListNew中,且将VOIdxE设定 为VOIdxListE的末端。

vi.否则,转到步骤ii。

在一个或一个以上实例中,所描述的功能可实施于硬件、软件、固件或其任一组合 中。如果以软件实施,那么所述功能可作为一个或一个以上指令或代码存储在计算机可 读媒体上。计算机可读媒体可包括计算机数据存储媒体或通信媒体,通信媒体包括促进 将计算机程序从一处传送到另一处的任何媒体。数据存储媒体可为可由一个或一个以上 计算机或一个或一个以上处理器存取以检索用于实施本发明中所描述的技术的指令、代 码和/或数据结构的任何可用媒体。作为实例而非限制,此类计算机可读媒体可包含 RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存 储装置、快闪存储器,或可用以载运或存储呈指令或数据结构的形式的所要程序代码且 可由计算机存取的任何其它媒体。如本文中所使用,磁盘(Disk)和光盘(disc)包括 紧密光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光 盘,其中磁盘通常以磁性方式再现数据,且光盘使用激光以光学方式再现数据。上述各 物的组合也应包括在计算机可读媒体的范围内。

代码可由一个或一个以上处理器执行,例如,一个或一个以上数字信号处理器 (DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它 等效集成电路或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指代前述结 构中的任一者或适于实施本文中所描述的技术的任何其它结构。另外,在一些方面中, 可在经配置以用于编码和解码的专用硬件和/或软件模块内提供本文中描述的功能性,或 本文中描述的功能性可并入于组合的编解码器中。并且,所述技术可完全实施于一个或 一个以上电路或逻辑元件中。

本发明的技术可实施于广泛多种装置或设备中,包括无线手持机、集成电路(IC) 或一组IC(例如,芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执 行所揭示的技术的装置的功能方面,但各种组件、模块或单元不必需要由不同硬件单元 实现。事实上,如上文所描述,各种单元可组合于编解码器硬件单元中或结合合适的软 件和/或固件由可互操作硬件单元(interoperative hardware unit)(包括如上文所描述的一 个或一个以上处理器)的集合来提供。

已描述各种实例。这些和其它实例在所附权利要求书的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号