首页> 中国专利> 经译码多媒体数据的网络串流期间的表示之间的切换

经译码多媒体数据的网络串流期间的表示之间的切换

摘要

本发明的方面大体涉及一种检索多媒体内容的视频数据的方法。在一实例中,所述方法包含确定所述多媒体内容的第一表示的切换点之间的第一间隔和所述多媒体内容的第二表示的切换点之间的第二间隔,其中所述第一间隔小于所述第二间隔。所述方法还包含基于所述确定,提交对具有至少等于所述第二表示中的切换点之间的重放时间的重放时间的量的来自所述第一表示的视频数据的一个或一个以上网络请求。所述方法还包含在提交对所述量的来自所述第一表示的视频数据的所述请求之后,检索来自所述第二表示的视频数据。

著录项

  • 公开/公告号CN103843301A

    专利类型发明专利

  • 公开/公告日2014-06-04

    原文格式PDF

  • 申请/专利权人 高通股份有限公司;

    申请/专利号CN201280048730.8

  • 申请日2012-10-05

  • 分类号H04L29/06(20060101);H04N21/438(20060101);H04N21/2343(20060101);

  • 代理机构11287 北京律盟知识产权代理有限责任公司;

  • 代理人宋献涛

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-17 00:30:37

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-09-28

    授权

    授权

  • 2014-07-02

    实质审查的生效 IPC(主分类):H04L29/06 申请日:20121005

    实质审查的生效

  • 2014-06-04

    公开

    公开

说明书

本申请案主张2011年10月5日申请的第61/543,732号美国短暂申请案的权益,所 述短暂申请案的全部内容以引用的方式并入本文中。

技术领域

本发明涉及经编码多媒体数据的网络串流。

背景技术

数字视频能力可并入到广泛装置中,包含数字电视、数字直播系统、无线广播系统、 个人数字助理(PDA)、膝上型或台式计算机、数码相机、数字记录装置、数字媒体播放 器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电传会议装置等。 数字视频装置实施视频压缩技术,例如由MPEG-2、MPEG-4、ITU-T H.263或ITU-T  H.264/MPEG-4第10部分高级视频译码(AVC)界定的标准和所述标准的扩展部分中所描 述的那些视频压缩技术,以更有效地发射和接收数字视频信息。

视频压缩技术执行空间预测和/或时间预测以减少或移除视频序列中所固有的冗余。 对于基于块的视频译码,可将视频帧或切片分割为块。每一块可经进一步分割。帧内译 码(I)帧或切片中的块使用相对于相邻块的空间预测来编码。帧间译码(P或B)帧或切片 中的块可使用相对于同一帧或切片中的相邻块的空间预测或相对于其它参考帧的时间 预测。

在已编码视频数据后,视频数据可包化以供发射或存储。视频数据可组合到符合多 种标准的任一者的视频文件中,例如国际标准化组织(ISO)基础媒体文件格式及其扩展, 比如ITU-T H.264/AVC。此类包化视频数据可以多种方式传输,例如经由计算机网络使 用网络串流发射。

发明内容

大体来说,本发明描述用于改进媒体数据经由网络的串流的技术。举例来说,本发 明的技术大体针对当初始检索多媒体内容时以及当执行带宽调适时改进用户体验。本发 明的方面涉及将指示多媒体内容的各个表示的切换点之间的距离的信息从服务器装置 提供到客户端装置。客户端装置可使用此信息来初始选择具有相对频繁切换点(但相对较 低所感知质量)的表示,缓冲所述表示的数据,接着在较高质量表示的将来切换点切换到 具有相对较高所感知质量的表示。

在一实例中,一种检索多媒体内容的视频数据的方法包含:确定多媒体内容的第一 表示的切换点之间的第一间隔和多媒体内容的第二表示的切换点之间的第二间隔,其中 第一间隔小于第二间隔;基于所述确定,提交对具有至少等于第二表示中的切换点之间 的重放时间的重放时间的量的来自第一表示的视频数据的一个或一个以上网络请求;以 及在提交对所述量的来自第一表示的视频数据的请求之后,检索来自第二表示的视频数 据。

在另一实例中,一种用于检索多媒体内容的视频数据的设备包含一个或一个以上处 理器,其经配置以:确定多媒体内容的第一表示的切换点之间的第一间隔和多媒体内容 的第二表示的切换点之间的第二间隔,其中第一间隔小于第二间隔;基于所述确定,提 交对具有至少等于第二表示中的切换点之间的重放时间的重放时间的量的来自第一表 示的视频数据的一个或一个以上网络请求;以及在提交对所述量的来自第一表示的视频 数据的请求之后,检索来自第二表示的视频数据。

在另一实例中,一种用于检索多媒体内容的视频数据的设备包含:用于确定多媒体 内容的第一表示的切换点之间的第一间隔和多媒体内容的第二表示的切换点之间的第 二间隔的装置,其中第一间隔小于第二间隔;用于基于所述确定提交对具有至少等于第 二表示中的切换点之间的重放时间的重放时间的量的来自第一表示的视频数据的一个 或一个以上网络请求的装置;以及用于在提交对所述量的来自第一表示的视频数据的请 求之后检索来自第二表示的视频数据的装置。

在另一实例中,本发明的方面针对一种存储指令的非暂时性计算机可读存储媒体, 所述指令当执行时致使一个或一个以上处理器:确定多媒体内容的第一表示的切换点之 间的第一间隔和多媒体内容的第二表示的切换点之间的第二间隔,其中第一间隔小于第 二间隔;基于所述确定,提交对具有至少等于第二表示中的切换点之间的重放时间的重 放时间的量的来自第一表示的视频数据的一个或一个以上网络请求;以及在提交对所述 量的来自第一表示的视频数据的请求之后,检索来自第二表示的视频数据。

在另一实例中,一种串流多媒体内容的视频数据的方法包含:接收多媒体内容的多 个表示,其中所述表示包含表示相应表示的切换点之间的间隔的切换点间隔信息;响应 于来自客户端装置的请求将所述表示的第一者的视频数据发送到客户端装置;以及在发 送具有至少等于所述表示的第二不同者中的切换点之间的重放时间的重放时间的量的 来自第一表示的视频数据之后,将所述表示的第二者的视频数据发送到客户端装置,其 中所述表示的第二者的切换点之间的间隔低于所述表示的第一者的切换点之间的间隔。

在另一实例中,一种用于串流多媒体内容的视频数据的设备包含一个或一个以上处 理器,其经配置以:接收多媒体内容的多个表示,其中所述表示包含表示相应表示的切 换点之间的间隔的切换点间隔信息;响应于来自客户端装置的请求将所述表示的第一者 的视频数据发送到客户端装置;以及在发送具有至少等于所述表示的第二不同者中的切 换点之间的重放时间的重放时间的量的来自第一表示的视频数据之后,将所述表示的第 二者的视频数据发送到客户端装置,其中所述表示的第二者的切换点之间的间隔低于所 述表示的第一者的切换点之间的间隔。

在另一实例中,一种用于串流多媒体内容的视频数据的设备包含:用于接收多媒体 内容的多个表示的装置,其中所述表示包含表示相应表示的切换点之间的间隔的切换点 间隔信息;用于响应于来自客户端装置的请求将所述表示的第一者的视频数据发送到客 户端装置的装置;以及用于在发送具有至少等于所述表示的第二不同者中的切换点之间 的重放时间的重放时间的量的来自第一表示的视频数据之后将所述表示的第二者的视 频数据发送到客户端装置的装置,其中所述表示的第二者的切换点之间的间隔低于所述 表示的第一者的切换点之间的间隔。

在另一实例中,本发明的方面针对一种存储指令的非暂时性计算机可读存储媒体, 所述指令当执行时致使一个或一个以上处理器:接收多媒体内容的多个表示,其中所述 表示包含表示相应表示的切换点之间的间隔的切换点间隔信息;响应于来自客户端装置 的请求将所述表示的第一者的视频数据发送到客户端装置;以及在发送具有至少等于所 述表示的第二不同者中的切换点之间的重放时间的重放时间的量的来自第一表示的视 频数据之后,将所述表示的第二者的视频数据发送到客户端装置,其中所述表示的第二 者的切换点之间的间隔低于所述表示的第一者的切换点之间的间隔。

一个或一个以上实例的细节陈述于附图及以下描述中。其它特征、目标及优势将从 描述及附图和从权利要求书中显而易见。

附图说明

图1是说明实施用于经由网络串流媒体数据的技术的实例系统的框图。

图2是说明实例多媒体内容的元素的概念图。

图3是说明可对应于多媒体内容的表示的片段的实例视频文件的元素的框图。

图4是说明包含媒体呈现描述(MPD)和各种调适集合的实例多媒体内容的概念图。

图5是说明根据本发明的方面的实例表示的概念图。

图6是说明根据本发明的方面的其它实例表示的概念图。

图7是以图形表示所确定量的网络带宽和从其检索数据的表示的对应指示的实例的 概念图。

图8是说明用于执行本发明的方面的实例方法的流程图。

图9是说明用于执行本发明的方面的实例方法的流程图。

图10是说明用于执行本发明的方面的实例方法的流程图。

具体实施方式

大体来说,本发明描述用于经由网络串流例如音频和视频数据等多媒体数据的技 术。本发明的技术可结合经由HTTP的动态自适应串流(DASH)使用,本发明描述可结合 网络串流执行的各种技术,其任一者或全部可单独实施或以任何组合实施。如下文更详 细描述,执行网络串流的各种装置可经配置以实施本发明的技术。

根据DASH和用于经由网络串流数据的类似技术,多媒体内容(例如,电影或其它 音频/视频内容,其还可包含文本叠加或其它数据)可以多种方式且以多种特性编码。内 容准备装置可形成相同多媒体内容的多个表示。每一表示可对应于特定特性集合,例如 译码和再现特性,以提供可由具有各种译码和再现能力的多种不同客户端装置使用的数 据。此外,具有各种位速率的表示可允许带宽调适。即,客户端装置可确定当前可用的 带宽量且基于可用带宽量连同客户端装置的译码和再现能力选择表示。

在一些实例中,内容准备装置可指示表示的集合具有共同特性集合。内容准备装置 可接着指示集合中的表示形成调适集合,集合中的表示可用于带宽调适。在一些例子中, 调适集合也可称为“表示群组”。即,集合中的表示可在位速率方面不同,但以其它方 式共享大体相同特性。以此方式,客户端装置可确定多媒体内容的调适集合的各种共同 特性集合,且基于客户端装置的译码和再现能力选择调适集合。接着,客户端装置可基 于带宽可用性自适应地在选定调适集合中的表示之间切换。

内容准备装置还可提供清单文件的不同部分的单独网络位置,例如呈3GPP(第三代 合作伙伴计划)规定的格式的媒体呈现描述(MPD)文件。即,清单文件的不同部分可通过 例如各种统一资源识别符(URI)(例如,统一资源定位符(URL))来独立寻址。清单文件的 初始部分可包含URI、URL,或清单文件的另一部分的其它位置识别符。举例来说,清 单文件的第一部分可包含调适集合的共同特性的描述,如上文论述。

调适集合的每一者可与清单文件的相应不同部分相关联,清单文件的相应不同部分 可包含指示相应调适集合中的表示的媒体数据的位置的数据。以此方式,客户端装置可 接收清单文件的第一部分,选择适当的调适集合,检索选定调适集合的清单文件的另一 部分,选择选定群组的表示,且使用清单文件的另一部分来检索选定表示的数据。此外, 客户端装置可适于使用清单文件的另一部分(即,特定针对选定调适集合的部分)改变网 络带宽。

例如媒体内容的表示的片段等视频文件可符合根据ISO基础媒体文件格式、可缩放 视频译码(SVC)文件格式、先进视频译码(AVC)文件格式、第三代合作伙伴计划(3GPP) 文件格式和/或多视图视频译码(MVC)文件格式或其它类似的视频文件格式的任一者囊 封的视频数据。

ISO基础媒体文件格式经设计以含有用于以促进媒体的交换、管理、编辑和呈现的 灵活可扩展格式呈现的定时媒体信息。ISO基础媒体文件格式(ISO/IEC14496-12:2004) 在MPEG-4第12部分中指定,其界定基于时间的媒体文件的一股结构。ISO基础媒体 文件格式用作例如所界定的支持H.264/MPEG-4AVC视频压缩的AVC文件格式(ISO/IEC 14496-15)、3GPP文件格式、SVC文件格式和MVC文件格式等系列中的其它文件格式 的基础。3GPP文件格式和MVC文件格式是AVC文件格式的扩展。ISO基础媒体文件 格式含有例如视听呈现等媒体数据的定时序列的定时、结构和媒体信息。文件格式可为 对象定向的。文件可非常简单地分解为基本对象,且对象的结构由其类型暗示。

符合ISO基础媒体文件格式(及其扩展)的文件可形成为一系列对象,称为“框”。ISO 基础媒体文件格式中的数据可包含在框中,使得不需要其它数据包含在文件内且不需要 数据在文件内的框外部。此包含特定文件格式要求的任何初始签名。“框”可为唯一类 型识别符和长度界定的对象定向的构筑块。通常,呈现包含在一个文件中,且媒体呈现 是独立的。电影容器(电影框)可含有媒体的元数据,且视频和音频帧可包含在媒体数据 容器中且可在其它文件中。

表示(运动序列)可包含在若干文件中,有时称为片段。定时和组帧(位置和大小)信息 通常在ISO基础媒体文件中且附属文件可基本上使用任何格式。此呈现可在含有所述呈 现的系统“本地”,或可经由网络或其它流递送机制提供。

可使用任选的元数据轨道以其所具有的“吸引人的特性”对每一轨道(其值可不同于 群组的其它成员(例如,其位速率、屏幕大小或语言))做标记。轨道内的一些样本可具有 特殊特性或可个别地识别。所述特性的一个实例是同步点(通常视频I帧)。这些点可由 每一轨道中的特殊表识别。更一股来说,轨道样本之间的相依性性质也可使用元数据归 档。元数据可构造为文件格式样本的序列,正如视频轨道。此轨道可称为元数据轨道。 每一元数据样本可构造为元数据语句。存在对应于可能关于对应的文件格式样本或其组 成样本询问的各种问题的各种语句。

当经由串流协议递送媒体时,媒体可需要从其在文件中表示的方式变换。此情况的 一个实例是当媒体经由实时传送协议(RTP)发射时。在文件中,举例来说,视频的每一 帧连续地存储为文件格式样本。在RTP中,必须服从特定针对所使用的编解码器的包化 规则以将这些帧放置在RTP包中。串流服务器可经配置以在运行时计算此包化。然而, 存在对于串流服务器的辅助的支持。

本发明的技术可例如根据经由HTTP的动态自适应串流(DASH)适用于例如HTTP 串流等网络串流协议。在HTTP串流中,频繁使用的操作包含GET和部分GET。GET 操作检索与给定统一资源定位符(URL)或其它识别符(例如,URI)相关联的整个文件。部 分GET操作接收字节范围作为输入参数且检索对应于所接收字节范围的文件的连续数 目的字节。因此,可提供电影碎片用于HTTP串流,因为部分GET操作可获得一个或 一个以上个别电影碎片。注意,在电影碎片中,可存在不同轨道的若干轨道碎片。在 HTTP串流中,媒体表示可为客户端可存取的数据的结构化集合。客户端可请求并下载 媒体数据信息以向用户呈现串流服务。

在使用HTTP串流来串流3GPP数据的实例中,可存在多媒体内容的视频和/或音频 数据的多个表示。此类表示的清单可在媒体呈现描述(MPD)数据结构中界定。媒体呈现 可对应于HTTP串流客户端装置可存取的数据的结构化集合。HTTP串流客户端装置可 请求并下载媒体数据信息以向客户端装置的用户呈现串流服务。媒体表示可在MPD数 据结构中描述,MPD数据结构可包含MPD的更新。

多媒体内容可含有一个或一个以上周期的序列。周期可由MPD中的周期元素界定。 每一周期可具有MPD中的属性开始。MPD可包含针对每一周期的开始属性和 availableStartTime属性。对于实况服务,周期的开始属性与MPD属性availableStartTime 的和可指定UTC格式的周期的可用性时间,特定来说对应周期中的每一表示的第一媒 体片段。对于按需服务,第一周期的开始属性可为0。对于任何其它周期,开始属性可 指定对应周期的开始时间相对于第一周期的开始时间之间的时间偏移。每一周期可延长 直到下一周期的开始,或在最后周期的情况下直到媒体呈现的结束。周期开始时间可为 精确的。其可反映由于播放所有先前周期的媒体而产生的实际定时。

每一周期可含有相同媒体内容的一个或一个以上表示。表示可为音频或视频数据的 若干替代经编码型式的一者。所述表示可依据各种特性而不同,例如编码类型,比如位 速率、分辨率和/或针对视频数据和位速率的编解码器、语言,和/或针对音频数据的编 解码器。术语表示可用于指代对应于多媒体内容的特定周期且以特定方式编码的经编码 音频或视频数据的区段。

可向群组指派特定周期的表示,群组可由MPD中的群组属性指示。同一群组中的 表示通常视为彼此的替代。举例来说,可向同一群组指派针对特定周期的视频数据的每 一表示,使得可选择表示的任一者以供解码以显示对应周期的多媒体内容的视频数据。 在一些实例中,一个周期内的媒体内容可由来自群组0(如果存在)的一个表示或来自非 零群组的至多一个表示的组合来表示。周期的每一表示的定时数据可相对于周期的开始 时间表达。

表示可包含一个或一个以上片段。每一表示可包含初始化片段,或表示的每一片段 可自行初始化。当存在时,初始化片段可含有用于存取所述表示的初始化信息。一股来 说,初始化片段不含有媒体数据。片段可由例如统一资源定位符(URL)等识别符唯一地 参考。MPD可提供每一片段的识别符。在一些实例中,MPD还可提供范围属性的形式 的字节范围,其可对应于可由URL或URI存取的文件内的片段的数据。

每一表示还可包含一个或一个以上媒体组件,其中每一媒体组件可对应于例如音 频、视频和/或定时文本(例如,用于隐藏式字幕)等一个个别媒体类型的经编码型式。媒 体组件可在一个表示内的连续媒体片段的边界上为时间上连续的。

本发明的方面大体针对当初始检索多媒体内容时以及当执行带宽调适时改进用户 体验。如上所述,客户端装置可确定当前可用的带宽量且基于可用带宽量和表示的位速 率连同客户端装置的译码和再现能力选择表示。客户端装置通常选择可用带宽所允许的 最高位速率。如果带宽条件改变,那么客户端装置通过切换到不同表示(例如,具有不同 位速率)而作出反应。

传统视频串流技术可需要客户端装置在显示视频数据之前缓冲所接收的视频数据 以便在不中断的情况下显示视频数据。在一些例子中,可存在需要缓冲视频数据的时间 与编码视频数据的方式之间的折衷。即,客户端装置可需要已使用可变位速率编码的视 频数据比已使用恒定位速率编码的视频数据长的缓冲持续时间。

然而,在给定平均速率的情况下,已使用可变位速率编码的视频数据的感知质量可 高于已使用恒定位速率编码的视频数据。举例来说,在视频译码中,视频数据的一些帧 (即,帧内预测模式编码的帧或I帧)独立译码,而不参考视频数据的其它帧。为利用帧 之间的时间冗余,其它帧(即,帧间预测模式编码的帧,例如P和B帧)相对于先前译码 帧(称为参考帧)译码。因此,已以较恒定速率译码的视频数据通常包含比已以较可变速 率译码的视频数据多的I帧。因此,对于给定平均速率,可存在缓冲所显示的视频数据 的感知质量所需要的持续时间之间的折衷。即,对于展现较高所感知质量的已使用可变 位速率译码的视频数据比对于展现较低所感知质量的已使用较恒定位速率译码的视频 数据需要更多缓冲时间。

本发明的技术可包含提供多个表示,但所述表示的每一者具有不同相关联缓冲持续 时间。因此,客户端装置可拾取具有适宜位速率的表示,以及具有适宜缓冲时间的表示。 在一实例中,客户端装置可初始选择具有特定位速率和相对较短缓冲时间(但相对较低质 量)的表示,缓冲所述表示的数据,接着切换到相同位速率但具有相对较长缓冲时间(例 如,具有相对较高质量)的表示。虽然以上实例包含具有相同位速率的两个表示,但如下 文更详细描述,在其它实例中,所述表示可具有不同位速率(除了不同缓冲时间外)。

客户端装置切换到另一表示的点可称为“切换点”。即,如下文更详细描述,客户 端装置可在所谓的关键帧切换到一表示。大体来说,关键帧是表示的帧内译码帧,客户 端装置可在不存取表示的较早数据(如果表示中的数据呈解码次序)的情况下在其处开始 解码所述表示。虽然客户端装置通常在关键帧处切换到一表示,但客户端装置可在表示 中的任一点从一表示切换。举例来说,客户端装置可在第一表示中的任一点从第一表示 切换到第二表示,条件是客户端装置在关键帧处切换到第二表示。

在一些实例中,客户端装置可在缓冲近似等于或大于较长缓冲持续时间的来自初始 表示的数据量之后切换到具有所述较长缓冲持续时间的表示。根据本发明的一些方面, 客户端装置可基于缓冲器的状态动态地确定何时从具有较短缓冲持续时间的表示切换 到具有较长缓冲持续时间的表示。因此,从具有较短缓冲持续时间的表示到具有较长缓 冲持续时间的表示的转变可取决于网络条件。即,如果客户端装置的缓冲器相对快速填 充(例如,以相对高的下载数据速率),那么客户端装置可能够比客户端装置的缓冲器相 对缓慢填充更快地切换到具有较长缓冲持续时间的表示。此外,客户端装置可在正检索 其它数据时正播放来自缓冲器的数据。因此,客户端装置可基于下载数据速率与重放数 据速率相比的相对速度而确定何时切换表示。

在一实例中,服务器可在给定位速率下提供多个表示。第一表示可为相对较低质量, 但可具有一秒相关联缓冲持续时间。第二表示可为相对较高质量,但可具有10秒相关 联缓冲持续时间。起初,客户端装置可请求第一表示。在缓冲第一表示的特定量的数据 (例如,10秒数据(依据重放时间))之后,客户端装置可切换到较高质量的第二表示(例如, 具有相对较长缓冲持续时间)。以此方式,客户端装置可使用第一表示提供较快重放,而 且在实现特定量的所缓冲数据之后切换到相对较高质量表示。在稳定网络条件下,所描 述的实例可在不暂停或再缓冲的情况下显示内容,而不管缓冲条件如何变化(例如,10 秒)。

此外,本发明的技术可以多种方式使用以经由网络串流改进视频数据的检索。在一 些实例中,两个或两个以上表示可具有相同位速率但不同切换点频率(在此实例中称为目 标表示群组)。客户端装置可初始以不同位速率开始检索不同表示的数据,但在某一点确 定网络带宽可用性已改变。因此,客户端装置可切换到目标表示群组,且特定来说检索 所述目标表示群组中具有较高切换点频率的一者的数据。在缓冲此表示的足够量的数据 之后,客户端装置可切换到所述目标表示群组中具有较低切换点频率的另一者。举例来 说,假定客户端装置初始检索来自具有10Mbps位速率的表示的数据。在某一点,客户 端装置确定网络带宽已减小,因此客户端装置检索具有较低位速率(例如,5Mbps)的表 示的集合。特定来说,客户端装置识别表示的集合,其包含具有每隔半秒(依据重放时间) 的切换点的一个表示以及具有每隔5秒的切换点的另一表示。客户端装置可初始从具有 每隔半秒的切换点的5Mbps表示检索数据,且缓冲来自此表示(再次,依据重放时间) 的数据的至少5秒。接着,客户端装置可开始从具有每隔5秒的切换点的5Mbps表示 检索数据。在此切换期间,客户端装置应具有来自半秒切换点频率表示的足够的经缓冲 数据以避免缓冲器下溢,同时还避免需要同时执行两个解码器(这可消耗过量电池和处理 功率)。客户端装置可类似地经配置以在确定网络带宽已增加后即刻切换到较高位速率表 示的集合。在以上实例中,客户端装置转变到具有相同位速率(例如,5Mbps)但具有不 同切换点频率的表示。在其它实例中,且如下文更详细描述,客户端装置可转变到具有 不同位速率且还具有不同切换点频率的表示。举例来说,客户端装置可切换到具有相对 较低位速率但具有较高感知质量(归因于切换点中减小的频率)的表示。在一些实例中, 如下文更详细描述,客户端装置还可基于已存储到客户端装置的缓冲器的数据量选择待 切换到的表示。

图1是说明实施用于经由网络串流媒体数据的技术的实例系统10的框图。在此实 例中,系统10包含内容准备装置20、服务器装置60和客户端装置40。客户端装置40 和服务器装置60通过网络74以通信方式耦合,网络74可包括因特网。在一些实例中, 内容准备装置20和服务器装置60还可通过网络74或另一网络耦合,或可直接以通信 方式耦合。在一些实例中,内容准备装置20和服务器装置60可包括相同装置。

在图1的实例中,内容准备装置20包括音频源22和视频源24。音频源22可包括(例 如)麦克风,其产生表示待由音频编码器26编码的所俘获音频数据的电信号。或者,音 频源22可包括存储先前记录的音频数据的存储媒体、例如计算机化合成器等音频数据 产生器,或任何其它音频数据源。视频源24可包括产生待由视频编码器28编码的视频 数据的视频相机、编码有先前记录的视频数据的存储媒体、视频数据产生单元(例如,计 算机图形源)或任何其它视频数据源。内容准备装置20不一定在所有实例中以通信方式 耦合到服务器装置60,而是可将多媒体内容存储到由服务器装置60读取的单独媒体。

原始音频和视频数据可包括模拟或数字数据。模拟数据可在由音频编码器26和/或 视频编码器28编码之前经数字化。音频源22可在发言参与者发言的同时从所述发言参 与者获得音频数据,且视频源24可同时获得发言参与者的视频数据。在其它实例中, 音频源22可包括包含所存储的音频数据的计算机可读存储媒体,且视频源24可包括包 含所存储的视频数据的计算机可读存储媒体。以此方式,本发明中所描述的技术可应用 于实况串流实时音频和视频数据或应用于归档的预先记录的音频和视频数据。

对应于视频帧的音频帧通常为含有与由视频源24俘获的含于视频帧内的视频数据 同时由音频源22俘获的音频数据的音频帧。举例来说,在发言参与者通常通过发言而 产生音频数据的同时,音频源22俘获音频数据,且视频源24同时(即,在音频源22正 俘获音频数据的同时)俘获发言参与者的视频数据。因此,音频帧可在时间上对应于一个 或一个以上特定视频帧。因此,对应于视频帧的音频帧通常对应于其中音频数据和视频 数据被同时俘获且音频帧和视频帧分别包括同时被俘获的音频数据和视频数据的情形。

在一些实例中,音频编码器26可在每一经编码音频帧中编码时间戳,所述时间戳 表示记录经编码音频帧的音频数据的时间,且类似地,视频编码器28可在每一经编码 视频帧中编码时间戳,所述时间戳表示记录经编码视频帧的视频数据的时间。在此类实 例中,对应于视频帧的音频帧可包括包含时间戳的音频帧和包括相同时间戳的视频帧。 内容准备装置20可包含内部时钟,音频编码器26和/或视频编码器28可从所述内部时 钟产生时间戳,或音频源22和视频源24可使用所述内部时钟来分别使音频数据和视频 数据与时间戳相关联。

在一些实例中,音频源22可对应于记录音频数据的时间而将数据发送到音频编码 器26,且视频源24可对应于记录视频数据的时间而将数据发送到视频编码器28。在一 些实例中,音频编码器26可在经编码音频数据中编码序列识别符以指示经编码音频数 据的相对时间定序,而无需指示记录音频数据的绝对时间,且类似地,视频编码器28 也可使用序列识别符来指示经编码视频数据的相对时间定序。类似地,在一些实例中, 序列识别符可与时间戳映射或以其它方式与所述时间戳相关。

音频编码器26通常产生经编码音频数据流,而视频编码器28产生经编码视频数据 流。每一个别数据流(无论是音频还是视频)可被称为基本流。基本流为表示的单一经数 字译码(可能经压缩)的分量。举例来说,表示的经译码视频或音频部分可为基本流。示 范性基本流可在囊封在视频文件内之前转换成包化基本流(PES)。在同一表示内,流ID 用以区分属于一个基本流的PES包与其它包。基本流的数据的基本单位为包化基本流 (PES)包。以你,经译码视频数据通常对应于基本视频流。类似地,音频数据对应于一 个或一个以上相应基本流。

与许多视频译码标准一样,H.264/AVC定义无错误位流的语法、语义和解码过程, 其中的每一者符合特定简档或层。H.264/AVC不指定编码器,但编码器的任务是保证对 于解码器来说所产生的位流为符合标准的。在视频译码标准的情形下,“简档”对应于 算法、特征或工具的子集和施加到其的约束。举例来说,如由H.264标准所定义,“简 档”为由H.264标准指定的整个位流语法的子集。“层”对应于与图片的分辨率、位速 率和宏块(MB)处理速率有关的解码器资源消耗的限制,例如解码器存储器和计算。简档 可以profile_idc(简档指示符)值发信号通知,而层可以level_idc(层指示符)值发信号通知。

举例来说,H.264标准认识到,在由给定简档的语法强加的界限内,依据由位流中 的语法元素所采用的值(例如,经解码的图片的指定大小),仍有可能需要编码器和解码 器的性能的大变化。H.264标准进一步认识到,在许多应用中,实施能够处理特定简档 内的语法的所有假定用途的解码器既不实用也不经济。因此,H.264标准将“层”定义 为对位流中的语法元素的值所强加的约束的指定集合。这些约束可为对值的简单限制。 或者,这些约束可采用对值的算术组合(例如,图片宽度乘以图片高度乘以每秒所解码的 图片的数目)的约束的形式。H.264标准进一步规定,个别实施方案可支持每一所支持的 简档的不同层。

符合简档的解码器通常支持所述简档中所定义的所有特征。举例来说,作为译码特 征,B图片译码在H.264/AVC的基线简档中未被支持,但在H.264/AVC的其它简档中得 以支持。符合层的解码器应能够解码不需要超出所述层中所定义的限制的资源的任何位 流。简档和层的定义可帮助实现可解译性。举例来说,在视频发射期间,针对整个发射 会话的一对简档和层定义可经协商并实现一致。更具体来说,在H.264/AVC中,层可定 义(例如)对以下各项的限制:需要经处理的宏块的数目、经解码的图片缓冲器(DPB)大小、 经译码的图片缓冲器(CPB)大小、垂直运动向量范围、每两个连续MB的运动向量的最 大数目,以及B块是否可具有小于8×8像素的子宏块分割区。以此方式,解码器可确定 所述解码器是否能够适当地解码位流。

例如ITU-T H.261、H.262、H.263、MPEG-1、MPEG-2、H.264/MPEG-4第10部分 和即将到来的高效视频译码(HEVC)标准等视频压缩标准利用运动补偿时间预测来减少 时间冗余。编码器(例如,视频编码器28)可使用根据一些先前编码的图片(本文中也称为 帧)的运动补偿预测来根据运动向量预测当前译码的图片。典型的视频译码中存在三种主 要图片类型。其为帧内译码图片(“I图片”或“I帧”)、预测的图片(“P图片”或“P 帧”)和双向预测图片(“B图片”或“B帧”)。P图片按时间次序仅使用在当前图片之 前的参考图片。在B图片中,B图片的每一块可从一个或两个参考图片预测。这些参考 图片可按时间次序位于当前图片之前或之后。

参数集通常含有序列参数集(SPS)中的序列层标头信息和图片参数集(PPS)中的不经 常改变的图片层标头信息。在参数集的情况下,不需要针对每一序列或图片重复此不经 常改变的信息;因此,可改进译码效率。此外,参数集的使用可实现标头信息的带外发 射,从而避免需要冗余发射以实现错误恢复。在带外发射中,参数集NAL单元在与其 它NAL单元不同的信道上发射。

在图1的实例中,内容准备装置20的囊封单元30接收包括来自视频编码器28的 经译码视频数据的基本流以及包括来自音频编码器26的经译码音频数据的基本流。在 一些实例中,视频编码器28和音频编码器26可各自包含用于由经编码数据形成PES包 的包化器。在其它实例中,视频编码器28和音频编码器26可各自与用于由经编码数据 形成PES包的相应包化器介接。在另外其它实例中,囊封单元30可包含用于由经编码 音频和视频数据形成PES包的包化器。

视频编码器28可以多种方式编码多媒体内容的视频数据,以产生各种位速率下且 具有各种特性(例如,像素分辨率、帧速率、对各种译码标准的遵从、对各种译码标准的 各种简单和/或简档的层的遵从、具有一个或多个视图(例如,针对二维或三维重放)的表 示,或其它此类特性)的多媒体内容的不同表示。如本发明中使用的表示可包括音频数据 和视频数据的组合,例如一个或一个以上音频基本流和一个或一个以上视频基本流。每 一PES包可包含识别PES包所属于的基本流的stream_id。囊封单元30负责将基本流组 合到各个表示的视频文件中。

囊封单元30从音频编码器26和视频编码器28接收表示的基本流的PES包且由所 述PES包形成对应的网络抽象层(NAL)单元。在H.264/AVC(先进视频译码)的实例中, 经译码视频片段组织为NAL单元,其提供例如视频电话、存储、广播或串流等“网络 友好”视频表示寻址应用。NAL单元可分类为视频译码层(VCL)NAL单元和非VCL NAL 单元。VCL单元可含有核心压缩引擎且可包含块、宏块和/或片段层数据。其它NAL单 元可为非VCL NAL单元。在一些实例中,在一个时刻通常呈现为主要经译码图片的经 译码图片可包含在存取单元中,存取单元可包含一个或一个以上NAL单元。

非VCL NAL单元可包含参数集NAL单元和SEI NAL单元(以及其它)。参数集可含 有序列层标头信息(在序列参数集(SPS)中)以及不经常改变的图片层标头信息(在图片参 数集(PPS)中)。在参数集(例如,PPS和SPS)的情况下,不需要针对每一序列或图片重复 不经常改变的信息,因此可改进译码效率。此外,参数集的使用可实现重要标头信息的 带外发射,从而避免需要冗余发射以实现错误恢复。在带外发射实例中,参数集NAL 单元在与其它NAL单元(例如,SEI NAL单元)不同的信道上发射。

补充增强信息(SEI)可含有对于解码来自VCL NAL单元的经译码图片不必要但可辅 助与解码、显示、错误恢复和其它目的相关的过程的信息。SEI消息可包含在非VCL NAL 单元中。SEI消息是一些标准规格的规范部分,且因此对于标准兼容解码器实施方案并 不始终强制。SEI消息可为序列层SEI消息或图片层SEI消息。一些序列层信息可包含 在SEI消息中,例如SVC的实例中的可缩放性信息SEI消息和MVC中的视图可缩放性 信息SEI消息。这些实例SEI消息可传达关于例如操作点的提取和操作点的特性的信息。 另外,囊封单元30可形成清单文件,例如描述表示的特性的媒体呈现描述符(MPD)。囊 封单元30可根据可扩展标识语言(XML)将MPD格式化。

囊封单元30可将多媒体内容的一个或一个以上表示的数据连同清单文件(例如, MPD)提供到输出接口32。输出接口32可包括网络接口或用于向存储媒体写入的接口, 例如通用串行总线(USB)接口、CD或DVD写入器或燃烧器、到磁性或快闪存储媒体的 接口,或用于存储或发射媒体数据的其它接口。囊封单元30可将多媒体内容的表示的 每一者的数据提供到输出接口32,输出接口32可将数据经由网络发射或存储媒体发送 到服务器装置60。在图1的实例中,服务器装置60包含存储各种多媒体内容64的存储 媒体62,每一多媒体内容64包含相应的清单文件66和一个或一个以上表示68A-68N(表 示68)。根据本发明的技术,清单文件66的部分可存储在网络74的可能另一装置(例如, 代理装置)的单独位置中,例如存储媒体62或另一存储媒体的位置中。

在一些实例中,表示68可划分为调适集合。在一些例子中,调适集合也可称为“表 示群组”。即,表示68的各个子集可包含特性的相应共同集合,例如编解码器、简档和 层、分辨率、视图数目、片段的文件格式、可识别待与表示一起显示的文本和/或待例如 由扬声器解码和呈现的音频数据的语言或其它特性的文本类型信息、可描述调适集合中 的表示的场景的相机角度或真实世界相机视角的相机角度信息、描述对于特定观众的内 容适宜性的分级信息等。

清单文件66可包含指示对应于特定调适集合的表示68的子集的数据,以及调适集 合的共同特性。清单文件66还可包含表示调适集合的个别表示的个别特性(例如,位速 率)的数据。以此方式,调适集合可提供简化的网络带宽调适。调适集合中的表示可使用 清单文件66的调适集合元素的子元素指示。

服务器装置60包含请求处理单元70和网络接口72。在一些实例中,服务器装置 60可包含多个网络接口。此外,服务器装置60的任何或所有特征可实施在内容递送网 络的其它装置上,例如路由器、桥接器、代理装置、交换机或其它装置。在一些实例中, 内容递送网络的中间装置可高速缓存多媒体内容64的数据,且包含大体符合服务器装 置60的组件的组件。一股来说,网络接口72经配置以经由网络74发送和接收数据。

请求处理单元70经配置以从例如客户端装置40等客户端装置接收对于存储媒体72 的数据的网络请求。举例来说,请求处理单元70可实施超文本传送协议(HTTP)版本1.1, 如R.费尔丁(R.Fielding)等人在RFC2616中的“超文本传送协议-HTTP/1.1”(网络工作 组,IETF,1999年6月)中描述。即,请求处理单元70可经配置以接收HTTP GET或部 分GET请求且响应于所述请求提供多媒体内容64的数据。所述请求可指定表示68的 一者的片段,例如使用所述片段的URL。在一些实例中,所述请求还可指定片段的一个 或一个以上字节范围,因此包括部分GET请求。请求处理单元70可进一步经配置以服 务于HTTP HEAD请求以提供表示68的一者的片段的标头数据。在任何情况下,请求 处理单元70可经配置以处理所述请求以将所请求数据提供到发出请求的装置,例如客 户端装置40。

如图1的实例中说明,多媒体内容64包含清单文件66,其可对应于媒体呈现描述 (MPD)。清单文件66可含有不同替代表示68(例如,具有不同质量的视频服务)的描述, 且所述描述可包含例如编解码器信息、简档值、层值、位速率和表示68的其它描述性 特性。客户端装置40可检索媒体呈现的MPD以确定如何存取表示68的片段。

特定来说,网络应用52可检索客户端装置40的配置数据(未图示)以确定视频解码 器48的解码能力和视频输出44的再现能力。配置数据还可包含客户端装置40的用户 选择的语言偏好、对应于客户端装置40的用户设定的深度偏好的一个或一个以上相机 视角,和/或客户端装置40的用户选择的分级偏好中的任一者或全部。网络应用52可包 括例如经配置以提交HTTP GET和部分GET请求的网络浏览器或媒体客户端。网络应 用52可对应于由客户端装置40的一个或一个以上处理器或处理单元(未图示)执行的软 件指令。在一些实例中,相对于网络应用52描述的功能性的全部或部分可实施在硬件 或硬件、软件和/或固件的组合中,其中可提供必需的硬件来执行软件或固件的指令。

网络应用52可将客户端装置40的解码和再现能力与清单文件66的信息指示的表 示68的特性比较。网络应用52可初始检索清单文件66的至少一部分以确定表示68的 特性。举例来说,网络应用52可根据本发明的技术请求描述一个或一个以上调适集合 的特性的清单文件66的一部分。网络应用52可选择具有可由客户端装置40的译码和 再现能力满足的特性的表示68的子集(例如,调适集合)。网络应用52可接着确定调适 集合中的表示的位速率,确定网络带宽的当前可用量,且检索来自具有可由网络带宽可 满足的位速率的表示的一者的片段。

一股来说,较高位速率表示可产生较高质量视频重放,而当可用网络带宽减小时较 低位速率表示可提供足够质量视频重放。因此,当可用网络带宽相对高时,网络应用52 可从相对高位速率表示检索数据,而当可用网络带宽为低时,网络应用52可从相对低 位速率表示检索数据。以此方式,客户端装置40可经由网络74串流多媒体数据,同时 还根据网络74的改变的网络带宽可用性进行调适。

如上所述,本发明的方面大体针对当初始检索多媒体内容时以及当执行带宽调适时 改进用户体验。在一些实例中,例如客户端装置40等客户端装置可初始选择具有特定 位速率和相对短的缓冲持续时间(例如,但相对较低质量)的表示68,缓冲所述表示的数 据,接着切换到相同位速率但具有相对较长缓冲持续时间(例如,具有相对较高质量)的 表示。虽然本文可将表示之间的切换描述为由客户端装置40实行,但应理解,由客户 端装置40执行的应用(例如,网络应用52)也可作出此确定。

客户端装置40可在关键帧处在表示68之间切换。举例来说,关键帧是表示68的 帧,客户端装置可在不存取表示68的较早数据的情况下在其处开始解码表示68。因此, 关键帧编码为I帧。客户端装置40可通过检索数据直到表示68待切换到的关键帧的时 间位置接着在表示68待切换到的关键帧处开始检索数据而从一个表示68切换到另一表 示。关键帧可因此称为表示的切换点,或简称为切换点。

如上所述,客户端装置40不需要在关键帧处从表示68切换。举例来说,在某些例 子中,客户端装置可在表示68的切换点之间从表示68切换。在此类例子中,客户端装 置40可检索必需的表示68的更多部分。即,客户端装置40可从表示68检索数据,直 到切换点,但在到达切换点之前切换到另一表示。在此类例子中,客户端装置40可不 重放从切换自的表示检索的额外数据(其可称为重叠)。

作为替代,为减少重叠,客户端装置40可仅从表示68检索数据直到允许重放的点, 直到将针对客户端装置40切换到的表示开始重放的时间为止。因此,客户端装置40可 不需要下载所有数据直到表示68中的下一切换点,以实现从表示68到另一表示的无缝 切换。举例来说,假定表示68中的帧的序列为IPBBPBBPBBPBBBBI且这些帧将以次 序IBBPBBPBBPBBPBBI重放。在此实例中,在帧1和16处存在切换点。进一步假定, 切换到表示的切换点在待重放的表示68的第10帧的呈现时间(即,当此重放序列中的第 三P帧将重放时),且因此此第三P帧和所有后续帧将不重放。客户端装置40可接着从 表示68下载IPBBPBBPBB帧,且因此能够重放来自表示68的IBBPBBPBBP。然而, 重放次序中这10个帧的仅前9个实际上在从表示68到切换至表示的无缝切换期间重放。 在此实例中,从表示68下载的未重放的数据(即,重叠中的数据)是第三P帧,且因此客 户端装置40不必下载表示68中的帧16处的下一切换点之前的最后5个帧以便实现无 缝切换。

一股来说,给定表示68中的切换点的数目与表示68的缓冲持续时间可具有反向关 系。即,具有相对少的切换点的表示68可具有长缓冲持续时间。相反,具有相对多的 切换点的表示68可具有相对短的缓冲持续时间。

尽管较频繁切换点允许客户端装置40较频繁地在表示68之间切换,但关键帧不利 用与P或B帧一样多的冗余,且因此通常消耗比P或B帧多的译码位。然而,当在表 示68中提供较不频繁的切换点时,试图解码表示68的客户端装置40可需要等待较长 时间周期才接收下一关键帧,这可致使用户体验变差(例如,归因于初始或在表示68之 间的切换之后表示68的重放延迟开始)。因此,通常作出关于在多媒体内容的表示68 中包含切换点的频繁程度的策略性决策。

术语“频率”当描述切换点的位置时指代切换点之间的间隔,其可描述表示68中 的切换点之间的时间距离。虽然频率可相对稳定,但在一些实例中切换点之间的时间距 离可在切换点之间变化特定幅度。

在一些实例中,本发明的技术涉及将指示多媒体内容的各个表示68的切换点之间 的距离的信息从服务器装置60提供到客户端装置40。举例来说,如下文参看图2更详 细描述,服务器装置60可在清单文件/MPD内将指示每一表示的切换点之间的间隔的信 息(例如,表示内的切换点频率)提供到客户端装置40。客户端装置40可使用此信息初 始选择具有相对频繁切换点(但相对较低质量)的表示68,缓冲表示68的数据,接着在 较高质量表示68的将来切换点处切换到具有相对较高质量的表示68。

在一些实例中,服务器装置60可向表示68的群组指派相同位速率,但向群组中的 表示68指派切换点的不同频率。因为使用相对较多位来编码切换点(归因于切换点正译 码为I帧),所以具有较频繁切换点的表示68将趋向于具有相对较低质量,但允许客户 端装置在平均情况下较快地开始重放。因此,使用指示表示68的切换点之间的距离的 信息,客户端装置40可初始从具有相对较频繁切换点的表示68检索并缓冲数据。在缓 冲来自初始表示的足够数据以避免重放中的空白之后,客户端装置40可在具有较不频 繁切换点但相对较高质量的不同表示68的切换点处开始,开始请求并缓冲数据。

尽管以上实例描述具有相同位速率的一组表示68,但这些技术也可应用于具有不同 位速率的表示68的群组。举例来说,客户端装置40可例如在500Kbps下利用各1秒的 切换点开始请求并缓冲具有初始位速率的表示68的数据。在缓冲来自初始表示的足够 数据以避免重放中的空白之后,客户端装置40可例如在400Kbps下利用各5秒的切换 点切换到与初始位速率相比具有相对较低位速率但具有相同或较高感知质量(例如,归因 于切换点的频率的减小)的表示68。

在一实例中,在重放开始期间(或探寻之后),客户端装置40可例如在500Kbps下 利用各1秒的切换点选择具有相对高频率的切换点的初始表示68。在缓冲初始表示68 的至少一些之后,客户端装置40可例如在450Kbps下利用各3秒的切换点转变到较高 效译码(其可产生增加的感知质量)的具有较低频率的切换点的表示68。

在一些实例中,客户端装置40可基于已缓冲的数据量选择表示68。举例来说,一 股来说,当客户端装置40的缓冲器几乎为空时,客户端装置40可切换到具有相对频繁 切换点的表示68以允许到表示68的无缝转变。即,当客户端装置40的缓冲器为空时 客户端装置40可需要相对增加的机会来切换表示68以避免重放的中断(例如,再缓冲)。 相比之下,在缓冲器已至少部分填充时,客户端装置40可切换到较高效译码(其可产生 增加的感知质量)的具有相对较少切换点的表示68。

此外,因为缓冲器较满且暂停或再缓冲事件的风险较小,所以到表示68的转变的 位速率可为较高位速率,这允许归因于较高效视频编码(因为存在较少切换点)且归因于 较高位速率的增加的重放质量。即,当缓冲器相对满时客户端装置40可需要较少机会 切换表示68,因为填满的缓冲器减小重放中断的风险。

因此,当选择具有较不频繁切换点的表示68时,所选表示可处于较低位速率且相 同或较好质量,因此减少需要重放的数据量并维持高质量重放。所选表示还可处于相等 或较高位速率以及更好质量,因此提供更高质量重放体验。因此,客户端装置40可能 够检索具有较不频繁切换点的表示68,借此以相同或较低位成本检索具有较好感知质量 的内容,或以较高位成本检索具有更好质量的内容,但在所有情况下引起重放暂停或再 缓冲事件的概率均最小。

然而,在一些例子中,客户端装置40可用的带宽量可实质上增加。在此类例子中, 客户端装置40可开始检索具有相对高频率的切换点的具有较高位速率的表示68。高频 率的切换点可提供切换到较高位速率表示的增加的机会,借此允许客户端装置40利用 增加的带宽来更快地改进用户的体验。

根据一些方面,调适集合的表示68可针对每一连续位速率表示在具有相对频繁切 换点的表示68与具有相对不频繁切换点的表示68之间交替。举例来说,可存在处于300 Kbps、500Kbps、800Kbps、1300Kbps、2100Kbps和3400Kbps的具有1秒、3秒、1 秒、3秒、1秒和3秒的相应切换点频率的表示。在此类实例中,客户端装置40可基于 可用带宽(例如,下载速度)的改变和客户端装置40的缓冲器的状态(例如,缓冲器相对 较满还是较空)两者从调适集合选择表示68。举例来说,如果缓冲器相对接近空且/或可 用的带宽量急剧减小,那么客户端装置40可选择具有相对频繁切换点的具有相对较低 位速率的表示。

然而,如果缓冲器接近满且/或不存在可用带宽的急剧减小,那么客户端装置40可 选择具有相对低频率切换点的具有较低位速率的表示。提供具有较低和较高频率切换点 的混合的调适集合的表示的此选择可在一些情况下提供视频编码效率(较不频繁切换点) 与对网络条件的改变的反应时间(较频繁切换点)之间的良好平衡。

在另一实例中,根据本发明的方面,具有相对较低位速率的表示68可具有相对频 繁切换点,而具有相对较高位速率的表示可具有较不频繁切换点。举例来说,可存在处 于300Kbps、500Kbps、800Kbps、1300Kbps、2100Kbps和3400Kbps的具有1秒、1 秒、1秒、3秒、3秒和3秒的相应切换点频率的表示。在此类实例中,客户端装置40 可选择具有低位速率的表示68来开始(例如,基于带宽条件可用的速率以下)且例如在填 充缓冲器之后快速移动到较高位速率表示68。客户端装置40可继续检索具有较高位速 率的表示68以实现高质量重放同时改良暂停或再缓冲的风险(只要缓冲器相对较满)。提 供针对较低位速率具有较低频率切换点以及针对较高切换点具有较高频率切换点的调 适集合的表示的此选择可在缓冲器相对满时(在网络条件通常良好的情况下其可为大部 分时间)提供高质量视频编码效率,同时具有对网络条件的快速恶化作出反应的合理策略 (针对较低位速率表示的较频繁切换点允许当条件恶化时到这些表示的切换)。

客户端装置40可在客户端装置40的缓冲器不满时选择具有实质上在可用下载速率 以下的位速率的表示68,借此减小暂停或再缓冲的概率。当缓冲器填满时,客户端装置 40可开始检索具有接近下载速率的位速率的表示68。因此,客户端装置40可选择具有 较少切换点以及减小的暂停或再缓冲概率的具有较高位速率的表示,因为如果下载速率 减小,那么客户端装置40具有切换到较低位速率表示68的足够的机会(归因于缓冲器中 的数据量)。另外,当下载速率减小且客户端装置40切换到具有较低位速率的表示68 时,具有较低位速率的表示68还具有较频繁切换点。因此,客户端装置40可相对快速 切换到较低位速率表示68,这进一步提供当下载速率降低时对暂停或再缓冲的防范。

在替代实例中,根据本发明的方面,具有相对较低位速率的表示68可具有相对不 太频繁切换点,而具有相对较高位速率的表示可具有较频繁切换点。在此实例中,以相 对较低位速率译码的表示68可与以较高位速率译码的具有较频繁切换点的表示68相比 质量变差。因此,客户端装置40可初始选择具有相对低位速率的表示68,但在缓冲器 快速填充的情况下可切换到具有较高位速率的表示68(在较高位速率表示68的切换点, 其不可与较低位速率表示的切换点重合)。

在一些实例中,代替于初始基于表示68的位速率和可用带宽量选择表示,客户端 装置40可经配置以初始基于切换点的频率选择表示68,只要选定表示68的位速率不超 过当前可用带宽即可。在缓冲初始选择的表示68的足够数据之后,客户端装置40可开 始请求来自较高位速率表示68的数据,较高位速率表示68可具有不如初始选择的表示 68频繁的切换点。

在特定实例中,服务器装置60可以切换点之间相对长的时间周期(例如,10秒的重 放时间)广播多媒体内容的表示68。客户端装置40可经配置以初始请求具有相对较频繁 切换点的多媒体内容的不同表示68的单播,接着在缓冲单播表示68的足够数据之后切 换到广播。类似地,如果广播的接收中断,那么客户端装置40可再次使用单播开始检 索另一表示,且在缓冲单播表示68的足够量数据之后切换回到广播。

在另一实例中,两个或两个以上表示可具有相同位速率但不同切换点频率(在此实例 中称为目标表示群组,其可包含在调适集合中)。客户端装置40可初始在特定位速率下 开始检索特定表示的数据,但在某一点确定网络带宽可用性已改变。因此,客户端装置 40可切换到目标表示群组(例如,具有相同或近似相同位速率但具有切换点之间的不同 时间间隔的表示的调适集合),且特定来说检索具有较高频率的切换点的目标表示群组的 一者的数据。在缓冲此表示的足够量的数据之后,客户端装置40可切换到目标表示群 组的具有较低频率的切换点的另一者。

举例来说,假定客户端装置40初始检索来自具有位速率10Mbps的表示的数据。 在某一点,客户端装置40确定网络带宽已减小,因此客户端装置40确定具有较低位速 率(例如,5Mbps)的表示的集合(例如,调适集合)。特定来说,客户端装置40可确定表 示的集合包含具有每隔半秒(依据重放时间)的切换点的一个表示以及具有每隔5秒的切 换点的另一表示。客户端装置40可初始检索来自具有每隔半秒切换点的5Mbps表示的 数据,且缓冲来自此表示的数据的至少5秒(再次,依据重放时间)。接着,客户端装置 40可开始检索来自具有每隔5秒切换点的5Mbps表示的数据。在此切换期间,客户端 装置40应具有来自半秒切换点频率表示的足够的经缓冲数据以避免缓冲器下溢,同时 还避免需要同时执行两个解码器(这可消耗过量电池和处理功率)。客户端装置40可类似 地经配置以在确定网络带宽已增加后即刻切换到较高位速率表示的集合。

服务器装置60可经配置以使表示68上的切换点在时间上对准。即,对于具有不同 频率的切换点的两个表示68,具有较低频率的切换点的表示68的切换点与具有较高频 率的切换点的表示68的切换点在相同时间位置(重放期间)发生。以此方式,客户端装置 可经配置以缓冲具有较高频率切换点的表示68的完全片段的数据,且在所述片段之后 切换到具有较低频率切换点的表示68。因此,客户端装置40可避免在表示68之间切换 时检索和解码来自不同表示68的重叠数据。然而,如上所述,客户端装置40不需要在 切换点从特定表示68切换。另外,虽然切换点的时间对准可有助于避免检索重叠数据, 但切换点不需要时间上对准以执行本发明的技术。

在一些实例中,客户端装置40可维持指示客户端装置40向其请求多媒体内容64 的数据的特定表示68的数据结构。客户端装置40还可维持实际上播放什么内容以及在 什么时间播放的指示。即,数据结构可在实时(或“壁钟”)时间和呈现时间两者提供表 示开始和结束时间的信息。数据结构可进一步提供表示初始开始时间和重放的开始的信 息。在完成多媒体内容64的重放之后,客户端装置40可将数据结构发送到服务器装置 60和/或内容准备装置20。服务器装置60和/或内容准备装置20可使用从客户端装置40 接收的信息来确定改进体验质量(例如,减少重放中的暂停)的更优方式。

网络接口54可接收选定表示的片段的数据并将其提供到网络应用52,网络应用52 又可将片段提供到解封单元50。解封单元50可将视频文件的元素解封为组成的PES流, 将PES流解包以检索经编码数据,且将经编码数据发送到音频解码器46或视频解码器 48,这取决于经编码数据是音频流还是视频流的一部分(例如,流的PES包标头所指示)。 音频解码器46解码经编码音频数据且将经解码音频数据发送到音频输出42,而视频解 码器48解码经编码视频数据且将可包含流的多个视图的经解码视频数据发送到视频输 出44。

视频编码器28、视频解码器48、音频编码器26、音频解码器46、囊封单元30、网 络应用52和解封单元50各自可视需要实施为多种适宜的处理电路的任一者,例如一个 或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵 列(FPGA)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器28和视频解 码器48的每一者可包含在一个或一个以上编码器或解码器中,其任一者可集成作为组 合式视频编码器/解码器(CODEC)的一部分。同样,音频编码器26和音频解码器46的每 一者可包含在一个或一个以上编码器或解码器中,其任一者可集成作为组合式CODEC 的一部分。包含视频编码器28、视频解码器48、音频编码器26、音频解码器46、囊封 单元30、网络应用52和/或解封单元50的设备可包括集成电路、微处理器和/或无线通 信装置(例如,蜂窝式电话)。

图2是说明实例多媒体内容100的元素的概念图。多媒体内容100可对应于多媒体 内容64(图1),或存储在存储器62中的另一多媒体内容。在图2的实例中,多媒体内 容100包含媒体呈现描述(MPD)102和多个表示110-120。表示110包含任选标头数据 112和片段114A-114N(片段114),而表示120包含任选标头数据122和片段 124A-124N(片段124)。为方便起见,字母N用于指示表示110、120的每一者中的最后 电影碎片。在一些实例中,可存在表示110、120之间的不同数目的电影碎片

MPD102可包括与表示110-120分离的数据结构。MPD102可对应于图1的清单文 件66。同样,表示110-120可对应于图1的表示68。一股来说,MPD102可包含通常 描述表示110-120的特性的数据,例如译码和再现特性、调适集合、MPD102对应于的 简档、文本类型信息、相机角度信息、分级信息等。远程周期也可称为外部周期。下文 更详细论述的图4-5说明具有包含在MPD和/或表示的任一者或两者中(例如在表示的片 段或表示的标头数据内)的各种元素的多媒体内容的各个实例。

根据本发明的方面,举例来说,MPD102和/或标头数据112、122可包含指示表示 110、120的切换点的频率(或间隔)的SP间隔信息104。即,SP间隔信息104可提供切 换点(例如,也称为关键帧)在给定持续时间内发生的时间频率的指示。另外或作为替代, SP间隔信息104可提供持续时间或切换点之间的间隔的指示。图4-5的MPD的任一者 或全部可大体对应于图2的MPD102。

标头数据112(当存在时)可描述片段114的特性,例如随机存取点的时间位置、片段 114的哪一者包含随机存取点、到片段114内的随机存取点的字节偏移、片段114的统 一资源定位符(URL),或片段114的其它方面。标头数据122(当存在时)可描述片段124 的类似特性。另外或作为替代,此类特性可完全包含在MPD102内。

片段114包含一个或一个以上经译码样本,其每一者可包含视频数据的帧或切片。 片段114的经译码视频样本的每一者可具有类似特性,例如高度、宽度和带宽要求。此 类特性可由MPD102的数据描述,但此类数据在图2的实例中未说明。MPD102可包 含如3GPP规范描述的特性,其中添加了本发明中描述的所发信号通知信息的任一者或 全部。

片段114、124的每一者可与唯一统一资源识别符(URI)(例如,统一资源定位符(URL)) 相关联。因此,片段114、124的每一者可使用例如DASH等串流网络协议独立检索。 以此方式,例如客户端装置40等目的地装置可使用HTTP Get请求来检索片段114或 124。在一些实例中,客户端装置40可使用HTTP部分Get请求来检索片段114或124 的特定字节范围。

片段114、124可包含表示110、120的切换点。切换点可通常对应于随机存取点 (RAP)。各个表示可包含不同间隔的切换点,例如在表示中以不同频率发生的RAP。举 例来说,表示110的片段114的每一者可包含切换点,而表示120的片段124A、124C、 124E等可包含切换点,但表示120的片段124B、124D等可能不包含切换点。

因此,在此实例中,客户端装置40可初始从表示110检索数据,接着在检索足够 量的数据之后切换到表示120。举例来说,客户端装置40可检索表示110的片段114A 和114B。在表示120的片段124A和124C包含随机存取点的情况下,客户端装置40可 检索表示110的片段114A和114B,接着确定表示110的一定量的数据已被缓冲,其中 短暂重放时间超过表示120的切换点之间的时间。因此。在检索表示110的片段114A 和114B的数据之后,客户端装置40可检索片段124C的数据,片段124C在表示120 中跟随在片段124B之后。

图3是说明可对应于表示的片段(例如,图2的片段114、124的一者)的实例视频文 件150的元素的框图。片段114、124的每一者可包含大体遵循图3的实例中说明的数 据的布置的数据。类似地,下文论述的图4-5的片段还可大体遵循视频文件150的结构。 如上文描述,根据ISO基础媒体文件格式及其扩展的视频文件将数据存储在一系列对象 (称为“框”)中。在图3的实例中,视频文件150包含文件类型(FTYP)框152、电影(MOOV) 框154、电影碎片(MOOF)框162,和电影碎片随机存取(MFRA)框164。

文件类型(FTYP)框152通常描述视频文件150的文件类型。文件类型框152可包含 识别描述视频文件150的最佳使用的规范的数据。文件类型框152可放置在MOOV框 154、电影碎片框162和MFRA框164之前。

在一些实例中,例如视频文件150等片段可包含FTYP框152之前的MPD更新框(未 图示)。MPD更新框可包含指示对应于包含视频文件150的表示的MPD将更新的信息, 连同用于更新所述MPD的信息。举例来说,MPD更新框可提供待用于更新MPD的资 源的URI或URL。作为另一实例,MPD更新框可包含用于更新MPD的数据。在一些 实例中,MPD更新框可紧跟在视频文件150的片段类型(STYP)框(未图示)之后,其中 STYP框可界定视频文件150的片段类型。下文更详细论述的图7提供关于MPD更新框 的额外信息。

在图3的实例中,MOOV框154包含电影标头(MVHD)框156、轨道(TRAK)框158, 以及一个或一个以上电影延伸(MVEX)框160。一股来说,MVHD框156可描述视频文 件150的一股特性。举例来说,MVHD框156可包含描述视频文件150何时最初产生、 视频文件150何时最后修改、视频文件150的时间尺度、视频文件150的重放持续时间 或通常描述视频文件150的其它数据的数据。

TRAK框158可包含视频文件150的轨道的数据。TRAK框158可包含描述对应于 TRAK框158的轨道的特性的轨道标头(TKHD)框。在一些实例中,TRAK框158可包含 经译码视频图片,而在其它实例中,轨道的经译码视频图片可包含在电影碎片162中, 电影碎片162可由TRAK框158的数据参考。

在一些实例中,视频文件150可包含一个以上轨道。因此,MOOV框154可包含等 于视频文件150中的轨道数目的若干TRAK框。TRAK框158可描述视频文件150的对 应轨道的特性。举例来说,TRAK框158可描述对应轨道的时间和/或空间信息。当囊封 单元30(图1)包含视频文件(例如,视频文件150)中的参数集轨道时,类似于MOOV框 154的TRAK框158的TRAK框可描述参数集轨道的特性。囊封单元30可发信号通知 发信号通知在描述参数集轨道的TRAK框内存在参数集轨道中的序列层SEI消息。

MVEX框160可描述对应电影碎片162的特性,例如发信号通知视频文件150除包 含在MOOV框154内的视频数据(如果有的话)外还包含电影碎片162。在串流视频数据 的上下文中,经译码视频图片可包含在电影碎片162中而非MOOV框154中。因此, 所有经译码视频样本可包含在电影碎片162中而非MOOV框154中。

MOOV框154可包含等于视频文件150中的电影碎片162数目的若干MVEX框160。 MVEX框160的每一者可描述电影碎片162的对应一者的特性。举例来说,每一MVEX 框可包含描述电影碎片162的对应一者的短暂持续时间的电影延伸标头框(MEHD)框。

如上所述,囊封单元30可将序列数据集存储在不包含实际经译码视频数据的视频 样本中。视频样本可大体对应于存取单元,其是特定时刻经译码图片的表示。在AVC 的上下文中,经译码图片包含含有用以构建存取单元的所有像素的信息的一个或一个以 上VCL NAL单元,和其它相关联非VCL NAL单元(例如,SEI消息)。因此,囊封单元 30可包含在电影碎片162的一者中的序列数据集,其可包含序列层SEI消息。囊封单元 30可进一步发信号通知序列数据集和/或序列层SEI消息存在于MVEX框160的一者(对 应于电影碎片162的一者)内的电影碎片162的所述一者内。

电影碎片162可包含一个或一个以上经译码视频图片。在一些实例中,电影碎片162 可包含一个或一个以上图片群组(GOP),其每一者可包含若干经译码视频图片,例如帧 或图片。另外,如上所述,在一些实例中,电影碎片162可包含序列数据集。电影碎片 162的每一者可包含电影碎片标头框(MFHD,图3未图示)。MFHD框可描述对应电影碎 片的特性,例如电影碎片的序列号。电影碎片162可以序列号的次序包含在视频文件150 中。

MFRA框164可描述视频文件150的电影碎片162内的随机存取点。在一些实例中, MFRA框164通常是任选的且不需要包含在视频文件中。同样,例如客户端装置40等 客户端装置不一定需要参考MFRA框164来正确解码和显示视频文件150的视频数据。 MFRA框164可包含等于视频文件150的轨道数目或在一些实例中等于视频文件150的 媒体轨道(例如,非白人轨道)数目的若干轨道碎片随机存取(TFRA)框(未图示)。

在一些实例中,视频文件150可额外包含片段索引(SIDX)框(在此实例中未图示)。 SIDX框可在视频文件150开始时或附近发生,且可提供视频文件150的RAP的位置(例 如,开始字节和长度或字节范围)的指示。或者,表示可在所述表示的标头信息中包含 SIDX框,例如包标头数据112、122(图2)。在一些实例中,客户端装置40可经配置以 基于表示的一个或一个以上SIDX框提供的信息隐含地确定包含视频文件150的表示的 切换点之间的频率(或间隔)。举例来说,通过确定表示的SIDX框的RAP的位置,且通 过确定RAP的相关联定时信息,客户端装置40可确定表示的RAP之间的相对时间间隔。 作为又一实例,表示的SIDX框可提供表示的切换点之间的频率或间隔的明确指示。

图4是说明包含MPD202和调适集合210-220的实例多媒体内容200的概念图。 多媒体内容200可对应于多媒体内容64(图1),或存储在存储器62中的另一多媒体内容。 在此实例中,多媒体内容200的表示通过调适集合布置。即,具有共同特性集合的表示 可形成到调适集合中,其提供简化的网络带宽调适。

在此实例中,MPD202包含包括描述调适集合210的共同特性的信息的共同表示特 性204A,以及描述调适集合210的共同特性的共同表示特性204B。共同特性可包含表 示的译码和/或再现特性,例如编解码器、所述表示中的表示所符合的编解码器的简档和 层、像素分辨率、帧速率,或表示的其它特性。

根据本发明的技术,所述特性可包含文本类型值、相机角度值,和/或分级值,以及 上文论述的特性。文本类型值可描述待与视频数据一起显示的文本的特性(例如,隐藏式 字幕文本)。文本类型值可描述例如文本的语言、显示文本的屏幕上的位置、文本的字体 和/或大小,或文本的其它特性。

相机角度值可描述用于(实体上或概念上)产生对应表示的经译码视频数据的相机的 真实世界水平相机位置。使用相机角度,客户端装置可从待大体同时显示的两个或两个 以上表示选择数据,例如以产生三维视频重放效果。水平真实世界相机位置可使客户端 装置能够选择表示以增加或减小视频数据的三维重放中的相对深度的量。

分级可描述针对特定观众的内容适宜性。举例来说,在美国,美国电影协会定义包 含G、PG、PG-13、R和NC-17的分级。作为另一实例,在英国,英国电影分级委员会 定义包含U、PG、12A、12、15、18和R18的分级。作为又一实例,在中国(台湾),电 影的分类包含一股观众类别、受保护类别、父母指导级观众类别和限制级类别。

通过提供相应调适集合(例如,调适集合210-220)的共同特性204,客户端装置(例 如,客户端装置40)可至少部分基于对应的共同表示特性204选择调适集合210-220的 适当一者。在图4的实例中,MPD202还包含分别对应于表示212A、212B、222A、222B 的个别表示特性206A、206B、208A和208B。个别表示特性206A、206B、208A和208B 可包含表示共同表示特性204未指示的表示212A、212B、222A、222B的特性的信息。 举例来说,个别表示特性206A、206B、208A和208B可包含表示表示212A、212B、222A、 222B的相应者的位速率的信息。

调适集合的表示可视为相互排斥,因为其可以不同编码或其它参数表示相同内容(相 同视频、相同语言音频等)。MPD202可提供用于选择调适集合210-220的一者的信息, 例如共同表示特性204。此信息可包含指示客户端是否可解码并再现给定表示的信息。 以此方式,客户端装置可不考虑客户端装置不能解码和/或再现的表示。因此,客户端装 置40可选择可解码和再现的适宜的调适集合,接着基于例如网络带宽可用性从群组选 择表示。

根据本发明的方面,例如调适集合210-220的一者等调适集合可包含具有相同或近 似相同位速率但包含切换点的不同间隔的多个表示。因此,调适集合内的表示可具有变 化的质量,且可具有变化的相关联缓冲持续时间(例如,调适集合内的表示的每一者可具 有替代相关联minBufferTime,如DASH标准中提及)。即,如上所述,具有相对较大数 目的切换点的表示可具有比具有较少切换点的表示相对短的缓冲持续时间。然而,对于 调适集合的给定位速率,具有较大数目的切换点的表示可具有比具有较少切换点的表示 相对低的质量。

根据本发明的方面,客户端装置40可选择具有拥有相同或近似相同位速率的多个 表示的调适集合。客户端装置40可初始选择具有特定位速率和相对短的缓冲持续时间 (例如,但相对较低质量)的表示,缓冲所述表示的数据,接着切换到相同位速率但具有 相对较长缓冲持续时间(例如,具有相对较高质量)的表示。根据其它方面,如上文参看 图2所述,调适集合可具有不同位速率。举例来说,调适集合可针对每一连续位速率表 示具有在具有相对频繁切换点的表示68与具有相对不频繁切换点的表示68之间交替的 表示68。

客户端装置40还可以用户对于例如分级、语言和/或深度的偏好来配置。因此,客 户端装置40还可选择一个或一个以上调适集合使得选定群组遵从用户偏好。客户端装 置40可接着选择可同时播放的可用调适集合的子集。当客户端装置40仅能够显示一个 视图时,客户端装置40可选择仅从一个表示检索数据。另一方面,当客户端装置40具 有立体视图或多视图能力时,客户端装置40可从两个或两个以上表示检索数据。

在选择一个或一个以上调适集合之后,客户端装置40可基于例如可用网络带宽从 调适集合选择表示。随着可用网络带宽改变(例如,增加或减小),客户端装置40可调整 来自调适集合的表示的选择以适应改变的网络带宽条件。当然,客户端装置40还可在 用户偏好或装置能力(例如,解码和再现能力)改变的情况下改变表示选择。

根据本发明的方面,客户端装置40可选择具有拥有相同或近似相同位速率的多个 表示的调适集合。客户端装置40可初始选择具有特定位速率和相对短的缓冲持续时间 (例如,但相对较低质量)的表示,缓冲所述表示的数据,接着切换到相同位速率但具有 相对较长缓冲持续时间(例如,具有相对较高质量)的表示。

在一些实例中,共同表示特性204可对应于MPD202的RepresentationGroup XML 元素。在一些实例中,个别表示特性可对应于MPD202的对应RepresentationGroup元 素的子元素。

通过将表示的共同特性分组在一起,可实现各种优化。举例来说,许多表示可具有 各种参数的相同值。因此,个别地发信号通知MPD中的特性可产生用以个别地发信号 通知特性的MPD中的实质复制。许多客户端装置经配置以丢弃所接收的大部分MPD。 因此可存在客户端装置接收的MPD的部分中的优化。此外,如果丢弃调适集合,那么 客户端装置可不需要存取所丢弃的表示或调适集合的MPD中当前存在的信息(例如, URL)。客户端装置还可避免URL的不必要的更新,URL趋向于在例如实况事件的视频 数据的实时网络串流期间频繁更新。即使排除MPD中的冗余,客户端装置仍将需要在 接收和重建之后解析完整MPD,这可浪费显著量的计算时间。

图5是说明实例调适集合的概念图。根据图5所示的实例,第一调适集合300包含 表示304A、304B和304C(统称为表示304),而第二调适集合308包含表示312A、312B 和312C(统称为表示312)。调适集合300和308可类似于或同于相对于图4-5描述的调 适集合。参看图5展示和描述的实例调适集合300和308可与本文描述的技术的任一者 兼容。

在图5所示的实例中,调适集合300的表示304的每一者可具有相同或大体相同位 速率。然而,在调适集合300内,表示304的每一者可具有替代数目的切换点316。如 上所述,切换点316通常编码为I帧,且也可称为关键帧。然而,在其它实例中,表示 304可具有不同位速率(除具有替代数目的切换点316外)。

根据本发明的一些方面,切换点316可通常在调适集合内对准。举例来说,表示304A 包含与表示304B和304C相比相对较大数目的切换点。即,在一些实例中,表示304B 可包含304A的切换点的子集。此外,表示304C可包含304B的切换点的子集。在其它 实例中,调适集合中的表示的切换点不需要一定对准。

在一实例中,表示304A的切换点316可近似每隔2秒发生。根据图5所示的实例, 接着,表示304B的切换点316可近似每隔4秒发生,表示304C的切换点316可近似每 隔8秒发生。应理解,切换点之间的此类持续时间仅出于阐释的目的提供作为实例,且 切换点之间的替代持续时间是可能的。

在一些实例中,如上所述,切换点的频率可与缓冲持续时间(例如,如上文表3中识 别为minBufferTime)相关。举例来说,表示304A可具有比表示304B短的缓冲持续时间, 表示304B可具有比表示304C短的缓冲持续时间。然而,给定特定位速率,表示304C 的质量可好于304B的质量,304B的质量可好于304C的质量。

调适集合308可类似于调适集合300配置,但可包含具有与调适集合300不同的位 速率的表示。虽然图5的实例中展示的表示312的切换点316不一定对准,但应理解, 如上所述,切换点316可在一些实例中对准。

例如服务器装置60等服务器装置可提供具有不同位速率的表示的多个调适集合, 例如图5所示的调适集合300和308(例如,以及额外调适集合)。例如客户端装置40等 客户端装置可选择针对带宽条件具有适当位速率的调适集合,以及具有特定数目的切换 点(例如,和对应的minBufferTime)的表示。

举例来说,根据本发明的方面,客户端装置40可初始选择具有特定位速率和相对 短的缓冲持续时间(例如,但相对较低质量)的表示,缓冲所述表示的数据,接着切换到 相同位速率但具有相对较长缓冲持续时间(例如,具有相对较高质量)的表示。

图6是说明实例表示的概念图。根据图6所示的实例,第一表示320包含多个片段 322A-322D(统称为片段322),而第二表示324包含多个片段326(例如,以片段326A开 始)。在一些实例中,图6所示的表示可类似于图2所示的表示110和120配置。参看图 6展示和描述的实例表示可与本文描述的技术的任一者兼容。

如上所述,本发明的技术大体涉及当初始检索多媒体内容时以及当执行带宽调适时 改进用户体验。尽管上文描述的某些技术参考具有相同位速率的表示,但这些技术也可 应用于具有不同位速率的表示。

举例来说,在图6所示的实例中,表示320是可由服务器经由单播提供的表示的实 例,而表示324是可经由广播提供的表示的实例。如图6所示,表示320包含比表示324 的片段326相对小的片段322。此外,表示320可与比表示324相对短的缓冲持续时间 相关联。

在一些实例中,例如客户端装置40(图1)等客户端装置可经配置以基于切换点的频 率初始选择表示,只要选定表示的位速率不超过当前可用带宽即可。因此,在图6所示 的实例中,客户端装置40可初始选择表示320。在缓冲初始选择的表示320的足够数据 之后,客户端装置40可开始向较高位速率表示请求数据。在图6所示的实例中,客户 端装置40可开始向表示324请求数据,表示324可具有与初始选择的表示320相比不 太频繁的切换点。客户端装置40还可在将来某一时间(例如,在表示324不可用的情况 下)切换回到表示320。

在特定实例中,例如服务器装置60(图1)等服务器可广播具有切换点之间的相对长 时间周期(例如,10秒重放时间)的表示324。客户端装置40可经配置以初始请求具有相 对较频繁切换点的表示320的单播,接着在缓冲单播表示320的足够数据之后切换到广 播表示324。类似地,如果广播表示324的接收中断,那么客户端装置40可再次开始使 用单播检索另一表示320,且在缓冲单播表示320的足够量的数据之后切换回到广播表 示324。

图7是以图形表示所确定量的网络带宽和从其检索数据的表示的对应指示的实例的 概念图。图7的实例假定,存在特定多媒体内容的至少四个表示:具有近似每隔3秒的 切换点的10Mbps表示、具有近似每隔0.5秒的切换点的10Mbps表示、具有近似每隔 2秒的切换点的5Mbps表示,以及具有近似每隔0.5秒的切换点的5Mbps表示。

在图7的实例中,例如服务器装置60等服务器装置可在相应多媒体内容的清单文 件中提供表示的切换点频率(SP频率)的指示。清单文件可对应于例如多媒体内容的媒体 呈现描述(MPD)文件。客户端装置通常经配置以检索并分析清单文件以确定多媒体内容 的表示的特性和属性。

根据本发明的技术,服务器装置60可在表示的清单文件中提供各个表示的切换点 的频率的指示。提供表示表示的属性的特性的数据常规上称为“发信号通知”所述数据。 在其它实例中,服务器装置60可在表示本身中发信号通知表示的切换点的频率。或者, 例如客户端装置40等客户端装置可经配置以从与表示的片段相关联的片段索引(SIDX) 元素的数据推断切换点的频率。

在图7所示的实例中,客户端装置40可初始检索具有近似每隔3秒的切换点的10 Mbps表示。在可用网络带宽减小后,客户端装置40可即刻切换到具有近似每隔0.5秒 的切换点的5Mbps表示。在缓冲足够数据以避免下溢之后,根据本发明的方面,可客 户端装置40可检索具有近似每隔2秒的切换点的5Mbps表示。此5Mbps表示可归因 于切换点的数目减少而具有相对较高感知质量(尽管相同位速率)。在可用网络带宽减小 后,客户端装置40可即刻转变到具有近似每隔0.5秒的切换点的10Mbps表示。在缓冲 表示的足够数据以避免下溢之后,可客户端装置40可再次切换到具有减少的切换点和 增加的感知质量(例如,具有近似每隔3秒的切换点的10Mbps表示)的表示。

虽然图7的实例说明具有相同位速率的切换至表示(例如,具有近似每隔0.5秒的切 换点的5Mbps表示和具有近似每隔2秒的切换点的5Mbps表示;具有近似每隔0.5秒 的切换点的10Mbps表示和具有近似每隔3秒的切换点的10Mbps表示),但如上所述, 本发明的技术不限于此。举例来说,根据其它方面,表示可在具有相对频繁切换点和较 高位速率的表示与具有较不频繁切换点和较低位速率的表示之间交替。

因此,相对于图7所示的实例,客户端装置40可从具有近似每隔0.5秒的切换点的 5Mbps表示切换到具有更低位速率(例如,4Mbps、3Mbps等)但具有相同或较高质量(归 因于切换点的频率减小)的表示。作为替代或另外,如上所述,客户端装置40可在选择 切换到的表示时考虑已缓冲的数据量。即,如果已缓冲的数据量相对低,那么客户端装 置40可选择具有相对频繁切换点的表示。相比之下,如果已缓冲的数据量较高,那么 客户端装置可选择具有相对较不频繁切换点的表示。

图8是说明根据本发明中描述的技术的实例方法的流程图。尽管图8的方法相对于 服务器装置60和客户端装置40描述,但应理解,其它装置可实施类似于图8的方法的 技术的技术。举例来说,内容准备装置20或内容递送网络的一个或一个以上网络装置 可执行归属于服务器装置60的一些或全部功能。

服务器装置60可初始获得(例如,产生或从内容准备装置20接收)多媒体内容的一 个或一个以上表示的数据以及多媒体内容的清单文件。服务器装置60还可将多媒体内 容的表示的指示(例如,表示的特性)提供到客户端装置40(340)。另外,服务器装置60 可确定具有相同或近似相同位速率的若干表示的切换点间隔(342)。服务器装置60可针 对每一表示提供包含在表示中的切换点的数目的指示(344)。作为替代或另外,服务器装 置60可针对每一表示提供minBufferTime的指示。

客户端装置40可基于所接收的信息确定每一所接收表示的切换点之间的间隔 (346)。客户端装置40还可提交对第一表示的请求(348)。根据本发明的一些方面,客户 端装置40可初始选择具有相对大数目的切换点(例如,以及对应的短缓冲持续时间)的表 不。

在接收请求后,服务器装置60可即刻提供选定的第一表示(350)。客户端装置40可 接着开始缓冲、解码和/或显示所接收的数据(352)。根据本发明的方面,在接收和/或缓 冲来自第一表示的特定量的数据后,客户端装置40可即刻提交对于来自来自服务器装 置60的第二表示的数据的请求。在一些实例中,第二表示可具有与第一表示相比相对 少(即,较不频繁)的切换点(例如,以及对应的较长缓冲持续时间)。此外,第二表示可具 有比第一表示高的质量。即,第二表示可具有大体类似于第一表示的位速率的位速率, 但具有不太频繁的切换点(但在其它实例中,位速率可不同,如上所述)。因此,第二表 示可实现较高质量,因为第二表示可使用相对较多P和/或B帧或切片译码,这可归因 于表示的视频数据内的时间冗余的改进的利用率而改进译码效率。

在接收请求后,服务器装置60可即刻提供第二表示(356)。客户端装置40可接着开 始缓冲、解码和/或显示所接收数据(358)。步骤354-358可基于网络带宽条件重复执行。

以此方式,图8的方法表示一方法的实例,所述方法包含确定多媒体内容的第一表 示的切换点之间的第一间隔和多媒体内容的第二表示的切换点之间的第二间隔,其中第 一间隔小于第二间隔。另外,所述方法包含基于所述确定提交指定具有至少等于第二表 示中的切换点之间的重放时间的重放时间的来自第一表示的视频数据量的网络请求;以 及在提交对于来自第一表示的视频数据量的所述请求之后,检索来自第二表示的视频数 据。

同样,图8的方法表示一方法的实例,所述方法包含形成多媒体内容的多个表示。 所述方法还包含向所述表示指派表示相应表示的切换点之间的间隔的切换点间隔信息, 以及响应于来自客户端装置的请求将表示的第一者的视频数据发送到客户端装置。所述 方法还包含在发送具有至少等于所述表示的第二不同者中的切换点之间的重放时间的 重放时间的来自第一表示的视频数据量之后,将所述表示的第二者的视频数据发送到客 户端装置,其中所述表示的第二者的切换点之间的间隔低于所述表示的第一者的切换点 之间的间隔。

图9是说明根据本发明中描述的技术的实例方法的流程图。尽管图9的方法相对于 服务器装置60和客户端装置40描述,但应理解,其它装置可实施类似于图9的方法的 技术的技术。举例来说,内容准备装置20或内容递送网络的一个或一个以上网络装置 可执行归属于服务器装置60的一些或全部功能。

图9的实例大体说明本发明的技术正由例如客户端装置40等客户端装置执行。举 例来说,客户端装置40可初始检索指定多个表示(例如,图5所示的调适群组300和308 的表示)的切换点间隔的MPD(380)。客户端装置40可接着确定可用带宽量(382)。即, 客户端装置40可确定当前可用于将数据从服务器装置(例如,服务器装置60)发射到客 户端装置40的网络带宽量。

在确定可用带宽之后,客户端装置40可识别具有相对低切换点间隔的第一表示和 具有相对高切换点间隔的第二表示。在一些实例中,第一和第二表示可具有可由可用带 宽量满足的近似相同位速率。举例来说,客户端装置40可识别具有相同或近似相同位 速率但具有包含切换点的不同间隔(例如,以及因此不同质量)的表示的调适群组。在其 它实例中,客户端装置40可识别包含具有不同位速率的表示的一个或一个以上调适群 组。客户端装置40可接着识别具有相对低切换点间隔的第一表示和具有相对高切换点 间隔的第二表示。

客户端装置40可接着缓冲来自第一表示的数据(386),且解码/显示第一表示的数据 (388)。在缓冲第一表示的足够量的数据(例如,缓冲具有等于或超过第二表示的切换点 之间的时间序列的时间数据的量)之后,客户端装置40可切换到第二表示(390)。即,客 户端装置40可缓冲、解码和显示第二表示的数据。

图10是说明根据本发明中描述的技术的实例方法的流程图。尽管图10的方法相对 于服务器装置60和客户端装置40描述,但应理解,其它装置可实施类似于图10的方 法的技术的技术。举例来说,内容准备装置20或内容递送网络的一个或一个以上网络 装置可执行归属于服务器装置60的一些或全部功能。

如上所述,本发明的技术可以多种方式使用以改进经由网络串流对视频数据的检 索。在一些实例中,两个或两个以上表示可具有相同位速率但不同切换点频率(在此实例 中称为目标表示群组)。

在图10所示的实例中,客户端装置40可初始开始检索特定位速率下的特定表示的 数据(400)。客户端装置40可接着确定网络带宽可用性已改变(402)。在一些实例中,客 户端装置40可识别网络支持当前表示的位速率的能力已改变。举例来说,可用网络带 宽的量可能已减少到客户端装置40确定应选择可由新确定的可用网络带宽量适应的具 有较低位速率的表示的点。或者,可用网络带宽量可能已增加到客户端装置40确定应 选择具有较高位速率的表示(例如,以改进重放质量)的点。

客户端装置40可接着识别目标表示群组,且特定来说具有相同或大体相同位速率 但具有至少第一表示和第二表示的表示的群组,其中第一表示包含与第二表示不同的切 换点的频率(404)。在特定实例中,第一表示可具有与比第二表示高的切换点的频率。客 户端装置40可基于位速率选择目标表示群组,其中位速率可由新确定的可用网络带宽 量满足。在其它实例中,客户端装置40可选择具有稍许不同位速率且还具有切换点的 不同频率的目标表示群组。

客户端装置40可缓冲来自目标群组的具有相对高的切换点的频率的表示(例如,上 文描述的第一表示)的足够量的数据(406)。即,举例来说,客户端装置40可缓冲来自第 一表示的足够的数据以避免缓冲器下溢,同时还避免需要同时执行两个解码器(这可消耗 过量电池和处理功率)。在缓冲此表示的足够量的数据之后,客户端装置40可切换到目 标表示群组的具有较低切换点的频率的另一者(例如,上文描述的第二表示)(408)。

在一个或一个以上实例中,所描述的功能可实施于硬件、软件、固件或其任一组合 中。如果实施在软件中,那么所述功能可作为一个或一个以上指令或代码存储在计算机 可读媒体上或经由计算机可读媒体发射,且由基于硬件的处理单元执行。计算机可读媒 体可包含例如数据存储媒体等对应于有形媒体的计算机可读存储媒体或通信媒体,通信 媒体包含促进例如根据通信协议将计算机程序从一处传送到另一处的任何媒体。以此方 式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)例如信 号或载波等通信媒体。数据存储媒体可为可由一个或一个以上计算机或一个或一个以上 处理器存取以检索用于实施本发明中所描述的技术的指令、代码和/或数据结构的任何可 用媒体。计算机程序产品可包含计算机可读媒体。

借助实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、 CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可 用以存储指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。并 且,任何连接被适当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、 双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术从网站、服务器或 其它远程源传输软件,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及 微波的无线技术包括于媒体的定义中。然而,应理解,计算机可读存储媒体和数据存储 媒体不包含连接、载波、信号或其它暂时性媒体,而是针对非暂时性有形存储媒体。如 本文中所使用,磁盘及光盘包括紧密光盘(CD)、激光光盘、光学光盘、数字多功能光盘 (DVD)、软磁盘及蓝光光盘,其中磁盘通常磁性地复制数据,而光盘使用激光光学地复 制数据。上文的组合也应包括在计算机可读媒体的范围内。

可由例如一个或一个以上数字信号处理器(DSP)、通用微处理器、专用集成电路 (ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一个或一个以上 处理器来执行所述指令。因此,如本文中所使用的术语“处理器”可指上述结构或适合 于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,可在经 配置以用于编码和解码的专用硬件和/或软件模块内提供本文中描述的功能性,或本文中 描述的功能性可并入于组合式编解码器中。并且,可将所述技术完全实施于一个或一个 以上电路或逻辑元件中。

本发明的技术可实施于广泛多种装置或设备中,包含无线手持机、集成电路(IC)或 一组IC(例如,芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执行所 揭示的技术的装置的功能方面,但各种组件、模块或单元不必需要由不同硬件单元实现。 事实上,如上文所描述,各种单元可组合于编解码器硬件单元中或结合合适的软件和/ 或固件由可互操作硬件单元(interoperative hardware unit)(包括如上文所描述的一个或一 个以上处理器)的集合来提供。

已描述了各种实例。这些及其它实例属于所附权利要求书的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号