首页> 中国专利> 针对计算机介导现实系统进行渲染时表示遮挡

针对计算机介导现实系统进行渲染时表示遮挡

摘要

总体而言,描述了用于在渲染音频数据时对遮挡进行建模的技术。包括存储器和一个或多个处理器的设备可执行所述技术。所述存储器可以存储表示声场的音频数据。所述一个或多个处理器可以获得在声音传播通过声场内的遮挡方面表示所述遮挡的遮挡元数据,所述遮挡将所述声场分隔成两个或更多个声音空间。所述一个或多个处理器可以获得所述设备的位置,以及基于遮挡元数据和所述位置,获得渲染器,渲染器用于在考虑声音在所述设备驻留于其中的所述两个或更多个声音空间中的一个声音空间中的传播的情况下将音频数据渲染到一个或多个扬声器馈送中。所述一个或多个处理器可以将渲染器应用于音频数据以生成扬声器馈送。

著录项

说明书

本申请要求享有于2019年9月26日提交的美国申请No.16/584,614的优先权,该申请要求享有于2018年10月2日提交的题为“REPRESENTING OCCULSION WHEN RENDERING FOCOMPUTER-MEDIATED REALITY SYSTEMS”的美国临时申请序列号No.62/740,085的权益,它们的全部内容通过引用的方式并入本文,如同在本文中阐述其全部内容一样。

技术领域

本公开内容涉及诸如音频数据的媒体数据的处理。

背景技术

正在开发计算机介导现实系统以允许计算设备对用户体验的现有现实进行增强或添加、移除或删减或一般地修改。计算机介导现实系统可以包括:作为几个示例,虚拟现实(VR)系统、增强现实(AR)系统和混合现实(MR)系统。计算机介导现实系统的感知成功通常涉及这样的计算机介导现实系统在视频体验和音频体验两方面提供真实沉浸式体验的能力,其中视频体验和音频体验以用户期望的方式对准。尽管人类视觉系统比人类听觉系统更敏感(例如,在场景内的各种对象的感知定位方面),但是确保足够的听觉体验在确保真实沉浸式体验方面是越来越重要的因素,特别是随着视频体验改进以允许视频对象的更好定位,这使得用户能够更好地识别音频内容的来源。

发明内容

本公开内容总体上涉及计算机介导现实系统的用户体验的听觉方面,所述计算机介导现实系统包括虚拟现实(VR)、混合现实(MR)、增强现实(AR)和/或任何其他类型的扩展现实(XR),并且还包括计算机视觉和图形系统。所述技术可以使得能够在渲染(render)用于计算机介导现实系统的音频数据时对遮挡进行建模。所述技术可以使得计算机介导现实系统能够解决遮挡(遮挡会阻止由音频数据表示的音频波(其也可以被称为“声音”)在整个虚拟空间中以各种程度传播),而不是仅考虑给定虚拟环境中的反射。此外,这些技术可基于不同虚拟环境实现不同模型,其中,例如,双耳房间脉冲响应(binaural room impulseresponse,BRIR)模型可用于虚拟室内环境中,而头部相关传递函数(head relatedtransfer function,HRTF)可用于虚拟室外环境中。

在一个示例中,所述技术涉及一种设备,其包括:存储器,被配置为存储表示声场的音频数据;以及一个或多个处理器,其耦合到所述存储器并且被配置为:获得在声音传播通过声场内的遮挡方面表示所述遮挡的遮挡元数据,所述遮挡将所述声场分隔成两个或更多个声音空间;获得所述设备在所述声场内的相对于所述遮挡的位置;基于所述遮挡元数据和所述位置,获得渲染器,所述渲染器用于在考虑所述声音在所述设备驻留于其中的所述两个或更多个声音空间中的一个声音空间中的传播的情况下将所述音频数据渲染到一个或多个扬声器馈送中;以及将所述渲染器应用于所述音频数据以生成所述扬声器馈送。

在另一示例中,所述技术涉及一种方法,其包括:由设备获得在声音传播通过声场内的遮挡方面表示所述遮挡的遮挡元数据,所述遮挡将所述声场分隔成两个或更多个声音空间;由所述设备获得所述设备在所述声场内的相对于所述遮挡的位置;由所述设备基于所述遮挡元数据和所述位置,获得渲染器,所述渲染器用于在考虑所述声音在所述设备驻留于其中的所述两个或更多个声音空间中的一个声音空间中的传播的情况下将所述音频数据渲染到一个或多个扬声器馈送中;以及由所述设备将所述渲染器应用于所述音频数据以生成所述扬声器馈送。

在另一示例中,所述技术涉及一种设备,其包括:用于获得在声音传播通过声场内的遮挡方面表示所述遮挡的遮挡元数据的单元,所述遮挡将所述声场分隔成两个或更多个声音空间;用于获得所述设备在所述声场内的相对于所述遮挡的位置的单元;用于基于所述遮挡元数据和所述位置,获得渲染器,所述渲染器用于在考虑所述声音在所述设备驻留于其中的所述两个或更多个声音空间中的一个声音空间中的传播的情况下将所述音频数据渲染到一个或多个扬声器馈送中;以及用于将所述渲染器应用于所述音频数据以生成所述扬声器馈送的单元。

在另一示例中,所述技术涉及一种其上存储有指令的非暂时性计算机可读存储介质,所述指令在被执行时使得设备的一个或多个处理器:获得在声音传播通过声场内的遮挡方面表示所述遮挡的遮挡元数据,所述遮挡将所述声场分隔成两个或更多个声音空间;获得所述设备在所述声场内的相对于所述遮挡的位置;基于所述遮挡元数据和所述位置,获得渲染器,所述渲染器用于在考虑所述声音在所述设备驻留于其中的所述两个或更多个声音空间中的一个声音空间中的传播的情况下将所述音频数据渲染到一个或多个扬声器馈送中;以及将所述渲染器应用于所述音频数据以生成所述扬声器馈送。

在另一示例中,所述技术涉及一种设备,其包括:存储器,其被配置为存储表示声场的音频数据;以及一个或多个处理器,其耦合到所述存储器并且被配置为:获得在声音传播通过所述声场内的遮挡方面表示所述遮挡的遮挡元数据,所述遮挡将所述声场分隔成两个或更多个声音空间;在表示所述音频数据的比特流中指定所述遮挡元数据,以使得能够获得渲染器,所述渲染器用于在考虑所述声音在所述两个或更多个声音空间中的一个声音空间中的传播的情况下将所述音频数据渲染到一个或多个扬声器馈送中。

在另一示例中,所述技术涉及一种方法,其包括:由设备获得在声音传播通过声场内的遮挡方面表示所述遮挡的遮挡元数据,所述遮挡将所述声场分隔成两个或更多个声音空间;由所述设备在表示描述所述声场的音频数据的比特流中指定所述遮挡元数据,以使得能够获得渲染器,所述渲染器用于在考虑所述声音在所述两个或更多个声音空间中的一个声音空间中的传播的情况下将所述音频数据渲染到一个或多个扬声器馈送中。

在另一示例中,所述技术涉及一种设备,其包括:用于获得在声音传播通过声场内的遮挡方面表示所述遮挡的遮挡元数据的单元,所述遮挡将所述声场分隔成两个或更多个声音空间;用于在表示描述所述声场的音频数据的比特流中指定所述遮挡元数据,以使得能够获得渲染器,所述渲染器用于在考虑所述声音在所述两个或更多个声音空间中的一个声音空间中的传播的情况下将所述音频数据渲染到一个或多个扬声器馈送中。

在另一示例中,所述技术涉及一种其上存储有指令的非暂时性计算机可读存储介质,所述指令在被执行时使得设备的一个或多个处理器:获得在声音传播通过声场内的遮挡方面表示所述遮挡的遮挡元数据,所述遮挡将所述声场分隔成两个或更多个声音空间;在表示描述所述声场的音频数据的比特流中指定所述遮挡元数据,以使得能够获得渲染器,所述渲染器用于在考虑所述声音在所述两个或更多个声音空间中的一个声音空间中的传播的情况下将所述音频数据渲染到一个或多个扬声器馈送中。

在附图和以下描述中阐述本公开内容的一个或多个示例的细节。根据描述和附图以及根据权利要求,本技术的各个方面的其它特征、目的和优点将是显而易见的。

附图说明

图1A和1B是示出可执行本公开内容中所描述的技术的各种方面的系统的图。

图2是示出图1A的音频解码设备可如何应用所述技术的各种方面以实现音频数据的遮挡获知渲染(occlusion aware rendering)的示例的方框图。

图3是示出图1A的音频解码设备可如何应用所述技术的各种方面以实现音频数据的遮挡获知渲染的另一示例的方框图。

图4是示出根据本公开内容所描述的技术的各方面可提供示例遮挡和伴随的遮挡元数据的方框图。

图5是示出图1A的音频解码设备可基于遮挡元数据配置的遮挡获知渲染器的示例的方框图。

图6是示出根据本公开内容中所描述的技术的各种方面,当遮挡将声场分隔成两个声音空间时图1A的音频解码设备可如何获得渲染器的方框图。

图7是示出根据本公开内容中所描述的技术的各种方面形成的图1A的音频比特流的示例部分的方框图。

图8是根据本公开内容中所描述的技术的各种方面的用于配置图1的遮挡获知渲染器的输入的方框图。

图9A和9B是示出可执行本公开内容中所描述的技术的各种方面的示例性系统的图。

图10A和10B是示出可执行本公开内容中所描述的技术的各种方面的其它示例系统的图。

图11是示出图1A和1B的系统在执行本公开内容中所描述的技术的各种方面时的示例操作的流程图。

图12是示出图1A的示例中所示的音频回放系统在执行本公开内容中所描述的技术的各种方面时的示例操作的流程图。

图13是图1A和1B的示例中所示的音频回放设备在执行本公开内容中所描述的技术的各种方面时的方框图。

图14示出根据本公开内容的各方面的支持音频流传输的无线通信系统的示例。

具体实施方式

存在许多不同的方式来表示声场。示例格式包括基于声道的音频格式、基于对象的音频格式和基于场景的音频格式。基于声道的音频格式是指5.1环绕声格式、7.1环绕声格式、22.2环绕声格式或将音频声道置于收听者周围的特定位置以便重建声场的任何其它基于声道的格式。

基于对象的音频格式可以指这样的格式,其中指定音频对象(通常使用脉冲编码调制(PCM)编码并且被称为PCM音频对象)以便表示声场。这种音频对象可以包括如下的元数据:其标识在声场中音频对象相对于收听者或其它参考点的位置,使得可以将音频对象渲染到一个或多个扬声器声道以供回放以努力重建声场。本公开内容中所描述的技术可应用于前述格式中的任何一个,包括基于场景的音频格式、基于声道的音频格式、基于对象的音频格式或其任何组合。

基于场景的音频格式可以包括在三个维度中定义声场的元素的分层集合。元素的分层集合的一个示例是球谐函数系数(SHC)的集合。以下表达式示范了使用SHC对声场的描述或表示:

该表达式示出了可由SHC,

SHC

如上所述,SHC可以从使用麦克风阵列的麦克风记录中导出。在Poletti,M的“Three-Dimensional Surround Sound Systems Based on Spherical Harmonics”(J.Audio Eng.Soc.,Vol.53,No.11,2005November,pp.1004-1025)中描述了如何从麦克风阵列物理地获取SHC的各种示例。

以下等式可以说明如何从基于对象的描述中导出SHC,考虑。可以将对应于个别音频对象的声场的系数

其中,i是

正在开发计算机介导现实系统(其也可被称为“扩展现实系统”或“XR系统”)以利用由立体混响系数提供的许多潜在益处。例如,立体混响系数可以以潜在地实现声场内的声源的准确三维(3D)定位的方式以三维表示声场。因此,XR设备可将立体混响系数渲染到扬声器馈送中,所述扬声器馈送在经由一个或多个扬声器播放时准确地再现声场。

将立体混响系数用于XR可实现依赖于由立体混响系数提供的更为沉浸式声场的许多使用情况的开发,尤其是用于计算机游戏应用和现场视频流传输应用。在依赖于声场的低时延再现的这些高度动态使用情况中,XR设备可相对于更难以操纵或涉及复杂渲染的其它表示而优选立体混响系数。关于这些使用情况的更多信息在下面参考图1A和1B提供。

虽然在本公开内容中针对VR设备进行描述,但可在例如移动设备的其它设备的上下文中执行所述技术的各种方面。在这种实例中,移动设备(诸如所谓的智能电话)可以经由屏幕呈现所显示的世界,屏幕可以被安装到用户102的头部或者如正常使用移动设备时将进行的那样被观看。这样,屏幕上的任何信息可以是移动设备的一部分。移动设备能够提供跟踪信息41,从而允许VR体验(当头戴式时)和正常体验来观看所显示的世界,其中正常体验仍可以允许用户观看所显示的世界,从而提供轻VR型的体验(例如,拿起设备并旋转或平移设备来观看所显示的世界的不同部分)。

图1A和1B是示出可执行本公开内容中所描述的技术的各种方面的系统的图。如图1A的示例所示,系统10包括源设备12和内容消费者设备14。虽然在源设备12和内容消费者设备14的上下文中描述,但所述技术可在任何的其中对声场的任何分层表示进行编码以形成表示音频数据的比特流的上下文中实施。此外,源设备12可表示能够生成声场的分层表示的任何形式的计算设备,且在本文中大体上在作为VR内容创建器设备的上下文中描述。同样,内容消费者设备14可以表示能够实施本公开内容中描述的音频流内插技术以及音频回放的任何形式的计算设备,并且在本文中大体上在作为VR客户端设备的上下文中描述。

源设备12可以由娱乐公司或其他实体操作,其可以生成供内容消费者设备(例如内容消费者设备14)的操作者消费的多声道音频内容。在许多VR场景中,源设备12结合视频内容生成音频内容。源设备12包括内容捕获设备300和内容声场表示生成器302。

内容捕获设备300可被配置为与一个或多个麦克风5A-5N(“麦克风5”)接口连接或以其它方式通信。麦克风5可表示

立体混响系数11可表示音频流的一个示例。因此,立体混响系数11还可被称为音频流11。尽管主要针对立体混响系数11进行描述,但可针对其它类型的音频流执行所述技术,这些音频流包括脉冲编码调制(PCM)音频流、基于声道的音频流、基于对象的音频流等。

在一些示例中,内容捕获设备300可以包括被集成到内容捕获设备300的外壳中的集成麦克风。内容捕获设备300可无线地或经由有线连接与麦克风5接口连接。内容捕获设备300可以并非经由麦克风5捕获音频数据或与经由麦克风5捕获音频数据相结合,而是在经由某一类型的可移除存储设备、无线地和/或经由有线输入过程或可替换地或与前述内容结合地输入立体混响系数11、生成或以其它方式产生(从所存储的声音样本,例如在游戏应用程序中常见的声音样本等)立体混响系数11之后处理立体混响系数11。这样,内容捕获设备300和麦克风5的各种组合都是可能的。

内容捕获设备300还可被配置为与声场表示生成器302接口连接或以其它方式与之通信。声场表示生成器302可以包括能够与内容捕获设备300接口连接的任何类型的硬件设备。声场表示生成器302可使用由内容捕获设备300提供的立体混响系数11来生成由立体混响系数11表示的相同声场的各种表示。

例如,为了使用立体混响系数(其同样是音频流的一个示例)生成声场的不同表示,声场表示生成器24可使用用于声场的立体混响表示的译码方案,其被称为混合阶立体混响(MOA),如于2017年8月8日提交并于2019年1月3日作为美国专利公开No.20190007781公布的题为“MIXED-ORDER AMBISONICS(MOA)AUDIO DATAFO TO COMPUTER-MEDIATEDREALITY SYSTEMS”的美国申请序列号No.15/672,058中更详细论述的。

为了生成声场的特定MOA表示,声场表示生成器24可生成立体混响系数全集的部分子集(partial subset)。例如,由声场表示生成器24生成的每个MOA表示可以针对声场的一些区域提供精度,但在其它区域中的精度较低。在一个示例中,声场的MOA表示可以包括八(8)个未经压缩立体混响系数,而同一声场的三阶立体混响表示可以包括十六(16)个未经压缩立体混响系数。因此,作为立体混响系数的部分子集而生成的声场的每个MOA表示与从立体混响系数生成的相同声场的对应三阶立体混响表示相比可以具有较少存储密集和较少带宽密集(如果且当在所示的传输通道上作为比特流27的部分而进行发送时)。

虽然针对MOA表示进行描述,但还可针对一阶立体混响(FOA)表示来执行本公开内容的技术,其中,与一阶球面基函数和零阶球面基函数相关联的所有立体混响系数用于表示声场。即,声场表示生成器302可使用给定阶数N的所有立体混响系数来表示声场,而不是使用立体混响系数的部分非零子集来表示声场,从而导致立体混响系数的总和等于(N+1)

在此方面,立体混响音频数据(其是指代MOA表示或全阶表示(例如上文所述的一阶表示)中的立体混响系数的另一方式)可以包括:与具有一或更小阶的球面基函数相关联的立体混响系数(其可被称为“1阶立体混响音频数据”)、与具有混合阶和子阶的球面基函数相关联的立体混响系数(其可被称为上文所论述的“MOA表示”)、或与具有大于一的阶数的球面基函数相关联的立体混响系数(其在上文被称为“全阶表示”)。

在一些示例中,内容捕获设备300可被配置为与声场表示生成器302进行无线通信。在一些示例中,内容捕获设备300可经由无线连接或有线连接中的一者或两者来与声场表示生成器302通信。经由内容捕获设备300与声场表示生成器302之间的连接,内容捕获设备300可以以各种内容形式提供内容,出于论述的目的,所述内容在本文中被描述为立体混响系数11的部分。

在一些示例中,内容捕获设备300可利用声场表示生成器302的各种方面(在声场表示生成器302的硬件或软件能力方面)。例如,声场表示生成器302可以包括被配置为执行心理声学音频编码(诸如由运动图像专家组(MPEG)阐述的表示为“USAC”的统一语音和音频译码器、MPEG-H3D音频译码标准、MPEG-I沉浸式音频标准或专有标准)的专用硬件(或当被执行时使得一个或多个处理器执行心理声学音频译码的专用软件),所述专有标准诸如AptX

内容捕获设备300可以不包括心理声学音频编码器专用硬件或专用软件,而是以非心理声学音频编码形式提供内容301的音频方面。声场表示生成器302可至少部分地通过针对内容301的音频方面执行心理声学音频编码来辅助对内容301的捕获。

声场表示生成器302还可通过至少部分地基于根据立体混响系数11生成的音频内容(例如,MOA表示、三阶立体混响表示和/或一阶立体混响表示)生成一个或多个比特流21,来辅助内容捕获和传输。比特流21可表示立体混响系数11的经压缩版本(和/或用于形成声场的MOA表示的其部分子集)和任何其它不同类型的内容301(例如球形视频数据、图像数据或文本数据的经压缩版本)。

声场表示生成器302可生成比特流21以供(作为一个示例)跨越传输通道传输,所述传输通道可以是有线或无线信道、数据存储设备等。比特流21可表示立体混响系数11的经编码版本(和/或用于形成声场的MOA表示的其部分子集),且可以包括主要比特流和可称为侧行信道信息的另一侧行比特流。在一些实例中,表示立体混响系数11的经压缩版本的比特流21可以符合根据MPEG-H 3D音频译码标准产生的比特流。

内容消费者设备14可以由个人操作,并且可以表示VR客户端设备。尽管针对VR客户端设备进行描述,但是内容消费者设备14可以表示其他类型的设备,例如增强现实(AR)客户端设备、混合现实(MR)客户端设备(或任何其他类型的头戴式显示设备或扩展现实XR设备)、标准计算机、头盔(headset)、头戴式耳机(headphone)、或能够跟踪操作客户端消费者设备14的个人的头部移动和/或一般平移移动的任何其他设备。如图1A的示例中所示,内容消费者设备14包括音频回放系统16A,其可指代能够将立体混响系数(无论是以一阶、二阶和/或三阶立体混响表示和/或MOA表示的形式)渲染以供回放为多声道音频内容的任何形式的音频回放系统。

内容消费者设备14可以直接从源设备12提取比特流21。在一些示例中,内容消费者设备12可与网络(包括第五代(5G)蜂窝网络)接口连接,以提取比特流21或以其它方式致使源设备12将比特流21发送到内容消费者设备14。

虽然在图1A中被示为被直接发送到内容消费者设备14,但是源设备12可以将比特流21输出到位于源设备12和内容消费者设备14之间的中间设备。中间设备可以存储比特流21,以便稍后传递给可请求该比特流的内容消费者设备14。中间设备可包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或能够存储比特流21以供音频解码器稍后提取的任何其他设备。中间设备可以驻留在能够将比特流21流传输(并且可能结合发送对应的视频数据比特流)到请求比特流21的订户(诸如内容消费者设备14)的内容递送网络中。

可替换地,源设备12可将比特流21存储到存储介质,诸如压缩光盘、数字视频光盘、高清晰度视频光盘或其他存储介质,其大部分能够被计算机读取,并且因此可被称为计算机可读存储介质或非暂时性计算机可读存储介质。在此上下文中,传输通道可指借以发送被存储到所述介质中的内容的那些通道(且可包括零售店和其他基于商店的递送机制)。因此,在任何情况下,本公开内容的技术不应限于针对图1A的示例的此方面。

如上所述,内容消费者设备14包括音频回放系统16。音频回放系统16可以表示能够回放多声道音频数据的任何系统。音频回放系统16可以包括多个不同的音频渲染器22。渲染器22可各自提供不同形式的音频渲染,其中不同形式的渲染可包括执行向量基振幅平移(VBAP)的各种方式中的一种或多种,和/或执行声场合成的各种方式中的一种或多种。如本文所用,“A和/或B”是指“A或B”,或“A和B”两者。

音频回放系统16A可进一步包括音频解码设备24。音频解码设备24可表示被配置为进行如下操作的设备:解码比特流21以输出经重构立体混响系数11A'-11N'(其可形成完整的一阶、二阶和/或三阶立体混响表示或其子集,其形成相同声场的MOA表示或其分解的MOA表示,例如MPEG-H3D音频译码标准和/或MPEG-I沉浸式音频标准中所描述的主要音频信号、环境立体混响系数和基于向量的信号)。

因此,立体混响系数11A'-11N'(“立体混响系数11'”)可类似于立体混响系数11的全集或部分子集,但可由于有损操作(例如,量化)和/或经由传输通道的传输而不同。音频回放系统16可在解码比特流21以获得立体混响系数11'之后,从立体混响系数11'的不同流获得立体混响音频数据15,且渲染立体混响音频数据15以输出扬声器馈送25。扬声器馈送25可以驱动一个或多个扬声器(为了便于说明,在图1A的示例中未示出)。声场的立体混响表示可以以各种方式归一化,包含N3D、SN3D、FuMa、N2D或SN2D。

为了选择适当的渲染器,或在一些实例中,生成适当的渲染器,音频回放系统16A可以获得指示扬声器的数量和/或扬声器的空间几何形状的扬声器信息13。在一些实例中,音频回放系统16A可以通过使用参考麦克风并以能够经由参考麦克风动态地确定扬声器信息13的方式输出信号以启动(或换句话说,驱动)扬声器,来获得扬声器信息13。在其他实例中,或者结合对扬声器信息13的动态确定,音频回放系统16A可以提示用户与音频回放系统16A进行交互并且输入扬声器信息13。

音频回放系统16A可以基于扬声器信息13来选择音频渲染器22之一。在一些实例中,当所有音频渲染器22皆不在针对扬声器信息13中指定的扬声器几何形状的某一阈值相似性度量(就扬声器几何形状而言)内时,音频回放系统16A可基于扬声器信息13生成音频渲染器22之一。在一些实例中,音频回放系统16A可以基于扬声器信息13生成音频渲染器22之一,而不首先尝试选择音频渲染器22中现有的一个音频渲染器22。

当将扬声器馈送25输出到耳机时,音频回放系统16A可以利用音频渲染器22之一,其使用头部相关传递函数(HRTF)或能够渲染到左和右扬声器馈送25以用于耳机扬声器回放的其他函数来提供双耳渲染。术语“扬声器”或“换能器”通常可以指任何扬声器,包括扩音器、头戴式耳机扬声器等。一个或多个扬声器然后可以回放所渲染的扬声器馈送25。

尽管被描述为从立体混响音频数据15渲染扬声器馈送25,但是对扬声器馈送25A的渲染的引用可以指代其他类型的渲染,诸如直接并入到从比特流21解码立体混响音频数据15的解码中的渲染。可替代渲染的示例可在MPEG-H 3D音频译码标准的附录G中找到,其中渲染发生在声场的合成之前的主要信号形成和背景信号形成期间。因此,对立体混响音频数据15的渲染的引用应当理解为指代对实际立体混响音频数据15的渲染或立体混响音频数据15的分解或其表示(诸如上述主要音频信号、环境立体混响系数和/或基于向量的信号(其也可以称为V向量))两者。

如上所述,内容消费者设备14可以表示VR设备,其中,人可穿戴显示器安装在操作VR设备的用户的眼睛前方。图9A和9B是示出VR设备400A和400B的示例的图。在图9A的示例中,VR设备400A耦合到或以其它方式包括头戴式耳机404,头戴式耳机404可通过扬声器馈送25的回放而再现由立体混响音频数据15(其为提及立体混响系数15的另一方式)表示的声场。扬声器馈送25可以表示能够使头戴式耳机404的换能器内的膜以各种频率振动的模拟或数字信号。这种过程通常被称为驱动头戴式耳机404。

视频、音频和其它感觉数据在VR体验中可能扮演重要角色。为了参与VR体验,用户402可以佩戴VR设备400A(其也可以被称为VR头盔400A)或其他可穿戴电子设备。VR客户端设备(例如VR头盔400A)可以跟踪用户402的头部移动,并且调整经由VR头盔400A示出的视频数据以考虑头部移动,从而提供沉浸式体验,在沉浸式体验中用户402可以体验视频数据中以视觉三维示出的虚拟世界。

虽然VR(以及通常可以被称为计算机介导现实设备的其他形式的AR和/或MR)可以允许用户402视觉上驻留在虚拟世界中,但是VR头盔400A经常可能缺乏将用户在听觉上置于虚拟世界中的能力。换句话说,VR系统(其可以包括负责渲染视频数据和音频数据的计算机-为了便于说明,在图9A的示例中未示出,以及VR头盔400A)可能不能支持在听觉上完全三维的沉浸。

图9B是示出可以根据本公开内容中描述的技术的各个方面进行操作的可穿戴设备400B的示例的图。在各种示例中,可穿戴设备400B可以表示VR头盔(诸如,上述VR头盔400A)、AR头盔、MR头盔或任何其他类型的XR头盔。增强现实“AR”可以指覆盖在用户实际所处的真实世界上的计算机渲染的图像或数据。混合现实“MR”可以指这样的计算机渲染的图像或数据:即,所述计算机渲染的图像或数据是被锁定到真实世界中的特定位置的世界,或者混合现实“MR”可以指VR上的变体,其中部分计算机渲染的3D元素和部分拍摄的现实元素被组合成模拟用户在环境中的物理存在的沉浸式体验。扩展现实“XR”可以表示VR、AR和MR的通用术语。关于XR的术语的更多信息可在Jason Peterson的日期为2017年7月7日的题为“Virtual Reality,Augmented Reality,and Mixed Reality Definitions”的文献中找到。

可穿戴设备400B可以表示其他类型的设备,诸如手表(包括所谓的“智能手表”)、眼镜(包括所谓的“智能眼镜”)、头戴式耳机(包括所谓的“无线头戴式耳机”和“智能头戴式耳机”)、智能服装、智能珠宝等。无论是代表VR设备、手表、眼镜和/或头戴式耳机,可穿戴设备400B可以经由有线连接或无线连接与支持可穿戴设备400B的计算设备进行通信。

在一些实例中,支持可穿戴设备400B的计算设备可以集成在可穿戴设备400B内,并且因此,可穿戴设备400B可以被认为是与支持可穿戴设备400B的计算设备相同的设备。在其他实例中,可穿戴设备400B可以与可支持可穿戴设备400B的分离的计算设备通信。在这方面,术语“支持”不应被理解为需要分离的专用设备,而是被配置为执行本公开内容中描述的技术的各个方面的一个或多个处理器可以被集成在可穿戴设备400B内或者被集成在与可穿戴设备400B分离的计算设备内。

例如,当可穿戴设备400B表示VR设备400B的示例时,根据本公开内容中描述的技术的各个方面,分离的专用计算设备(诸如包括一个或多个处理器的个人计算机)可以渲染音频和视觉内容,而可穿戴设备400B可以基于平移头部移动来确定专用计算设备可以在其上渲染音频内容(作为扬声器馈送)的平移头部移动。作为另一示例,当可穿戴设备400B表示智能眼镜时,可穿戴设备400B可以包括一个或多个处理器,该一个或多个处理器既确定平移的头部移动(通过在可穿戴设备400B的一个或多个传感器内进行接口连接)又基于所确定的平移头部移动来渲染扬声器馈送。

如图所示,可穿戴设备400B包括一个或多个定向扬声器以及一个或多个跟踪和/或记录相机。另外,可穿戴设备400B包括一个或多个惯性、触觉和/或健康传感器、一个或多个眼睛跟踪相机、一个或多个高灵敏度音频麦克风和光学器件/投影硬件。可穿戴设备400B的光学/投影硬件可以包括耐用的半透明显示技术和硬件。

可穿戴设备400B还包括连接硬件,其可以表示支持多模式连接(诸如4G通信、5G通信、蓝牙等)的一个或多个网络接口。可穿戴设备400B还包括一个或多个环境光传感器和骨传导换能器。在一些示例中,可穿戴设备400B还可以包括具有鱼眼镜头和/或远摄镜头的一个或多个无源和/或有源相机。尽管在图5B中未示出,但是可穿戴设备400B还可以包括一个或多个发光二极管(LED)灯。在一些示例中,(一个或多个)LED灯可以被称为(一个或多个)“超亮”LED灯。在一些实施方式中,可穿戴设备400B还可以包括一个或多个后置相机。将理解,可穿戴设备400B可以呈现各种不同的形状因子。

此外,跟踪和记录相机和其他传感器可以便于确定平移距离。尽管在图9B的示例中未示出,但是可穿戴设备400B可以包括用于检测平移距离的其他类型的传感器。

尽管针对可穿戴设备的特定示例进行了描述,诸如以上针对图9B的示例讨论的VR设备400B和在图1A和1B的示例中阐述的其他设备,但是本领域普通技术人员将理解,与图1A-1B相关的描述可以应用于可穿戴设备的其他示例。例如,诸如智能眼镜的其他可穿戴设备可以包括借以获得平移头部移动的传感器。作为另一示例,诸如智能手表的其他可穿戴设备可以包括借以获得平移移动的传感器。因此,本公开内容中描述的技术不应限于特定类型的可穿戴设备,而是任何可穿戴设备可被配置为执行本公开内容中描述的技术。

在任何情况下,都将VR的音频方面分成三种分离的沉浸感类别。第一类提供最低的沉浸水平,并且被称为三个自由度(3DOF)。3DOF指的是考虑头部在三个自由度(偏转、俯仰和滚转)上的移动的音频渲染,由此允许用户在任何方向上自由地环顾。然而,3DOF不能考虑这样的平移头部移动:即在平移头部移动中,头部不以声场的光学和声学中心为中心。

第二类,称为3DOF加(3DOF+),除了提供了三个自由度(偏转、俯仰和滚转)之外,还有由于头部在声场内远离光学中心和声学中心的移动而导致的有限的空间平移移动。3DOF+可以提供对诸如运动视差之类的的感知效果的支持,这可以增强沉浸感。

第三类,称为六个自由度(6DOF),以考虑头部移动(偏转、俯仰和滚转)方面的三个自由度并且还考虑用户在空间中的平移(x、y和z平移)的方式来渲染音频数据。空间平移可以由跟踪用户在物理世界中的位置的传感器或通过输入控制器来引起。

3DOF渲染是VR音频方面的现有技术。这样,VR的音频方面比视频方面的沉浸感小,从而潜在地减少了用户体验的整体沉浸感,并且引入了定位误差(例如,诸如当听觉回放与视觉场景不匹配或不准确相关时)。

此外,仍然在开发如何针对虚拟环境对声音进行建模,以在各种环境对象可能影响声音在虚拟环境内的传播时,实现更逼真的声音传播。这样,当声音看起来以在面对具有类似几何形状和对象的真实环境时不能准确地反映VR头盔400的用户预期何时的方式传播通过虚拟环境时,音频沉浸感可能劣化。作为一个示例,常见VR音频软件开发者套件可仅允许对声音从物体(其也可称为“遮挡”)的直接反射进行建模,所述物体例如墙壁、门(其中用于门和其它可移动物理-虚拟-遮挡的遮挡元数据305可由于门处于不同打开或关闭状态而改变)等,其将声场分隔成两个或更多个声音空间,且这些常见VR音频软件开发者套件不考虑声音可如何传播穿过此类物体,从而减少了预期大声音(例如枪声、尖叫声、直升机等)传播穿过例如墙壁和门之类的一些物体的音频沉浸感。

根据本公开内容中所描述的技术,源设备12可获得遮挡元数据(其可表示元数据305的一部分且因此可被称为“遮挡元数据305”),所述遮挡元数据在声音传播通过声场(由经编辑音频数据表示,其可形成经编辑内容303的一部分且因此可表示为“经编辑音频数据305”)内的遮挡方面表示所述遮挡。音频编辑器在编辑音频数据301时,并且在一些示例中,可以指定遮挡元数据305。

可替换地或结合遮挡元数据305的手动输入,内容编辑设备可以自动生成遮挡元数据305(例如,经由在被执行时将内容编辑器设备304被配置为自动生成遮挡元数据305的软件)。在一些实例中,音频编辑器可以识别遮挡,并且内容编辑器设备304可以自动地将预定义的遮挡元数据305与手动识别的遮挡相关联。在任何情况下,内容编辑器设备304都可获得遮挡元数据305且将遮挡元数据305提供给声场表示生成器302。

声场表示生成器302可表示如下设备或其他单元的一个示例:即所述设备或其他单元被配置为,在表示经编辑音频内容303的音频比特流21(其可指代一个或多个比特流21中的一个)中指定遮挡元数据305以使得(例如由音频回放系统16)能够获得渲染器22,其中,所述渲染器22用于将经编辑音频内容303渲染到一个或多个扬声器馈送25中以对声音如何在由遮挡分隔的两个或更多个声音空间中的一个声音空间中传播进行建模(或换句话说,对其加以考虑)(或,以稍微不同文字,考虑声音在由所述遮挡分隔的两个或更多个声音空间中的一个声音空间中的传播)。

在一些示例中,音频解码设备24可从音频比特流21获得在声音传播通过声场内的遮挡方面表示所述遮挡的遮挡元数据305,其中同样,所述遮挡可将声场分隔成两个或更多个声音空间。音频解码设备24还可获得该设备(其在此实例中可指代音频回放系统16,其一个示例是VR设备)在声场内相对于遮挡的位置17。

即,音频回放系统16可以与跟踪设备306接口连接,跟踪设备306表示被配置为获得设备的位置17的设备。音频回放系统16可以将实际空间内的物理位置17转换成虚拟环境内的位置,并且识别音频回放系统16相对于遮挡位置的位置317。音频回放系统16可基于遮挡元数据305和位置317获得渲染器22中的遮挡获知渲染器,其中,该遮挡获知渲染器用于将音频数据15渲染到一个或多个扬声器馈送中,以对声音如何在音频回放系统16驻留于其中的所述两个或更多个声音空间中的一个声音空间中传播进行建模。音频回放系统16可接着应用该遮挡获知渲染器(其可表示为“遮挡获知渲染器22”)以生成扬声器馈送25。

遮挡元数据305可以包括多个不同类型的元数据的任何组合,包括音量衰减因子、仅直接路径指示、低通滤波器描述和对遮挡位置的指示中的一项或多项。音量衰减因子可以表示与音频数据15相关联的音量在通过遮挡时被减小的量。仅直接路径指示可以表示是存在用于音频数据15的直接路径还是要(经由遮挡获知渲染器22)向音频数据15应用混响(reverberation)处理。低通滤波器描述可以表示:用于描述低通滤波器的系数,或者低通滤波器的参数描述(如被集成到遮挡获知渲染器22中或者与其一起应用)。

音频解码设备24可利用遮挡元数据305来生成遮挡获知渲染器22,该遮挡获知渲染器22混合实况、预先记录的和合成的音频内容以供3DOF或6DOF渲染。遮挡元数据305可定义遮挡声学特性信息,所述遮挡声学特性信息使音频解码设备24能够识别声音空间如何相互作用。即,该遮挡元数据305可以定义声音空间的边界、与遮挡相关的衍射(或者换句话说,阴影)、与遮挡相关的吸收(或者换句话说,泄漏)、以及遮挡所处的环境。

音频解码设备24可以任何数量的方式利用遮挡元数据305来生成遮挡获知渲染器22。例如,音频解码设备24可利用遮挡元数据305作为离散数学方程式的输入。作为另一示例,音频解码设备24可利用遮挡元数据305作为对经验导出的滤波器的输入。作为又一示例,音频解码设备24可利用遮挡元数据305作为用于匹配声音空间的效果的机器学习算法的输入。在一些示例中,音频解码设备24还可利用前述示例的任何组合来生成遮挡获知渲染器22,包含允许手动干预以覆盖前述示例(例如,出于艺术性目的)。针对图2的示例进一步描述如何可应用本公开内容中所描述的技术的各种方面来潜在地改进对音频数据的渲染以考虑遮挡并增加音频沉浸感的示例。

尽管如图2的示例中所示针对VR设备进行描述,但是所述技术可以由其他类型的可穿戴设备执行,包括手表(诸如所谓的“智能手表”)、眼镜(诸如所谓的“智能眼镜”)、头戴式耳机(包括经由无线连接耦合的无线头戴式耳机,或者经由有线或无线连接耦合的智能头戴式耳机)和任何其他类型的可穿戴设备。由此,这些技术可由用户可在用户穿戴时通过其与可穿戴设备交互的任何类型的可穿戴设备来执行。

图2是示出图1A的音频解码设备可如何应用所述技术的各种方面以促进对音频数据的遮挡获知渲染的示例的方框图。在图3的示例中,音频解码设备24可获得音频数据15,音频数据15表示在部分452处重叠的两个声场450A和450B。当多个声场450A和450B重叠时,音频解码设备24可获得遮挡元数据305,其标识:声场450A和450B的边界重叠,以及声场450A和450B中的一个声场可将声场450A和450B中的另一个声场遮挡到什么程度。

更具体而言,当位置317指示音频回放系统16位于位置454A(表示为“L

在图2的示例中,声场450A和450B的重叠部分452包括两个声音空间456A和456B。遮挡元数据305可以包括用于两个声音空间456A和456B中的每一个声音空间的声音空间边界,这可使得音频解码设备24能够获得潜在地反映遮挡的程度的遮挡获知渲染器22(由于两个声场450A和450B的重叠)。因此,除了指代可阻碍声音的传播的虚拟物体之外,遮挡还可指代重叠声场450A和450B。因此,遮挡可以指影响声音传播的任何物理交互(其在图2的示例中指声波的交互)。

遮挡元数据305还可以包括当音频回放系统16的用户在声场450A和450B内移动时如何转变遮挡获知渲染器。例如,音频解码设备24可基于遮挡元数据305获得遮挡获知渲染器22,遮挡获知渲染器22在音频回放系统16的用户的位置317朝向部分452的边缘移动时将音频数据15的背景分量转变为前景分量。

如上所述,遮挡元数据305还可以包括对遮挡的指示,使得音频解码设备24可获得遮挡(例如,部分452)相对于音频回放系统16的位置317的距离。当声场从相当大的距离(例如,例如高于某一阈值距离)被遮挡时,音频解码设备24可生成遮挡获知渲染器22以将该遮挡建模为单声道源,所述单声道源接着根据遮挡获知渲染器而被渲染。作为示例,假设位置317指示音频回放系统16位于位置454A处,且在位置454A和454B之间存在障碍(表示为“L

图3是示出图1A的音频解码设备可如何应用所述技术的各种方面以促进对音频数据的遮挡获知渲染的另一示例的方框图。在图3的示例中,音频解码设备24可获得音频数据15,音频数据15表示由音频数据15A-15E和15F-15H界定的两个声场460A和460B。如图3的示例中进一步所示,声场460A包括由音频数据15A-15B和15C-15E表示的两个区域464A和464B,且声场460B包括由音频数据15F-15H表示的单个区域464C。

假定其中用户能够从声场460A移动到声场460B(或反之亦然从声场460B移动到声场460A)的场景。在此场景中,音频解码设备24可获得指示是否可在声场460B中听到来自声场460A的声音(或换句话说,传播到声场460B)(且反之亦然,可在声场460A中听到来自声场460B的声音)的遮挡元数据305。遮挡元数据305可在此方面在两个不同声场460A与460B之间进行区分。

此外,音频解码设备24可接收按区域464A-464C中的每一个区域进行分组的音频数据15A-15G。内容编辑设备304可以将遮挡元数据305的不同部分与区域464A-464C中的每一个区域相关联(或者,换句话说,与多个音频数据相关联-例如,遮挡元数据305的第一部分与音频数据15A-15B相关联,遮挡元数据305的第二部分与音频数据15C-15E相关联,而遮挡元数据305的第三部分与音频数据15F-15G相关联)。遮挡元数据305的不同部分与区域464A-464C中的每一个区域的关联可促进遮挡元数据305的更高效传输,因为可发送更少的遮挡元数据,从而促进更紧凑的比特流,这减少了存储器和带宽消耗以及生成音频比特流21时的处理周期。

以此方式,音频解码设备24可基于遮挡元数据305和位置317获得用于不同的音频数据集合(例如,一组音频对象-例如,音频对象15A和15B)的第一渲染器,并将第一渲染器应用于第一组音频对象以获得第一扬声器馈送。音频解码设备24可接着基于遮挡元数据305和位置317获得用于第二组音频对象15F-15H的第二渲染器,并将第二渲染器应用于第二组对象以获得第二扬声器馈送。音频解码设备24可接着基于第一扬声器馈送和第二扬声器馈送获得扬声器馈送。下面将针对图4的示例提供关于如何经由遮挡元数据305来定义物理遮挡(如墙壁)的更多信息。

图4是示出根据本公开内容所描述的技术的各方面可提供示例遮挡和伴随的遮挡元数据的方框图。如图4的示例所示,由音频数据15表示的入射声能470A(其可在数学上由变量E

响应于确定入射声能470A与遮挡472交互,音频解码设备24可基于遮挡元数据305获得反射声能470B(其可在数学上由变量E

E

其中α=1可以表示100%吸收,α=0可以表示0%吸收(或者,换句话说,全反射)。

被吸收的声能的量取决于遮挡472的材料类型、遮挡472的重量和/或密度、以及遮挡472的厚度,这进而可能对入射声波的频率有影响。遮挡元数据305可以一般地指定吸收系数和声音泄漏或针对特定频率或频率范围指定吸收系数和声音泄漏。下表提供了针对不同材料和不同频率的吸收系数的一个示例。

关于各种吸收系数和其它遮挡元数据305以及可如何使用该遮挡元数据305来对遮挡进行建模的更多信息可在于2014年出版的Marshall Long的题为“ArchitecturalAcoustics”一书中找到。

图5是示出图1A的音频解码设备可基于遮挡元数据配置的遮挡获知渲染器的示例的方框图。在图5的示例中,遮挡获知渲染器22可以包括音量控制单元480和低通滤波器单元482(其可以在数学上实现为单个渲染矩阵,但是为了讨论的目的以分解的形式示出)。

音量控制单元480可以应用音量衰减因子(如上所述在遮挡元数据305中指定的)来衰减音频数据15的音量(或者以其他方式,增益)。音频解码设备24可基于低通滤波器描述来配置低通滤波器单元482,所述低通滤波器描述可基于障碍材料元数据(如上所述在遮挡元数据305中指定)来提取。低通滤波器描述可以包括描述低通滤波器的系数或低通滤波器的参数描述。

音频解码设备24还可基于对仅直接路径的指示来配置遮挡获知渲染器22,所述指示可指代是直接应用遮挡获知渲染器22还是在混响处理之后再应用遮挡获知渲染器22。音频解码设备24可基于指示音频回放系统16所位于的声音空间的环境的环境元数据,来获得对仅直接路径的指示。所述环境可以指示用户位于室内还是室外、环境的大小或环境的其他几何信息、介质(诸如空气或水)、等等。

当将环境指示为在室内时,音频解码设备24可获得对所述仅直接路径为假的指示,因为渲染应在执行混响处理之后进行以考虑室内环境。当将环境指示为在室外时,音频解码设备24可获得对上述仅直接路径为真的指示,因为渲染被配置为直接进行(假定在室外环境中不存在混响或存在有限的混响)。

因此,音频解码设备24可获得描述音频回放系统16驻留于其中的虚拟环境的环境元数据。音频解码设备24可接着基于遮挡元数据305获得环境元数据(其在一些示例中与遮挡元数据305分隔,尽管上文描述为包含在遮挡元数据305中)以及位置317、遮挡获知渲染器22。当环境元数据描述虚拟室内环境时,音频解码设备24可基于遮挡元数据305和位置317获得双耳房间脉冲响应渲染器22。当环境元数据描述虚拟室外环境时,音频解码设备24可基于遮挡元数据305和位置317获得头部相关传递函数渲染器22。

图6是示出根据本公开内容中所描述的技术的各种方面,当遮挡将声场分隔成两个声音空间时,图1A的音频解码设备可如何获得渲染器的方框图。类似于图3和5的示例,图6的示例中所示的声场490由遮挡494分隔成两个声音空间492A和492B。音频解码设备24可获得描述遮挡494的遮挡元数据305(例如,音量和障碍的位置)。

基于遮挡元数据305,音频解码设备24可确定用于声音空间492的第一渲染器22A和用于声音空间492B的第二渲染器22B。音频解码设备24可将第一渲染器22A应用于声音空间492B中的音频数据15L以确定在声音空间492A中应听到音频数据15L中的多少。音频解码设备24可将第二渲染器22B应用于声音空间492A中的音频数据15J和15K,以确定在声音空间492B中应听到音频数据15J和15K中的多少。

在这方面,音频解码设备24可获得第一渲染器,所述第一渲染器用于将音频数据的至少第一部分渲染到一个或多个第一扬声器馈送中以对声音如何在第一声音空间中传播进行建模,并且可获得第二渲染器,所述第二渲染器用于将音频数据的至少第二部分渲染到一个或多个第二扬声器馈送中以对声音如何在第二声音空间中传播进行建模。

音频解码设备24可将第一渲染器22A应用于音频数据的第一部分15L以生成第一扬声器馈送,且将第二渲染器22B应用于音频数据的第二部分15J和15K以生成第二扬声器馈送。音频解码设备24可接着基于第一扬声器馈送和第二扬声器馈送来获得扬声器馈送25。

图7是示出根据本公开内容中所描述的技术的各种方面形成的图1A的音频比特流的示例部分的方框图。在图7的示例中,音频比特流21包括与具有相关联元数据的对应不同音频数据集合15相关联的音景(其为指代声场的另一方式)元数据500A、与具有相关联元数据的对应不同音频数据集合15相关联的音景元数据500B、等等。

与相同音景元数据500A或500B相关联的不同音频数据集合15中的每一个可全部驻留在相同声音空间内。作为一些示例,用单个音景元数据500对不同音频数据集合15进行的分组可应用于表示人群、汽车组或彼此紧密接近的其它声音的不同音频数据集合15。将单个音景元数据500A或500B与不同音频数据集合15相关联可产生更有效的比特流21,其减少处理周期、带宽(包含总线带宽)及存储器消耗(与针对不同音频数据集合15中的每一个具有单独音景元数据500相比)。

图8是根据本公开内容中所描述的技术的各种方面的用于配置图1的遮挡获知渲染器的输入的方框图。如图8的示例中所示,音频解码设备24可利用障碍(或换句话说,遮挡)元数据305A-305N、音景元数据500A-500N(其可被称作“声音空间元数据500”)及用户位置317(其为提及位置317的另一方式)。

下表指定了为了支持本公开内容中所描述的遮挡获知渲染技术的各个方面而可指定什么元数据的示例。

图1B为示出被配置为执行本公开内容中所描述的技术的各种方面的另一示例系统100的方框图。系统100类似于图1A中所示的系统10,除了将图1A中所示的音频渲染器22替换为双耳渲染器102,双耳渲染器102能够使用一个或多个HRTF或者能渲染到左和右扬声器馈送103的其他函数来执行双耳渲染。

音频回放系统16可以将左和右扬声器馈送103输出到头戴式耳机104,其可以表示可穿戴设备的另一示例并且其可以耦合到另外的可穿戴设备以促进声场的再现,诸如手表、上文提到的VR头盔、智能眼镜、智能服装、智能戒指、智能手镯或任何其他类型的智能珠宝(包括智能项链)等。头戴式耳机104可以无线地或经由有线连接耦合到另外的可穿戴设备。

另外,头戴式耳机104可以经由有线连接(诸如标准3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其他形式的有线连接)或无线地(诸如通过蓝牙

尽管针对可穿戴设备的特定示例进行了描述,诸如以上针对图2的示例讨论的VR设备400和在图1A和图1B的示例中阐述的其他设备,但是本领域普通技术人员将理解,与图1A-图2有关的描述可以应用于可穿戴设备的其他示例。例如,诸如智能眼镜之类的其他可穿戴设备可以包括用以获得平移头部移动的传感器。作为另一示例,诸如智能手表之类的其他可穿戴设备可以包括用以获得平移移动的传感器。因此,本公开内容中描述的技术不应限于特定类型的可穿戴设备,而是任何可穿戴设备都可被配置为执行本公开内容中描述的技术。

图10A和10B是示出可执行本公开内容中所描述的技术的各种方面的示例系统的图。图10A示出了其中源设备12还包括相机200的示例。相机200可被配置为捕获视频数据,并将捕获的原始视频数据提供给内容捕获设备300。内容捕获设备300可将视频数据提供到源设备12的另一组件以供进一步处理成经视口划分的部分。

在图10A的示例中,内容消费者设备14还包括可穿戴设备800。将理解,在各种实施方式中,可穿戴设备800可以被包括在内容消费者设备14中或者外部耦合到内容消费者设备14。如上文针对图10A和10B所讨论的,可穿戴设备800包括用于输出视频数据(例如,如与各种视口相关联的)和用于渲染音频数据的显示器硬件和扬声器硬件。

图10B示出了与图10A所示的示例类似的示例,除了将图10A所示的音频渲染器22替换为双耳渲染器102,双耳渲染器102能够使用一个或多个HRTF或者能渲染到左和右扬声器馈送103的其他函数来执行双耳渲染。音频回放系统16可以将左和右扬声器馈送103输出到头戴式耳机104。

头戴式耳机104可以经由有线连接(诸如标准3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其他形式的有线连接)或无线地(诸如通过蓝牙

图11是示出图1A中所示的源设备在执行本公开内容中所描述的技术的各种方面时的示例操作的流程图。源设备12可获得在声音传播通过声场(由经编辑音频数据表示,其可形成经编辑内容303的一部分且因此可表示为“经编辑音频数据305”)内的遮挡方面表示遮挡的遮挡元数据(其可表示元数据305的一部分且因此可被称为“遮挡元数据305”),其中遮挡将声场分隔成两个或更多个声音空间(950)。音频编辑器在编辑音频数据301时,并且在一些示例中,可以指定遮挡元数据305。

声场表示生成器302可在表示经编辑音频内容303的音频比特流21(其可指代一个或多个比特流21中的一个)中指定遮挡元数据305,以使得能够(由例如音频回放系统16)获得渲染器22,渲染器22用于将经编辑音频内容303渲染到一个或多个扬声器馈送25中以对声音如何在由遮挡分隔的两个或更多个声音空间中的一个声音空间中传播进行建模(或换句话说,对其加以考虑)(或,以稍微不同文字,考虑声音在由遮挡分隔的两个或更多个声音空间中的一个声音空间中的传播)(952)。

图12是示出图1A的示例中所示的音频回放系统在执行本公开内容中所描述的技术的各种方面时的示例操作的流程图。在一些示例中,(音频回放系统16的)音频解码设备24可从音频比特流21获得在声音传播通过声场内的遮挡方面表示遮挡的遮挡元数据305,其中同样,遮挡可将声场分隔成两个或更多个声音空间(960)。音频解码设备24还可获得该设备(其在此实例中可指代音频回放系统16,其一个示例是VR设备)在声场内相对于遮挡的位置17(962)。

音频解码设备24可基于遮挡元数据305和位置17,获得遮挡获知渲染器22,遮挡获知渲染器22用于在考虑声音在音频回放系统16驻留(例如,虚拟地)于其中的两个或更多个声音空间中的一个声音空间中的传播的情况下将表示声场的音频数据15渲染到一个或多个扬声器馈送25中(964)。音频回放系统16接下来可将遮挡获知渲染器25应用于音频数据15以生成扬声器馈送25(966)。

图13是图1A和1B的示例中所示的音频回放设备在执行本公开内容中所描述的技术的各种方面时的方框图。音频回放设备16可表示音频回放设备16A和/或音频回放设备16B的示例。音频回放系统16可以包括与6DOF音频渲染器22A结合的音频解码设备24,该音频渲染器22A可代表图1A的示例中所示的音频渲染器22的一个示例。

音频解码设备24可以包括低延迟解码器900A、音频解码器900B和本地音频缓冲器902。低延迟解码器900A可对XR音频比特流21A进行处理以获得音频流901A,其中低延迟解码器900A可执行相对低复杂性的解码(与音频解码器900B相比)以促进音频流901A的低延迟重构。音频解码器900B可以针对音频比特流21B执行相对较高复杂性的解码(与音频解码器900A相比)以获得音频流901B。音频解码器900B可执行符合MPEG-H 3D音频译码标准的音频解码。本地音频缓冲器902可表示被配置为缓冲本地音频内容的单元,本地音频缓冲器902可将本地音频内容作为音频流903输出。

比特流21(包括XR音频比特流21A和/或音频比特流21B中的一个或多个)还可以包括XR元数据905A(其可以包括上述麦克风位置信息)和6DOF元数据905B(其可指定与6DOF音频渲染相关的各种参数)。6DOF音频渲染器22A可以获得音频流901A、901B和/或903以及XR元数据905A和6DOF元数据905B,并基于收听者位置和麦克风位置来渲染扬声器馈送25和/或103。在图13的示例中,6DOF音频渲染器22A包括内插设备30,其可以执行上面更详细描述的音频流选择和/或内插技术的各种方面以促进6DOF音频渲染。

图14示出根据本公开内容的各方面的支持音频流传输的无线通信系统100的示例。无线通信系统100包括基站105、UE 115和核心网络130。在一些示例中,无线通信系统100可以是长期演进(LTE)网络、高级LTE(LTE-A)网络、LTE-A Pro网络或新无线电(NR)网络。在一些情况下,无线通信系统100可以支持增强型宽带通信、超可靠(例如,任务关键)通信、低延迟通信、或与低成本和低复杂度设备的通信。

基站105可以经由一个或多个基站天线与UE 115无线地通信。本文描述的基站105可以包括或者可以被本领域技术人员称为基站收发台、无线电基站、接入点、无线电收发机、节点B、eNodeB(eNB)、下一代节点B或千兆节点B(其中任一个可以被称为gNB)、家庭节点B、家庭eNodeB或某个其它适当的术语。无线通信系统100可以包括不同类型的基站105(例如,宏小区基站或小型小区基站)。本文描述的UE 115能够与各种类型的基站105和网络设备进行通信,包括宏eNB、小型小区eNB、gNB、中继基站等。

每个基站105可以与特定地理覆盖区域110相关联,在特定地理覆盖区域110中支持与各个UE115的通信。每个基站105可以经由通信链路125提供针对相应地理覆盖区域110的通信覆盖,并且基站105和UE 115之间的通信链路125可以利用一个或多个载波。无线通信系统100中所示的通信链路125可以包括从UE 115到基站105的上行链路传输,或者从基站105到UE 115的下行链路传输。下行链路传输也可被称为前向链路传输,而上行链路传输也可被称为反向链路传输。

可以将基站105的地理覆盖区域110划分为构成地理覆盖区域110的一部分的扇区,并且每个扇区可以与小区相关联。例如,每个基站105可以为宏小区、小型小区、热点或其他类型的小区或其各种组合提供通信覆盖。在一些示例中,基站105可以是可移动的,并且因此为移动的地理覆盖区域110提供通信覆盖。在一些示例中,与不同技术相关联的不同地理覆盖区域110可以重叠,并且与不同技术相关联的重叠地理覆盖区域110可以由相同基站105或不同基站105支持。无线通信系统100可以包括例如异构LTE/LTE-A/LTE-A Pro或NR网络,其中不同类型的基站105为各种地理覆盖区域110提供覆盖。

UE 115可以分散在整个无线通信系统100中,并且每个UE 115可以是固定的或移动的。UE 115还可以被称为移动设备、无线设备、远程设备、手持设备或订户设备,或者某个其它适当的术语,其中“设备”还可以被称为单元、站、终端或客户端。UE 115还可以是个人电子设备,例如蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机或个人计算机。在本公开内容的示例中,UE 115可以是本公开内容中描述的音频源中的任何一个,包括VR头盔、XR头盔、AR头盔、车辆、智能电话、麦克风、麦克风阵列、或者包括麦克风或者能够发送捕获的和/或合成的音频流的任何其它设备。在一些示例中,合成音频流可以是存储在存储器中或先前创建或合成的音频流。在一些示例中,UE 115还可以指无线本地环路(WLL)站、物联网(IoT)设备、万物联网(IoE)设备或MTC设备等,其可以在诸如电器、车辆、仪表等的各种制品中实现。

诸如MTC或IoT设备之类的一些UE 115可以是低成本或低复杂度设备,并且可以提供机器之间的自动通信(例如,经由机器对机器(M2M)通信)。M2M通信或MTC可指允许设备彼此通信或与基站105通信而无需人为干预的数据通信技术。在一些示例中,M2M通信或MTC可以包括来自如下设备的通信:所述设备交换和/或使用指示隐私限制和/或基于口令的隐私数据的音频元数据,以切换、屏蔽和/或无效各种音频流和/或音频源,如将在下面更详细地描述的。

在一些情况下,UE 115还能够直接与其它UE 115通信(例如,使用对等(P2P)或设备对设备(D2D)协议)。利用D2D通信的一组UE 115中的一个或多个可以在基站105的地理覆盖区域110内。这种组中的其它UE 115可以在基站105的地理覆盖区域110之外,或者由于其他原因而不能从基站105接收传输。在一些情况下,经由D2D通信进行通信的UE 115的组可以利用一对多(1:M)系统,其中每个UE 115向组中的每个其他UE 115进行发送。在一些情况下,基站105促进用于D2D通信的资源的调度。在其他情况下,在UE 115之间执行D2D通信,而不涉及基站105。

基站105可以与核心网络130通信并且彼此通信。例如,基站105可以通过回程链路132(例如,经由S1、N2、N3或其他接口)与核心网络130接口连接。基站105可以通过回程链路134(例如,经由X2、Xn或其他接口)直接(例如,在基站105之间直接)或间接(例如,经由核心网络130)彼此通信。

在一些情况下,无线通信系统100可以利用已许可和未许可的无线电频谱频带。例如,无线通信系统100可在诸如5GHz ISM频带的未许可频带中采用许可辅助接入(LAA)、LTE未许可(LTE-U)无线电接入技术或NR技术。当在未许可无线电频谱频带中操作时,诸如基站105和UE 115之类的无线设备可以采用通话前监听(LBT)过程来确保在发送数据之前频率信道是空闲的。在一些情况下,未许可频带中的操作可以基于载波聚合配置,该载波聚合配置结合在已许可频带中操作的分量载波(例如,LAA)。未许可频谱中的操作可以包括下行链路传输、上行链路传输、对等传输、或这些的组合。未许可频谱中的双工可以基于频分双工(FDD)、时分双工(TDD)或两者的组合。

在这方面,描述了实现以下条款中阐述的示例中的一个或多个的所述技术的各个方面:

条款1A.一种设备,包括:存储器,被配置为存储表示声场的音频数据;以及一个或多个处理器,耦合到所述存储器,并且被配置为:获得在声音传播通过所述声场内的遮挡方面表示所述遮挡的遮挡元数据,所述遮挡将所述声场分隔成两个或更多个声音空间;获得所述设备在所述声场内的相对于所述遮挡的位置;基于所述遮挡元数据和所述位置,获得渲染器,所述渲染器用于在考虑所述声音在所述设备驻留于其中的所述两个或更多个声音空间中的一个声音空间中的传播的情况下将所述音频数据渲染到一个或多个扬声器馈送中;以及将所述渲染器应用于所述音频数据以生成所述扬声器馈送。

条款2A.根据条款1A的设备,其中,所述一个或多个处理器还被配置为:获得描述所述设备驻留于其中的虚拟环境的环境元数据,并且其中,所述一个或多个处理器被配置为:基于所述遮挡元数据、所述位置和所述环境元数据来获得所述渲染器。

条款3A.根据条款2A的设备,其中,所述环境元数据描述虚拟室内环境,并且其中所述一个或多个处理器被配置为:当所述环境元数据描述所述虚拟室内环境时,基于所述遮挡元数据和所述位置来获得双耳房间脉冲响应渲染器。

条款4A.根据条款2A的设备,其中,所述环境元数据描述虚拟室外环境,并且其中所述一个或多个处理器被配置为:当所述环境元数据描述所述虚拟室外环境时,基于所述遮挡元数据和所述位置获得头部相关传递函数渲染器。

条款5A.根据条款1A-4A的任何组合的设备,其中,所述遮挡元数据包括音量衰减因子,所述音量衰减因子表示在通过所述遮挡时与所述音频数据相关联的音量被减小的量。

条款6A.根据条款1A-5A的任何组合的设备,其中,所述遮挡元数据包括仅直接路径指示,所述仅直接路径指示表示是存在用于所述音频数据的直接路径还是要向所述音频数据应用混响处理。

条款7A.根据条款1A-6A的任何组合的设备,其中,所述遮挡元数据包括低通滤波器描述,所述低通滤波器描述表示:描述低通滤波器的系数,或者所述低通滤波器的参数描述。

条款8A.根据条款1A-7A的任何组合的设备,其中,所述遮挡元数据包括对所述遮挡的位置的指示。

条款9A.根据条款1A-8A的任何组合的设备,其中,所述遮挡元数据包括用于所述两个或更多个声音空间中的第一声音空间的第一遮挡元数据和用于所述两个或更多个声音空间中的第二声音空间的第二遮挡元数据,并且其中,所述一个或多个处理器被配置为:获得第一渲染器,所述第一渲染器用于将所述音频数据的至少第一部分渲染到一个或多个第一扬声器馈送中以对所述声音如何在所述第一声音空间中传播进行建模;获得第二渲染器,所述第二渲染器用于将所述音频数据的至少第二部分渲染到一个或多个第二扬声器馈送中以对所述声音如何在所述第二声音空间中传播进行建模;将所述第一渲染器应用于所述音频数据的所述第一部分以生成所述第一扬声器馈送;以及将所述第二渲染器应用于所述音频数据的所述第二部分以生成所述第二扬声器馈送,并且其中,所述处理器还被配置为基于所述第一扬声器馈送和所述第二扬声器馈送来获得所述扬声器馈送。

条款10A.根据条款1A-9A的任何组合的设备,其中,所述音频数据包括基于场景的音频数据。

条款11A.根据条款1A-9A的任何组合的设备,其中,所述音频数据包括基于对象的音频数据。

条款12A.根据条款1A-9A的任何组合的设备,其中,所述音频数据包括基于声道的音频数据。

条款13A.根据条款1A-9A的任何组合的设备,其中,所述音频数据包括包含于所述两个或更多个声音空间中的第一声音空间中的第一组音频对象,其中,所述一个或多个处理器被配置为:基于所述遮挡元数据和所述位置来获得用于所述第一组音频对象的第一渲染器,并且其中,所述一个或多个处理器被配置为:将所述第一渲染器应用于所述第一组音频对象以获得第一扬声器馈送。

条款14A.根据条款13A的设备,其中,所述音频数据包括包含于所述两个或更多个声音空间中的第二声音空间中的第二组对象,其中,所述一个或多个处理器还被配置为:基于所述遮挡元数据和所述位置来获得用于所述第二组对象的第二渲染器,并且其中,所述一个或多个处理器被配置为:将所述第二渲染器应用于所述第二组对象以获得所述第二扬声器馈送,并且基于所述第一扬声器馈送和所述第二扬声器馈送来获得所述扬声器馈送。

条款15A.根据条款1A-14A的任何组合的设备,其中,所述设备包括耦合到一个或多个扬声器的虚拟现实头盔,所述扬声器被配置为基于所述扬声器馈送来再现所述声场。

条款16A.根据条款1A-14A的任何组合的设备,其中,所述设备包含耦合到一个或多个扬声器的增强现实头盔,所述扬声器被配置为基于所述扬声器馈送来再现所述声场。

条款17A.根据条款1A-14A的任何组合的设备,其中,所述设备包括一个或多个扬声器,所述扬声器被配置为基于所述扬声器馈送来再现所述声场。

条款18A.一种方法,包括:由设备获得在声音传播通过声场内的遮挡方面表示所述遮挡的遮挡元数据,所述遮挡将所述声场分隔成两个或更多个声音空间;由所述设备获得所述设备在所述声场内的相对于所述遮挡的位置;由所述设备基于所述遮挡元数据和所述位置,获得渲染器,所述渲染器用于在考虑所述声音在所述设备驻留于其中的所述两个或更多个声音空间中的一个声音空间中的传播的情况下将表示所述声场的音频数据渲染到一个或多个扬声器馈送中;以及由所述设备将所述渲染器应用于所述音频数据以生成所述扬声器馈送。

条款19A.根据条款18A的方法,还包括:获得描述所述设备驻留于其中的虚拟环境的环境元数据,其中,获得所述渲染器包括:基于所述遮挡元数据、所述位置和所述环境元数据来获得所述渲染器。

条款20A.根据条款19A的方法,其中,所述环境元数据描述虚拟室内环境,并且其中,获得所述渲染器包括:当所述环境元数据描述所述虚拟室内环境时,基于所述遮挡元数据和所述位置来获得双耳房间脉冲响应渲染器。

条款21A.根据条款19A的方法,其中,所述环境元数据描述虚拟室外环境,并且其中,获得所述渲染器包括:当所述环境元数据描述所述虚拟室外环境时,基于所述遮挡元数据和所述位置来获得头部相关传递函数渲染器。

条款22A.根据条款18A-21A的任何组合的方法,其中,所述遮挡元数据包括音量衰减因子,所述音量衰减因子表示在通过所述遮挡时与所述音频数据相关联的音量被减小的量。

条款23A.根据条款18A-22A的任何组合的方法,其中,所述遮挡元数据包括仅直接路径指示,所述仅直接路径指示表示是存在用于所述音频数据的直接路径还是要向所述音频数据应用混响处理。

条款24A.根据条款18A-23A的任何组合的方法,其中,所述遮挡元数据包括低通滤波器描述,所述低通滤波器描述表示:用于描述低通滤波器的系数,或者所述低通滤波器的参数描述。

条款25A.根据条款18A-24A的任何组合的方法,其中,所述遮挡元数据包括对所述遮挡的位置的指示。

条款26A.根据条款18A-25A的任何组合的方法,其中,所述遮挡元数据包括用于所述两个或更多个声音空间中的第一声音空间的第一遮挡元数据和用于所述两个或更多个声音空间中的第二声音空间的第二遮挡元数据,并且其中,获得所述渲染器包括:获得第一渲染器,所述第一渲染器用于将所述音频数据的至少第一部分渲染到一个或多个第一扬声器馈送中以对所述声音如何在所述第一声音空间中传播进行建模;以及获得第二渲染器,所述第二渲染器用于将所述音频数据的至少第二部分渲染到一个或多个第二扬声器馈送中以对所述声音如何在所述第二声音空间中传播进行建模;其中,应用所述渲染器包括:将所述第一渲染器应用于所述音频数据的所述第一部分以生成所述第一扬声器馈送;以及将所述第二渲染器应用于所述音频数据的所述第二部分以生成所述第二扬声器馈送,并且其中,所述方法还包括:基于所述第一扬声器馈送和所述第二扬声器馈送来获得所述扬声器馈送。

条款27A.根据条款18A-26A的任何组合的方法,其中,所述音频数据包括基于场景的音频数据。

条款28A.根据条款18A-26A的任何组合的方法,其中,所述音频数据包括基于对象的音频数据。

条款29A.根据条款18A-26A的任何组合的方法,其中,所述音频数据包括基于声道的音频数据。

条款30A.根据条款18A-26A的任何组合的方法,其中,所述音频数据包括包含于所述两个或更多个声音空间中的第一声音空间中的第一组音频对象,其中,获得所述渲染器包括:基于所述遮挡元数据和所述位置来获得用于所述第一组音频对象的第一渲染器,并且其中,应用所述渲染器包括:将所述第一渲染器应用于所述第一组音频对象以获得第一扬声器馈送。

条款31A.根据条款30A的方法,其中,所述音频数据包括包含于所述两个或更多个声音空间中的第二声音空间中的第二组对象,并且其中,所述方法还包括:基于所述遮挡元数据和所述位置来获得用于所述第二组对象的第二渲染器,将所述第二渲染器应用于所述第二组对象以获得所述第二扬声器馈送,并且基于所述第一扬声器馈送和所述第二扬声器馈送来获得所述扬声器馈送。

条款32A.根据条款18A-31A的任何组合的方法,其中,所述设备包括耦合到一个或多个扬声器的虚拟现实头盔,所述扬声器被配置为基于所述扬声器馈送来再现所述声场。

条款33A.根据条款18A-31A的任何组合的方法,其中,所述设备包含耦合到一个或多个扬声器的增强现实头盔,所述扬声器被配置为基于所述扬声器馈送来再现所述声场。

条款34A.根据条款18A-31A的任何组合的方法,其中,所述设备包括一个或多个扬声器,所述扬声器被配置为基于所述扬声器馈送来再现所述声场。

条款35A.一种设备,包括:用于获得在声音传播通过声场内的遮挡方面表示所述遮挡的遮挡元数据的单元,所述遮挡将所述声场分隔成两个或更多个声音空间;用于获得所述设备在所述声场内的相对于所述遮挡的位置的单元;用于基于所述遮挡元数据和所述位置,获得渲染器的单元,所述渲染器用于在考虑所述声音在所述设备驻留于其中的所述两个或更多个声音空间中的一个声音空间中的传播的情况下将表示所述声场的音频数据渲染到一个或多个扬声器馈送中;以及用于将所述渲染器应用于所述音频数据以生成所述扬声器馈送的单元。

条款36A.根据条款35A的设备,还包括:用于获得描述所述设备驻留于其中的虚拟环境的环境元数据的单元,其中,用于获得所述渲染器的单元包括:用于基于所述遮挡元数据、所述位置和所述环境元数据来获得所述渲染器的单元。

条款37A.根据条款36A的设备,其中,所述环境元数据描述虚拟室内环境,并且其中,用于获得所述渲染器的单元包括:用于当所述环境元数据描述所述虚拟室内环境时,基于所述遮挡元数据和所述位置来获得双耳房间脉冲响应渲染器的单元。

条款38A.根据条款36A的设备,其中,所述环境元数据描述虚拟室外环境,并且其中,用于获得所述渲染器的单元包括:用于当所述环境元数据描述所述虚拟室外环境时,基于所述遮挡元数据和所述位置来获得头部相关传递函数渲染器的单元。

条款39A.根据条款35A-38A的任何组合的设备,其中,所述遮挡元数据包括音量衰减因子,所述音量衰减因子表示在通过所述遮挡时与所述音频数据相关联的音量被减小的量。

条款40A.根据条款35A-39A的任何组合的设备,其中,所述遮挡元数据包括仅直接路径指示,所述仅直接路径指示表示是存在用于所述音频数据的直接路径还是要向所述音频数据应用混响处理。

条款41A.根据条款35A-40A的任何组合的设备,其中,所述遮挡元数据包括低通滤波器描述,所述低通滤波器描述表示:用于描述低通滤波器的系数,或者所述低通滤波器的参数描述。

条款42A.根据条款35A-41A的任何组合的设备,其中,所述遮挡元数据包括对所述遮挡的位置的指示。

条款43A.根据条款35A-42A的任何组合的设备,其中,所述遮挡元数据包括用于所述两个或更多个声音空间中的第一声音空间的第一遮挡元数据和用于所述两个或更多个声音空间中的第二声音空间的第二遮挡元数据,并且其中,用于获得所述渲染器的单元包括:用于获得第一渲染器的单元,所述第一渲染器用于将所述音频数据的至少第一部分渲染到一个或多个第一扬声器馈送中以对所述声音如何在所述第一声音空间中传播进行建模;以及用于获得第二渲染器的单元,所述第二渲染器用于将所述音频数据的至少第二部分渲染到一个或多个第二扬声器馈送中以对所述声音如何在所述第二声音空间中传播进行建模;其中,用于应用所述渲染器的单元包括:用于将所述第一渲染器应用于所述音频数据的所述第一部分以生成所述第一扬声器馈送的单元;以及用于将所述第二渲染器应用于所述音频数据的所述第二部分以生成所述第二扬声器馈送的单元,并且其中,所述设备还包括:用于基于所述第一扬声器馈送和所述第二扬声器馈送来获得所述扬声器馈送的单元。

条款44A.根据条款35A-43A的任何组合的设备,其中,所述音频数据包括基于场景的音频数据。

条款45A.根据条款35A-43A的任何组合的设备,其中,所述音频数据包括基于对象的音频数据。

条款46A.根据条款35A-43A的任何组合的设备,其中,所述音频数据包括基于声道的音频数据。

条款47A.根据条款35A-43A的任何组合的设备,其中,所述音频数据包括包含于所述两个或更多个声音空间中的第一声音空间中的第一组音频对象,其中,用于获得所述渲染器的单元包括:用于基于所述遮挡元数据和所述位置来获得用于所述第一组音频对象的第一渲染器的单元,并且其中,用于应用所述渲染器的单元包括:用于将所述第一渲染器应用于所述第一组音频对象以获得第一扬声器馈送的单元。

条款48A.根据条款47A的设备,其中,所述音频数据包括包含于所述两个或更多个声音空间中的第二声音空间中的第二组对象,并且其中,所述设备还包括:用于基于所述遮挡元数据和所述位置来获得用于所述第二组对象的第二渲染器的单元,其中,用于应用所述渲染器的单元包括:用于将所述第二渲染器应用于所述第二组对象以获得所述第二扬声器馈送的单元,以及用于基于所述第一扬声器馈送和所述第二扬声器馈送来获得所述扬声器馈送的单元。

条款49A.根据条款35A-48A的任何组合的设备,其中,所述设备包括耦合到一个或多个扬声器的虚拟现实头盔,所述扬声器被配置为基于所述扬声器馈送来再现所述声场。

条款50A.根据条款35A-48A的任何组合的设备,其中,所述设备包含耦合到一个或多个扬声器的增强现实头盔,所述扬声器被配置为基于所述扬声器馈送来再现所述声场。

条款51A.根据条款35A-48A的任何组合的设备,其中,所述设备包括一个或多个扬声器,所述扬声器被配置为基于所述扬声器馈送来再现所述声场。

条款52A.一种其上存储有指令的非暂时性计算机可读存储介质,所述指令在被执行时使得设备的一个或多个处理器:获得在声音传播通过声场内的遮挡方面表示所述遮挡的遮挡元数据,所述遮挡将所述声场分隔成两个或更多个声音空间;获得所述设备在所述声场内的相对于所述遮挡的位置;基于所述遮挡元数据和所述位置,获得渲染器,所述渲染器用于在考虑所述声音在所述设备驻留于其中的所述两个或更多个声音空间中的一个声音空间中的传播的情况下将表示所述声场的音频数据渲染到一个或多个扬声器馈送中;以及将所述渲染器应用于所述音频数据以生成所述扬声器馈送。

条款1B.一种设备,包括:存储器,被配置为存储表示声场的音频数据;以及一个或多个处理器,耦合到所述存储器,并且被配置为:获得在声音传播通过声场内的遮挡方面表示所述遮挡的遮挡元数据,所述遮挡将所述声场分隔成两个或更多个声音空间;以及在表示所述音频数据的比特流中指定所述遮挡元数据,以使得能够获得渲染器,所述渲染器用于在考虑所述声音在所述两个或更多个声音空间中的一个声音空间中的传播的情况下将所述音频数据渲染到一个或多个扬声器馈送中。

条款2B.根据条款1B的设备,其中,所述一个或多个处理器还被配置为:获得描述所述设备驻留在其中的虚拟环境的环境元数据,其中,所述一个或多个处理器被配置为:在所述比特流中指定所述环境元数据。

条款3B.根据条款2B的设备,其中,所述环境元数据描述虚拟室内环境。

条款4B.根据条款2B的设备,其中,所述环境元数据描述虚拟室外环境。

条款5B.根据条款1B-4B的任何组合的设备,其中,所述遮挡元数据包括音量衰减因子,所述音量衰减因子表示在通过所述遮挡时与所述音频数据相关联的音量被减小的量。

条款6B.根据条款1B-5B的任何组合的设备,其中,所述遮挡元数据包括仅直接路径指示,所述仅直接路径指示表示是存在用于所述音频数据的直接路径还是要向所述音频数据应用混响处理。

条款7B.根据条款1B-6B的任何组合的设备,其中,所述遮挡元数据包括低通滤波器描述,所述低通滤波器描述表示:用于描述低通滤波器的系数,或者所述低通滤波器的参数描述。

条款8B.根据条款1B-7B的任何组合的设备,其中,所述遮挡元数据包括对所述遮挡的位置的指示。

条款9B.根据条款1B-8B的任何组合的设备,其中,所述遮挡元数据包括用于所述两个或更多个声音空间中的第一声音空间的第一遮挡元数据和用于所述两个或更多个声音空间中的第二声音空间的第二遮挡元数据。

条款10B.根据条款1B-9B的任何组合的设备,其中,所述音频数据包括基于场景的音频数据。

条款11B.根据条款1B-9B的任何组合的设备,其中,所述音频数据包括基于对象的音频数据。

条款12B.根据条款1B-9B的任何组合的设备,其中,所述音频数据包括基于声道的音频数据。

条款13B.一种方法,包括:由设备获得在声音传播通过声场内的遮挡方面表示所述遮挡的遮挡元数据,所述遮挡将所述声场分隔成两个或更多个声音空间;以及由所述设备在表示描述所述声场的音频数据的比特流中指定所述遮挡元数据,以使得能够获得渲染器,所述渲染器用于在考虑所述声音在所述两个或更多个声音空间中的一个声音空间中的传播的情况下将所述音频数据渲染到一个或多个扬声器馈送中。

条款14B.根据条款13B的方法,还包括:获得描述所述设备驻留在其中的虚拟环境的环境元数据;以及在所述比特流中指定所述环境元数据。

条款15B.根据条款14B的方法,其中,所述环境元数据描述虚拟室内环境。

条款16B.根据条款14B的方法,其中,所述环境元数据描述虚拟室外环境。

条款17B.根据条款13B-16B的任何组合的方法,其中,所述遮挡元数据包括音量衰减因子,所述音量衰减因子表示在通过所述遮挡时与所述音频数据相关联的音量被减小的量。

条款18B.根据条款13B-17B的任何组合的方法,其中,所述遮挡元数据包括仅直接路径指示,所述仅直接路径指示表示是存在用于所述音频数据的直接路径还是要向所述音频数据应用混响处理。

条款19B.根据条款13B-18B的任何组合的方法,其中,所述遮挡元数据包括低通滤波器描述,所述低通滤波器描述表示:用于描述低通滤波器的系数,或者所述低通滤波器的参数描述。

条款20B.根据条款13B-19B的任何组合的方法,其中,所述遮挡元数据包括对所述遮挡的位置的指示。

条款21B.根据条款13B-20B的任何组合的方法,其中,所述遮挡元数据包括用于所述两个或更多个声音空间中的第一声音空间的第一遮挡元数据和用于所述两个或更多个声音空间中的第二声音空间的第二遮挡元数据。

条款22B.根据条款13B-21B的任何组合的方法,其中,所述音频数据包括基于场景的音频数据。

条款23B.根据条款13B-21B的任何组合的方法,其中,所述音频数据包括基于对象的音频数据。

条款24B.根据条款13B-21B的任何组合的方法,其中,所述音频数据包括基于声道的音频数据。

条款25B.一种设备,包括:用于获得在声音传播通过声场内的遮挡方面表示所述遮挡的遮挡元数据的单元,所述遮挡将所述声场分隔成两个或更多个声音空间;以及用于在表示描述所述声场的音频数据的比特流中指定所述遮挡元数据,以使得能够获得渲染器的单元,所述渲染器用于在考虑所述声音在所述两个或更多个声音空间中的一个声音空间中的传播的情况下将所述音频数据渲染到一个或多个扬声器馈送中。

条款26B.根据条款25B的设备,还包括:用于获得描述所述设备驻留在其中的虚拟环境的环境元数据的单元,用于在所述比特流中指定所述环境元数据的单元。

条款27B.根据条款26B的设备,其中,所述环境元数据描述虚拟室内环境。

条款28B.根据条款26B的设备,其中,所述环境元数据描述虚拟室外环境。

条款29B.根据条款25B-28B的任何组合的设备,其中,所述遮挡元数据包括音量衰减因子,所述音量衰减因子表示在通过所述遮挡时与所述音频数据相关联的音量被减小的量。

条款30B.根据条款25B-29B的任何组合的设备,其中,所述遮挡元数据包括仅直接路径指示,所述仅直接路径指示表示是存在用于所述音频数据的直接路径还是要向所述音频数据应用混响处理。

条款31B.根据条款25B-30B的任何组合的设备,其中,所述遮挡元数据包括低通滤波器描述,所述低通滤波器描述表示:用于描述低通滤波器的系数,或者所述低通滤波器的参数描述。

条款32B.根据条款25B-31B的任何组合的设备,其中,所述遮挡元数据包括对所述遮挡的位置的指示。

条款33B.根据条款25B-32B的任何组合的设备,其中,所述遮挡元数据包括用于所述两个或更多个声音空间中的第一声音空间的第一遮挡元数据和用于所述两个或更多个声音空间中的第二声音空间的第二遮挡元数据。

条款34B.根据条款25B-33B的任何组合的设备,其中,所述音频数据包括基于场景的音频数据。

条款35B.根据条款25B-33B的任何组合的设备,其中,所述音频数据包括基于对象的音频数据。

条款36B.根据条款25B-33B的任何组合的设备,其中,所述音频数据包括基于声道的音频数据。

条款37B.一种其上存储有指令的非暂时性计算机可读存储介质,所述指令在被执行时使得设备的一个或多个处理器:获得在声音传播通过声场内的遮挡方面表示所述遮挡的遮挡元数据,所述遮挡将所述声场分隔成两个或更多个声音空间;以及在表示描述所述声场的音频数据的比特流中指定所述遮挡元数据,以使得能够获得渲染器,所述渲染器用于在考虑所述声音在所述两个或更多个声音空间中的一个声音空间中的传播的情况下将所述音频数据渲染到一个或多个扬声器馈送中。

应该认识到,根据示例,本文描述的任何技术的某些操作或事件可以以不同的顺序执行,可以被添加、合并或完全省略(例如,并非所有被描述的操作或事件都是实施所述技术所必需的)。此外,在某些示例中,操作或事件可以例如通过多线程处理、中断处理或多个处理器并发地而不是顺序地执行。

在一些示例中,VR设备(或流传输设备)可使用耦合到VR/流传输设备的存储器的网络接口来将交换消息发送到外部设备,其中交换消息与声场的多个可用表示相关联。在一些示例中,VR设备可使用耦合到网络接口的天线来接收包括与声场的多个可用表示相关联的数据分组、音频分组、视频分组或传输协议数据的无线信号。在一些示例中,一个或多个麦克风阵列可捕获声场。

在一些示例中,被存储到存储器设备中的声场的多个可用表示可以包括声场的多个基于对象的表示、声场的高阶立体混响表示、声场的混合阶立体混响表示、声场的基于对象的表示与声场的高阶立体混响表示的组合、声场的基于对象的表示与声场的混合阶立体混响表示的组合,或声场的混合阶表示与声场的高阶立体混响表示的组合。

在一些示例中,声场的多个可用表示中的一个或多个声场表示可以包括至少一个高分辨率区域及至少一个较低分辨率区域,并且其中,基于转向角的选定呈现针对该至少一个高分辨率区域提供较高空间精度并针对较低分辨率区域提供较低空间精度。

在一个或多个示例中,可以以硬件、软件、固件或其任意组合来实施所描述的功能。如果以软件实施,则所述功能可以作为一个或多个指令或代码在计算机可读介质上进行存储或发送,并由基于硬件的处理单元执行。计算机可读介质包括:计算机存储介质,其对应于诸如数据存储介质的有形介质,或通信介质,包括例如根据通信协议便于将计算机程序从一个地方转移到另一个地方的任何介质。以这种方式,计算机可读介质通常可以对应于(1)非暂时性的有形计算机可读存储介质,或者(2)诸如信号或载波的通信介质。数据存储介质可以是可以由一台或多台计算机或一个或多个处理器访问以提取指令、代码和/或数据结构以实施本公开内容中描述的技术的任何可用介质。计算机程序产品可以包括计算机可读介质。

例如,但是并不限于,这样的计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁存储设备、闪存或者可以用于以指令或数据结构的形式存储所需程序代码并且能够被计算机访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果用同轴电缆、纤维光缆、双绞线、数字用户线路(DSL)或例如红外、无线和微波的无线技术从网站、服务器或其它远程源发送指令,则该同轴电缆、纤维光缆、双绞线、DSL或例如红外、无线和微波的无线技术也包含在介质的定义中。然而,应当理解,计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂时性介质,而是针对非暂时性有形存储介质。本文所使用的磁盘和光盘包括压缩光盘(CD)、激光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光盘,其中磁盘通常磁性地再现数据,而光盘通常利用激光器光学地再现数据。上述的组合也包括在计算机可读介质的范围内。

指令可由一个或多个处理器执行,例如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他等效集成或分立逻辑电路。相应地,如本文所使用的术语“处理器”可以指任何前述结构或适合于实施本文描述的技术的任何其他结构。另外,在一些方面,本文描述的功能可以在被配置用于编码和解码的专用硬件和/或软件模块内提供,或结合在组合编解码器中。同样,所述技术可以完全在一个或多个电路或逻辑元件中实施。

本公开内容的技术可以在包括无线手持机、集成电路(IC)或一组IC(例如,芯片组)的多种设备或装置中实施。在本公开内容中描述各种组件、模块或单元以强调被配置为执行所公开技术的设备的功能方面,但不一定需要由不同硬件单元来实现。相反,如上所述,各种单元可以与合适的软件和/或固件相结合地组合在编解码器硬件单元中,或者由互操作的硬件单元的集合来提供,包括如上所述的一个或多个处理器。

已经描述了各种示例。这些和其他示例在所附权利要求的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号