首页> 中国专利> 用于捕获和回放源自多个声音源的声音的方法

用于捕获和回放源自多个声音源的声音的方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种用于捕获和回放源自多个源的声音的方法。本发明还包括具有适于接收和回放这样的声音的音频文件的计算机程序产品。基本上，将源自每个声音源的声音记录在单独的音轨上。为了保存声音源的空间分布和移动，还记录声音源还相对于至少一个聆听位置的当前位置。此外，可以追踪回放期间一个或更多个聆听者的移动并且可以将其用于呈现回放期间内被调整为适合聆听者的当前位置的空间声场。

著录项

公开/公告号CN103609143A

专利类型发明专利
公开/公告日2014-02-26

原文格式PDF
申请/专利权人杜比实验室特许公司;
展开▼

申请/专利号CN201280028908.2
发明设计人雷米·奥德弗雷;莫琳·杜波依斯;阿贝·韦斯顿;
展开▼

申请日2012-06-04
分类号H04S7/00;
代理机构北京集佳知识产权代理有限公司;
代理人陈炜
地址美国加利福尼亚州
入库时间 2024-02-19 22:44:42

法律信息

法律状态公告日

法律状态信息

法律状态
2020-05-22

未缴年费专利权终止 IPC(主分类):H04S7/00 授权公告日:20151125 终止日期:20190604 申请日:20120604

专利权的终止
2015-11-25

授权

授权
2014-03-26

实质审查的生效 IPC(主分类):H04S7/00 申请日:20120604

实质审查的生效
2014-02-26

公开

公开

说明书

相关申请的交叉引用

本申请要求于2011年06月15日提交的美国专利临时申请No.61/497,182的优先权，其全部内容通过引用合并在本文中。

技术领域

本发明涉及用于捕获源自多个声音源的声音的方法。此外，本发明涉及用于回放这样的声音的方法，以及包括适于接收这样的声音的音频文件的计算机程序产品。

背景技术

所谓的环绕声可以极大地提升观众的聆听体验。特别是在电影院或视频游戏环境下，观众经常期望无法抗拒的视频和音频质量。通过在回放期间向音频音轨添加增加的空间分辨率，环绕声明显有助于满足这样的期望。

现有技术

环绕声包括众多的技术，如利用经由附加的、分立的扬声器重现的音频声道来提高音频源的声音再现质量。环绕声由以下聆听位置或最佳听音位置（sweet spot）来表征：在该位置处，音频效果最佳并且将固定的或前向立体感的声场呈现给处于该位置的聆听者。与仅设置“幕前声道（screen channel）”（中央声道，左前声道，右前声道）相反，多声道环绕声应用以固定数量的环绕声道（例如，左环绕声道，右环绕声道，后环绕声道）围绕聆听者。

与传统的5.1布置相比，现有技术的7.1环绕扬声器配置引入两个额外的后扬声器，从而总共具有4个环绕声道和3个前置声道。

以若干方法创建环绕声。第一种且最简单的方法是使用环绕声记录麦克风技术，和/或针对使用围绕聆听者的扬声器来从不同方向播放音频的音频系统上的回放而混合环绕声。第二种方法是利用心理声学声音定位方法对音频进行处理，以利用耳机或扬声器对模拟二维声场。

在大多数情况下，环绕声系统依赖于每个源声道到它们自己的扩音器的映射。矩阵系统恢复源声道的数量与内容并将它们应用于其各自的扩音器。针对分离的环绕声，传输媒介允许源和目的地的（至少）相同数量的声道。

传输的信号可以对（限定原始声场的）信息较大程度或较小程度地进行编码；环绕声信息被呈现（render）以通过解码器进行重放，生成对于重放可用的扬声器数量的扩音器馈送的数量和配置。

如前所述，环绕声通常适于音频效果最佳的专用聆听者位置（“最佳听音位置”）处的传送。聆听者距这样的最佳听音位置越远，所获取的音频感受就越不深刻。

也存在用于补偿这样的聆听者移动并且因而调整要再现的声场的解决方案。这样的解决方案通常包括位置追踪传感器。可用于音频增强应用的已知商业产品包括微软XBOX的Kinect或Trinnov Audio的音频优化器MC。Trinnov Audio开发了使用傅里叶贝塞尔分解（Fourier-Besseldecomposition）来表示声场的数学模型。他们还开发了用于测量通过将多声道信号馈入到回放系统并且将其保存在辐射矩阵中而生成的声场的软件/硬件工具。他们实施了如下解决方案：对多声道信号进行再映射，以便来自每个声道的声音呈现为来自该声道的扬声器应该处于的位置。这个解决方案还包括针对每个扬声器的时间校正和频率校正。

下面的专利文献还公开了用于追踪聆听者的位置并相应地调整声音再现的方法：US20070116306A1、US7492915B2、CN101453598A、US20080130923A1和US20090304205Al。

发明内容

本发明的目的是通过提供用于捕获和回放源自多个声音源的声音的方法来进一步改进环绕声感知，该方法包括例如经由固定的扩音器布置或经由耳机聆听取决于位置的回放。

特别地，所提出的发明旨在提供对于不同回放系统配置的改进的适用性。

本发明的另一目的是提出新的音频文件格式。

通过用于捕获源自多个声音源的声音的方法来实现关于捕获声音的目的，该方法包括：

●针对每个要记录的声音源提供单独的记录音轨；

●将源自每个声音源的声音记录在与该声音源相关联的单独的记录音轨上；

●重复地确定每个声音源相对于至少一个聆听位置的当前位置；

●存储每个确定的当前位置；以及

●将每个存储的当前位置与相应的记录声音相关联。

代替将声音编码在固定数量的声道中，所建议的方法基于（例如，房间中）所存在的各个源来捕获声音。该方法将每个源的声音连同一些元数据一起记录在各个音轨上。例如，元数据可以包括声音源相对于一个或更多个聆听位置的球面坐标以及关于当前听觉环境的信息（混响时间，早期侧向反射等等）。

根据本发明所提出的方法提供了基于位置信息自动地调节声音使其适于至少一个聆听者的位置，从而使得能够增加关于扬声器选择与放置的灵活性。此外，由于不再需要为电影院、Imax剧院、广播、5.1DVD、7.1蓝光光盘等发行单独的混音，所以可以大幅减少录音棚的开销。录音棚将仅创建一个各种回放情形共用的混音。该混音将被编码并在目标回放系统中解码，以呈现实质上与工程师或制作者在录音棚中听到的声场相同的声场。所建议的声音呈现技术还将有助于混音更好地从一个回放系统转换至另一回放系统，从而为终端用户提供更一致的输出。例如无论是在商用电影院还是在家，（电影）声音的感知对于聆听者而言都是相同的。此外，不管聆听者坐在房间的什么位置，声音体验可以是相同的。

在传统的电影院环境中，声音系统通常基于所有听众的空间平均进行校准（例如，针对均衡化，时间和等级对准）。由于无法同时针对每个座位（即聆听者位置）对系统进行最佳校准，因此这将导致非最佳的体验。但是，所提出的方法可以自动地适应剧院的入座率。例如，如果传感器追踪到仅十个座位被占用，则目标回放系统的解码器可以切换到仅仅针对所占座位而优化的（预设的）设置，从而带来更好的性能。

随着可用的媒体存储器越来越便宜以及越来越大，使得能够针对每个声音源使用单独的声道而不是添加更多的扬声器声道。

在另外的实施方式中，提供了至少一个另外的音轨，以记录源自至少一个另外的声音源的声音，其中所述另外的声音源关于其位置没有指定。所述另外的声道例如可以用于捕获似乎来自每个地方的背景声音（例如，在电影场景发生在法国南部的情况下的蟋蟀的声音），以增强声音体验。

如先前已经指出的，将声音记录在各个记录音轨上优选地包括：对记录的声音进行编码；并且通过与所述编码相关联的元数据来表示每个确定的当前位置。在这样的实施方式中，通过基于可用容量选择和/或开发使得声音品质最大化的适当编码器，从而适当地顾及可用存贮或传输声道容量。该实施方式中的元数据是所选择的编码处理的一部分或与所选择的编码处理相关联，并且包括每个声音源的相对于至少一个聆听位置的重复确定的当前位置。

通过用于回放与多个声音源相关联的记录的声音的方法实现了关于声音回放的目的，该方法包括：

●提供音频文件，其中音频文件包括：多个记录音轨，每个记录音轨记录有源自所述声音源之一的声音；以及重复地存储的与该声音源相关联的位置，所存储的位置表示所述声音源相对于至少一个聆听位置的移动曲线（profile）；

●提供包括多个回放声道的音频回放系统，其中所述回放系统包括计算单元，所述计算单元被编程为基于音频文件中所包括的记录的声音和重复存储的位置生成空间声场；以及

●在音频回放系统上回放所述空间声场。

在所述回放系统中，对音频信号解码，以呈现在记录处理中捕获的声场，该声场包括重复存储的（在聆听房间中的）当前位置。它与现有的基于傅里叶-贝塞尔的模型的不同之处在于：呈现来自移动声音源而不是固定声道的声场。以动态地生成的、表示源信号与对应于预期声音环境（包括聆听者的当前位置）之间的传递函数的矩阵来代替参考辐射矩阵，其中，参考辐射矩阵例如由Trinnov Audio用来表示多声道信号与对应于相同声音环境的声场之间的传递函数（transfer function）。类似地，以动态生成的、基于聆听者的数量及其位置调节的矩阵来代替解码矩阵，其中，解码矩阵例如由Trinnov Audio用来表示声场与馈送给扩音器的多声道信号之间的传递函数。

由于仅受回放系统和环境的声学特性限制，所提出的方法可以任意添加声学增强，例如回响尾音或合成的侧向反射。后者将会提高侧向声能因子（Lateral Energy Fraction，LF）和双耳互相关（InterauralCross-correlation，IACC），已经证明LF和IACC与包围感和声音源宽广度（ASW）密切相关。

优选地，与回放声道的数量相适应地生成空间声场。在这样的实施方式中，在回放期间针对回放系统的属性对回放进行优化，而不是在混合阶段已优化回放。因此，不再需要准备针对特定回放系统和其声道设置而调节的多种不同的混音。

可以在回放期间通过适于追踪至少一个聆听者的当前位置的传感器来追踪一个或更多个聆听者的位置变化。这样的传感器可以包括红外激光投影仪和用于在任何环境光线下捕获3D视频数据的单色互补金属氧化物半导体（CMOS）传感器。该传感器还可以包括RGB摄像头和红外深度感测激光器。

因此，空间声场的生成优选地包括：使重复存储的位置适于至少一个聆听者的所追踪到的当前位置，以补偿各个聆听者相对于至少一个聆听位置的移动。

有利地，这可以通过从先前存储的校正信息矩阵中选择校正信息来实现，所选择的校正信息与至少一个聆听者的当前所追踪到的位置相关联。

在这方面，先前存储的校正信息矩阵可以包括：与聆听者在回放环境中的多个可能的或者预期的位置有关的先前存储的校正信息。在回放期间，于是可以使用至少一个聆听者的当前所追踪到的位置来选择适当的（预设的）校正信息。在这样的实施方式中，无需计算要呈现的整个声场。对至少一个聆听者的变化位置的调节主要包括基于当前追踪到的位置信息选择预设的校正信息。

Trinnov Audio已经发表了一些非常基本的数学工具来描述、操作和处理声场。这样的原理对于实施本发明也非常有用。

此外，本发明还包括以计算机程序产品实现的、建议的新的音频文件格式，该音频文件包括：

●多个记录音轨，每个记录音轨记录有源自多个声音源之一的声音；以及

●重复存储的与声音源相关联的位置，所存储的位置表示声音源相对于至少一个聆听位置的移动曲线。

这样的音频文件还可以包括至少一个另外的记录音轨，所述至少一个另外的记录音轨具有源自另外的声音源的声音，其中，所述另外的声音源关于其位置没有指定。优选地，对记录的声音编码，并且重复存储的位置是与编码后的声音相关联的元数据。

附图说明

下面将基于附图所示的示例性实施方式来更加详细地描述和解释本发明。

附图示出了：

图1：用于描述和处理声场的基本数学工具，如Trinnov audio所发表的现有技术；

图2：根据本发明的用于捕获源自多个声音源的声音的方法；

图3：根据本发明的包括音频文件的计算机程序产品；以及

图4：根据本发明的用于回放与多个声音源相关联的记录声音的方法。

具体实施方式

图1示出了根据现有技术的用于描述、生成、处理声场的基本数学公式与工具。Trinnov Audio在它们的网站www.trinnov.com上发表了这些公式以及许多更相关的描述。尤其是该网站的研究（Research）部分提供了对于应用本发明有用的广泛的背景信息。

图2描述了关于捕获源自多个声音源的声音的方法的原理概要。

步骤I包括提供记录音轨1、3、5、…、n，其中，每个记录音轨应该捕获源自多个声音源之一的声音。

在步骤II中，通过分配给多个声音源的相应麦克风101、103、…、10n来捕获源自每个声音源的声音，使得源自一个声音源的声音被记录在一个相应的独立音轨1、3、5、…、n上。在图2中，麦克风的使用仅是示例性的并且应该表示针对包括像计算机游戏中的虚拟声音源的任何声音源来接收和/或创建声音的任何方法。

步骤III优选地与步骤II并行执行，在步骤III中，重复地确定每个声音源相对于（默认）聆听位置的当前位置201、202、…、20n，以获得表示记录处理期间声音源的移动的移动曲线。例如，可以通过传感器信息来检测该移动曲线，和/或可以通过规定移动曲线（例如，在计算机游戏场景下）来生成该移动曲线。默认的聆听位置例如可以包括相对于多扬声器环绕声回放系统（“最佳听音位置”）或头戴式回放系统的理想且静止的聆听位置。

在步骤IV和步骤V中，将包括每个声音源的重复存储的位置201、203、…、20n的移动曲线存储在位置音轨上并且与相应的记录音轨1、3、…、n相关联，使得每个记录音轨关于相同的声音源具有对应的所存储的移动曲线。

提供了另外的记录音轨400、402，以捕获不具有对应的特定移动曲线的声音，如表征例如发生电影或游戏场景的环境的背景声音。

在图3中示意性地示出了根据本发明的包括音频文件的计算机程序产品。计算机程序产品500包括音频文件502。后者示出了记录音轨504、506、508、…、5xx，记录音轨504、506、508、…、5xx中的每一个都适于存储源自多个声音源之一的声音。为了保护优选移动声音源的空间分布，音频文件502还将包括适于重复存储所获得的与声音源相关联的位置602、604、606、…的存储区域，从而表示出声音源的移动曲线600。这样的移动曲线优选地与早先概括的至少一个聆听位置相关。可以提供另外的音轨700、702以存储来自没有具体的移动曲线和/或位置的另外的声音源的声音。

图4示意性地示出了根据本发明的用于回放源自多个声音源的已记录的声音的方法。

在第一步骤I中，提供如图3所描述的音频文件502。音频文件502在其每个记录音轨上保持从多个声音源之一捕获的声音。以移动曲线来捕获声音源相对于至少一个聆听位置的移动并将其存储在音频文件中。

在步骤II中，提供包括多个回放声道850的音频回放系统800。通过使计算单元870基于记录音轨和移动曲线生成空间音频场而使得回放系统800特别适于接收和回放音频文件502。音频场的生成据此适于回放声道850的类型和数量。

此外，提供位置追踪传感器900以在回放期间重复地（例如准连续地）追踪至少一个聆听者的当前位置。然后，计算单元870使用聆听者的该位置数据来使空间音频场适于聆听者的当前位置，从而使得在步骤III中呈现声场时不仅适当地考虑回放期间声音源的运动而且适当地考虑回放期间聆听者的运动。位置追踪传感器900还能够并行地追踪多个聆听者的位置。因此，可以生成针对各个聆听者调节的各个声场，并且优选地通过音频头戴式耳机将各声场传送给相应的聆听者，或者在针对一组聆听者调节一个单独的音场的情况下，优选地通过固定声道扩音器布置将各声场传送给相应的聆听者。

预先确定的聆听者位置校正矩阵950保持空间声场的各种预先设置，每个预先设置适于聆听者在聆听环境中的一个具体位置。使用当前确定的至少一个聆听者的位置，从位置校正矩阵950中选择相应的预设声场并将该声场呈现给聆听者。

总之，所概括的本发明能够为听众提供动态环绕声，该动态环绕声可以基于一个或更多个聆听者的位置和运动而针对所述聆听者进行调节。本发明可以利用现有技术来创建更逼真并且更具交互性的环绕声体验。例如，如果两个玩家正在相同房间玩网球视频游戏，当玩家1击球时，球拍击球的声音对于玩家2将呈现为来自玩家1当前所处位置（例如，他后面，向右方）。另一示例是，如果一个人正在聆听两声道的音乐，则不管他或她决定坐在房间何处，利用适当的立体声成像，他或她将听到完整的声段。

利用目前的开放资源API，实时的三维位置矩阵可以识别房间内的聆听者/玩家/用户的位置。这样的位置矩阵可以将三维空间描述为顶/底、左/右以及深度的每个连续体。重读获取位置信息的快照，短暂停顿，然后获取随后的快照。在对快照进行比较之后，位置值差别最大的矩阵区域表示用户在（聆听/游戏）房间内的最大运动及位置。然后，根据房间内用户的矩阵位置自动地调整扬声器输出。例如，这可以如下完成：创建与用户在房间内每个可能位置对应的空间场的预设值并且当聆听者移动时取消适当的预先设置。

本领域的技术人员能够容易地应用上面概括的各种概念来获得本发明另外的实施方式。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于捕获和回放源自多个声音源的声音的方法 [P] . 中国专利： CN103609143B . 2015.11.25
2. 用于捕获和回放源自多个声音源的声音的方法 [P] . 中国专利： CN103609143A . 2014-02-26
3. MUSICAL SOUND SIGNAL GENERATING METHOD FOR MULTIPLE SOUND SOURCES, MULTISOUND SOURCE DEVICE, AND MEDIUM HAVING PROGRAM RECORDED [P] . 日本专利： JPH1195751A . 1999-04-09

机译：用于记录多个声音源，多个声音源设备和录制媒体的程序的音乐声音信号生成方法
4. SYSTEM AND A METHOD FOR THE POSITION REFERENCE OF A VESSEL BASED ON MULTIPLE SOUND SOURCES-BASED POSITION ESTIMATION CAPABLE OF SIMULTANEOUSLY ESTIMATING A PLURALITY OF SOUND SOURCE POSITIONS BASED ON SIGNALS FROM A PLURALITY OF ACOUSTIC SIGNAL GENERATING DEVICES [P] . 韩国专利： KR20120044579A . 2012-05-08

机译：基于多个声音源的位置估计的船只位置参考的系统和方法，能够同时从多个声音信号生成设备中估计基于信号的多个声音源位置
5. METHOD FOR CAPTURING AND PLAYBACK OF SOUND ORIGINATING FROM A PLURALITY OF SOUND SOURCES [P] . 欧洲知识产权局专利： EP2721842A1 . 2014-04-23

机译：从多个声音源捕捉和回放声音的方法