首页> 中国专利> 一种用于空间化声音的音频信号处理方法及装置

一种用于空间化声音的音频信号处理方法及装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种用于空间化声音的音频信号处理方法及装置，其中，处理方法具体为：接收待处理音频信号，获取声音在空间中的位置控制参数、响度差控制强度和时间差控制强度，采用独立控制模式或一体化控制模式对待处理音频信号进行空间化处理。所述独立控制模式具体为：根据获取的声音在空间中的位置控制参数、响度差控制强度和时间差控制强度分别对待处理音频信号进行控制，获取空间化后的音频信号。所述一体化控制模式具体为：根据获取的声音在空间中的位置控制参数、响度差控制强度和时间差控制强度在2维控制界面中对待处理音频信号进行一体化控制，获取空间化后的音频信号。与现有技术相比，本发明具有空间化效果好、算法简单有效等优点。

著录项

公开/公告号CN104837106A

专利类型发明专利
公开/公告日2015-08-12

原文格式PDF
申请/专利权人上海音乐学院;
展开▼

申请/专利号CN201510271560.5
发明设计人房大磊;
展开▼

申请日2015-05-25
分类号
代理机构上海科盛知识产权代理有限公司;
代理人赵继明
地址 200031 上海市徐汇区汾阳路20号
入库时间 2023-12-18 10:16:50

法律信息

法律状态公告日

法律状态信息

法律状态
2018-01-26

授权

授权
2015-09-09

实质审查的生效 IPC(主分类):H04S1/00 申请日:20150525

实质审查的生效
2015-08-12

公开

公开

说明书

技术领域

本发明涉及音频信号处理领域，尤其是涉及一种用于空间化声音的音频信号处理方法及装置。

背景技术

所谓声音空间化声音系统其关键在于体现声音源与声波辐射的空间属性。声音具有很多属性，其最基本的属性包括和时间相关的波长、频率，以及和响度相关的响度、声压级等参数。人类听觉之所以能够对这一系列声音特性进行判断，最基本的一点便是人类拥有一对耳朵。两只耳朵分别位于头部的左侧及右侧。人脑通过两只耳朵之间的响度、频率及时间的差别来定位声音，使得人们能够感知出声源的位置。

对于声音的左右定位，有两点最明显的差别：

(1)在高频范围，由于声源到双耳的距离差别，使响度产生差别，即ILD (Interaural Level Differences，双耳水平差)或IID(Interaural Intensity Differences，双耳响度差)。

(2)在所有频率范围内，由于双耳本身的距离差别，使时间产生差别，即ITD (Interaural Time Differences，双耳时间差)。

通常情况下，响度差和时间差的共同作用使得人能够判断声音位置。更深层次研究发现在不同的频率上，这两种差别有不同的作用。Lord Rayleigh在1907年提出的Duplex Theory指出低频定位依靠时间差，而高频定位依靠响度差。

空间化声音可以通过使用2只传声器进行拾取，再通过2只扬声器进行回放。例如OTRF拾音制式，即使用2只单指向传声器，振膜相距17厘米，互成110度的角度。17厘米的差距使得时间产生差别；110度的角度配合单指向传声器使得响度产生差别。回放时，使用2只扬声器独立回放2只话筒记录的声音，即可将空间化的声音再现。正是因为以2只传声器对空间化声音进行拾取，同时记录了响度差别和时间差别，使得目前的现场演出录音具有非常真实的空间感。

空间化声音也可通过人为产生响度差和时间差来模拟。这种情况在使用单声道拾音或音乐制作中非常常见。例如，同一个声音，送至2只扬声器，但两只扬声器的响度如果有差别，则人为的产生了音量差别。同理，如果2只扬声器的响度相同，但是存在时间差，则人为的产生了时间差。

目前产生响度差的方法很容易实现。例如在调音台或数字音频工作站软件上的 “声像控制”和“平衡控制”可以实现对双声道中两个声道的响度比例控制。声像控制通常用于单声道通道。通过声像控制，单声道声音可以按一定比例分配到两条总线。由此产生了响度差；平衡控制通常用于立体声通道。通过平衡控制可以改变立体声左右通道的响度比例，也在一定程度上产生了响度差。

但目前产生时间差的方法比较复杂，主要难点有以下几点：

(1)产生时间差的办法是使用延迟效果器。但目前大多数延迟效果器仍然以效果处理器形式存在，用于模拟声音在空间的反射，延迟时间的最小单位为ms，以Steinberg ModDelay为例，其延迟时间显示最小单位为1ms，可输入的最小单位为0.1ms。相对于用于产生时间差的典型数值例如0.26ms，精度已经显得很低。

(2)通常的延迟处理器无法方便、直观的显示及调整左右通道之间的延迟时间。以Avid Pro Tools的Mod Delay II延迟处理器为例，其左通道与右通道的延迟时间由两个独立的控制完成，而不像用于响度差的声像控制，仅由一个控制来完成。

由于以上原因，在常见的音乐制作过程中对声音进行空间化时，由于仅仅应用了响度差，导致最终结果无法达到2只传声器拾取的空间化声音所具有的临场感和真实感。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种空间化效果好、算法简单有效的用于空间化声音的音频信号处理方法及装置。

本发明的目的可以通过以下技术方案来实现：

一种用于空间化声音的音频信号处理方法，该方法具体为：

接收待处理音频信号，获取声音在空间中的位置控制参数、响度差控制强度和时间差控制强度，采用独立控制模式或一体化控制模式对待处理音频信号进行空间化处理。

所述独立控制模式具体为：

根据获取的声音在空间中的位置控制参数、响度差控制强度和时间差控制强度分别对待处理音频信号进行控制，获取空间化后的音频信号。

所述一体化控制模式具体为：

根据获取的声音在空间中的位置控制参数、响度差控制强度和时间差控制强度在2维控制界面中对待处理音频信号进行一体化控制，获取空间化后的音频信号。

2维控制界面中，X轴控制声音空间化的位置，

Y轴存在以下状态：

a)Y轴极下方位置仅响度差影响声音，b)Y轴极上方位置仅时间差影响声音， c)Y轴中间位置，响度差和时间差共同影响声音，d)Y轴其他位置，则在a、b、 c三种状态间过渡。

产生响度差的方法通过改变双声道中两个声道的响度比例来实现；

产生时间差的方法通过在双声道中的某一个声道添加延迟处理器来实现。

一种用于空间化声音的音频信号处理装置，包括：

待处理音频信号输入模块，用于接收待处理音频信号；

位置控制参数输入模块，用于获取声音在空间中的位置控制参数；

响度差控制强度输入模块，用于获取响度差控制强度；

时间差控制强度输入模块，用于获取时间差控制强度；

控制模式切换模块，用于根据输入指令切换控制模式；

独立控制模块，用于根据获取的声音在空间中的位置控制参数、响度差控制强度和时间差控制强度分别对待处理音频信号进行控制；

一体化控制模块，用于根据获取的声音在空间中的位置控制参数、响度差控制强度和时间差控制强度在2维控制界面中对待处理音频信号进行一体化控制。

所述待处理音频信号输入模块包括左声道音频信号输入单元和右声道音频信号输入单元。

现有在调音台或数字音频工作站软件上的“声像控制”和“平衡控制”仅能通过响度差对声音进行空间化，和真实世界相比缺少了时间差，使得空间化的声音缺少临场感和空间感，对声音空间化的结果仅体现在2个扬声器之间。虽然可以使用混响等效果器来增加空间感，但还是无法模拟真实世界中由时间差引起的空间感。本发明与现有技术相比，具有以下有益效果：

(1)本方法同时使用响度差和时间差，能够模拟真实世界中声音定位化的结果，且控制方式仍然以传统的“声像控制”为基础，使得本方法既可以完全兼容现有的声音定位化方法，也可以通过增加时间差来增强声音的定位化。

(2)另外由于可以独立控制响度差和时间差影响声音的强度，也可以通过仅使用时间差来得到一些特殊的效果。

(3)使用本方法处理后的声音，空间化会更加接近真实世界的结果，大大的丰富了作品的表现能力。

附图说明

图1为本发明的流程示意图；

图2为本发明在Max平台的实现示意图；

图3为Max平台comb～滤波器算法原理示意图；

图4为Max平台中独立控制模式下应用本发明方法的示意图；

图5为Max平台中一体化控制模式下应用本发明方法的示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明实施例提供一种用于空间化声音的音频信号处理方法，这种方法同时包含了对响度差和时间差的模拟，并且通过一定的算法，使用户以传统的“声像控制” 的概念，辅以直观的参数控制，使得用户对响度差及时间差进行方便的控制，让声音的空间化的控制更加直接，并令其结果更加真实。

本发明使用以下方法来解决背景技术中提到的现有技术中的难点：

(1)使用最小延迟单位尽可能小的音频处理算法，此时用于音频处理的并不一定是常规延迟效果器。例如本实施例中即采用了Cycling‘74公司的Max平台下原本用于制作梳状滤波效果的效果器comb～。

(2)使用一定的算法将左右通道之间的延迟时间转变成常见的控制手段，并辅以额外的参数。本例中即保留了传统的“声像控制”，并辅以响度差控制强度和时间差控制强度这两个额外参数。

如图1所示，本发明方法具体为：接收待处理音频信号，获取声音在空间中的位置控制参数、响度差控制强度和时间差控制强度，采用独立控制模式或一体化控制模式对待处理音频信号进行空间化处理。

其中，独立控制模式具体为：根据获取的声音在空间中的位置控制参数、响度差控制强度和时间差控制强度分别对待处理音频信号进行控制，获取空间化后的音频信号。

一体化控制模式具体为：根据获取的声音在空间中的位置控制参数、响度差控制强度和时间差控制强度在2维控制界面中对待处理音频信号进行一体化控制，获取空间化后的音频信号。2维控制界面中，X轴控制声音空间化的位置，Y轴存在以下状态：

将上述方法在Cycling‘74公司的Max软件平台下进行验证与实施。Max是一种图形化编程语言，它广泛的被作曲家、演奏家、艺术家、软件设计人员和研发人员用于演奏数据处理、音频处理及各种声音装置。由于其灵活性及开放性，现在 Max已经描述为开发交互式音乐表演软件的通用语言。

如图2所示为采用Max来实现上述方法的流程，其中端口1、2用于接收待处理音频信号，端口3用于获取声音在空间中的位置控制参数，端口4用于获取响度差控制强度，端口5于获取时间差控制强度。由于Max通常用MIDI相关设备来控制，因此端口3、4、5的数据范围设置为7bit，即0～127，完全符合MIDI标准。

本实施例中，产生响度差的方法可以通过改变双声道中两个声道的响度比例来实现。Benjamin Bauer根据双声道扬声器模型和球形人头模型得出预测响度差与声音定位角度的公式：

$\frac{\sin φ}{\sin θ} = \frac{L + R}{L - R}$

其中φ是人感觉的声音定位角度，θ是双声道扬声器之间的角度；L和R即为每个声道扬声器的响度。

根据以上公式计算，当听者使用的双声道扬声器夹角为60度，如果左右声道的响度差在30dB时，人们对声音定位的感觉已经在极左或极右扬声器。继续增加响度差不会更明显的定位变化。但考虑到常规“声像控制”会将声音信号完全分配到一个通道，本方法中仍然使用该传统方法。控制音量采用余弦波表(cycle～)控制响度(*～)的办法，左声道响度控制采用0度至90度相位，右声道响度控制采用270度至360度相位，左右声道相位差为270度。3输入的位置数据首先通过expr $f1/127*0.25-0.125换算成0度至90度变化的默认中间位置，即45度；4输入控制其变化的强度，通过expr$f1/127将MIDI标准的0至127转化为0至1，并乘以上一expr得出的位置相位，即可实现响度差影响的强度。得出的实际控制数值由 $120及line～平滑处理后送至cycle～，输出0至1的数据用于控制响度。

本实施例中，产生时间差的方法可以在双声道中的某一个声道添加延迟处理器来实现。具体的延迟时间可以由Woodworth公式得出：

$ITD = \frac{r}{c} (θ + \sin θ)$

其中r是头半径，c是声音速度，θ是人感觉的声音定位角度。

根据以上公式计算，当听者的头直径为8.75cm，双声道扬声器夹角为60度，如果左右声道的时间差在约260us时，人们对声音定位的感觉已经在极左或极右扬声器。和响度差不同的是，如果继续增加时间差，人会感到一些其他的效果：

当时间差达到10ms左右时，声音定位会感觉在未延迟的扬声器，听者可能感觉不到延迟扬声器的声音；

当时间差在10～30ms时，声音定位感觉仍然在未延迟的扬声器，但是会增加一定的“现场感”和音量。其中15～25ms通常用于为单声道声音制作立体声效果；

当时间差在30～50ms时，人会感觉到轻微的延迟效果；

当时间差在50ms以上时，人会感觉到明显的延迟效果。

本方法中使用到的最大延迟数值为10ms，因此可以得到最强的定位感觉。为了提高延迟的时间精度，本例中采用comb～，该滤波器算法原理如图3所示。

本方法中的comb～参数100010指定了最大延迟时间为10ms，初始延迟时间为0ms，原始信号a＝0，延迟信号强度b＝1，延迟过信号强度c＝0。由于comb～对延迟的时间进行了平滑处理，因此输入的延迟时间不一定准确到采样点的时间，因此得到了精度较高的延迟时间。5输入为最大延迟时间，即时间差影响的强度，该数值首先通过expr$f1/127*10将MIDI标准的0至127转化为0至10，对应0至 10ms的延迟时间，然后左声道延迟的最终时间首先通过expr abs($f1/127-0.5)*2*($f1>64)，用以判断声像位置是否大于64(声像位置开始偏右)，并将来自3的声像位置转化为0至1，再与上面得到的最大延迟时间相乘，即得到左声道的最终延迟时间。右声道延迟的最终时间和左声道一样，只是判断声像位置是否小于64，因此使用expr abs($f1/127-0.5)*2*($f1<64)。

图4即为在Max中将以上算法应用到声音空间化的实例，使用独立控制模式。其中3、4、5分别对应声像位置、响度差强度和时间差强度，其变化范围均符合 MIDI标准的0至127。

图5即为在Max中将以上算法应用到声音空间化的实例，使用一体化控制模式。2维控制界面中，X轴控制声音空间化的位置，Y轴在极下方仅响度差影响声音，Y轴在极上方仅时间差影响声音。当Y轴在中间时，响度差和时间差共同影响声音。在其他位置时，则在此3种状态间过渡。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种用于空间化声音的音频信号处理方法及装置 [P] . 中国专利： CN104837106B . 2018.01.26
2. 用于确定声音发生周期的音频信号处理装置和音频信号处理方法 [P] . 中国专利： CN101194304B . 2011.06.22
3. PROGRAMMABLE APPARATUS FOR INCREASING SOUND PERCEPTION BY A PERSON, METHOD OF IMPROVING SOUND PERCEPTION BY A PERSON, METHOD OF IMPROVING SOUND PERCEPTION BY A PERSON USING A AUXILIARY AUDIO AUDIO DEVICE AUDIO AUDIO DEVICE A SHELTER AND METHOD OF CONTROL OF THE SETTING OF A HEARING AUXILIARY DEVICE [P] . BRPI0809710A2 . 2014-10-07

机译：用于增加人的声音感知能力的可编程装置，用于提高人的声音感知能力的方法，使用辅助音频音频设备的人来提高声音感知能力的方法，以及一种用于控制设置装置的方法
4. Method and apparatus for synthesizing a binaural audio signal; method;.Method for synthesizing a stereo audio signal; parametric audio decoder; product of computer program stored on a computer mu00ecdia legu00ecvel and executable in a data processing device for processing an audio signal parametricamente codific ADO which comprises, at least,A combined signal of a plurality of audio channels and one or more sets of corresponding information that describe a sound image of multiple channel; the method to generate an encoded audio signal parametricamente; audio encoder for generating a parametric audio signal. Etricamente encoded; the product of computer program.Stored in a mu00ecdia legu00ecvel by computer and executable in a data processing device to generate an encoded audio signal parametricamente [P] . BRPI0706306A2 . 2011-03-22

机译：用于合成双耳音频信号的方法和装置;一种合成立体声音频信号的方法;参数音频解码器;计算机程序上存储的计算机程序产品，可在数据处理设备中执行以执行用于处理音频信号参数编码ADO的数据处理设备，该信号至少包括多个音频通道的组合信号和一组或多组音频描述多声道声像的相应信息;产生编码音频信号参数的方法;音频编码器，用于生成参数音频信号。 Etricamente编码;计算机程序的产品。通过计算机存储在计算机中，并在数据处理设备中可执行以生成编码的音频信号参数
5. METHOD AND APPARATUS FOR INTERLEAVING SINGAL BITS IN A DIGITAL AUDIO BROADCASTING SYSTEM A METHOD AND APPARATUS FOR INTERLEAVING BITS OF A DOGITAL SINGNAL REPRESENTATIVE OF DATA AND?OR AUDIO IN A DIGITAK AUDIO BROADCASTING SYSTEM [P] . IN223888B . 2008-09-26

机译：用于在数字音频广播系统中交织单比特的方法和装置一种用于在数字音频广播系统中交织数据的单本位声音的方法和装置