首页> 中国专利> 一种声学混响时间估计方法和装置

一种声学混响时间估计方法和装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种声学混响时间估计方法和装置。所述声学混响时间估计方法包括：获取待估混响环境中的目标混响语音信息；以预设方式对目标混响语音信息进行处理，得到目标混响语音信息的目标平均相关系数；根据目标平均相关系数和预设声学混响模型确定待估混响环境对应的声学混响时间。本发明解决了现有的声学混响时间估计方案中，因需要建立不同的声学混响模型和获取吸声材料的参数，而导致操作过程繁琐，估计性能弱的问题,不仅简化了声学混响时间获取程序，提高了工作效率，而且使声学混响时间获取操作更加智能化。

著录项

公开/公告号CN106710602A

专利类型发明专利
公开/公告日2017-05-24

原文格式PDF
申请/专利权人南方科技大学;
展开▼

申请/专利号CN201611242178.2
发明设计人陈霏;
展开▼

申请日2016-12-29
分类号G10L21/0208;G10L21/0216;G10L21/0224;
代理机构北京品源专利代理有限公司;
代理人孟金喆
地址 518000 广东省深圳市南山区西丽学苑大道1088号
入库时间 2023-06-19 02:17:44

法律信息

法律状态公告日

法律状态信息

法律状态
2020-03-17

授权

授权
2017-06-16

实质审查的生效 IPC(主分类):G10L21/0208 申请日:20161229

实质审查的生效
2017-05-24

公开

公开

说明书

技术领域

本发明实施例涉及声学测量技术领域，尤其涉及一种声学混响时间估计方法和装置。

背景技术

现实环境中的声学混响对人们(尤其是使用助听设备的听损人士)的言语交流带来极大的影响，同时，声学环境带来的混响也影响人机交换的性能。混响是指声源停止发声后，在声场中还存在着来自各个界面的迟到的反射声形成的声音“残留”现象，这种残留现象的长短以混响时间来表征，混响时间公认的定义是声能密度衰减60dB所需的时间。混响环境下声学混响时间(reverberation time)的估计是很多去混响算法的基础，在助听设备语音信号算法设计、通信系统评估等领域有重要的价值。

现有的混响环境声学混响时间估计方法，需要根据房间体积、吸声系数等混响环境的参数建立一个经验的吸声模型(即声学混响模型)，进而在该吸声模型的基础之上进行混响时间的估计。研究发现，不同的声学环境需要采用不同的声学混响模型进行估计，并需要获知当前待估环境中存在的吸声材料的参数才能比较准确地估计声学混响时间，操作过程繁琐，且声学混响模型与吸声材料的参数的准确与否会直接影响估计结果的准确性，估计性能弱。

发明内容

本发明提供一种声学混响时间估计方法和装置，以解决现有的声学混响时间估计方案中，因需要建立不同的声学混响模型和获取吸声材料的参数，而导致操作过程繁琐，估计性能弱的问题。

第一方面，本发明实施例提供了一种声学混响时间估计方法，包括：

获取待估混响环境中的目标混响语音信息；

以预设方式对所述目标混响语音信息进行处理，得到所述目标混响语音信息的目标平均相关系数；

根据所述目标平均相关系数和预设声学混响模型确定所述待估混响环境对应的声学混响时间。

第二方面，本发明实施例还提供了一种声学混响时间估计装置，该装置包括：

目标混响语音信息获取模块，用于获取待估混响环境中的目标混响语音信息；

目标平均相关系数获取模块，用于以预设方式对所述目标混响语音信息进行处理，得到所述目标混响语音信息的目标平均相关系数；

声学混响时间获取模块，根据所述目标平均相关系数和预设声学混响模型确定所述待估混响环境对应的声学混响时间。

本发明实施例通过根据目标平均相关系数和预设声学混响模型确定待估混响环境对应的声学混响时间，从而解决了现有的声学混响时间估计方案中，因需要建立不同的声学混响模型和获取吸声材料的参数，而导致操作过程繁琐，估计性能弱的问题，不仅简化了声学混响时间获取程序，提高了工作效率，而且使声学混响时间获取操作更加智能化。

附图说明

图1是本发明实施例一中的一种声学混响时间估计方法流程图；

图2是本发明实施例二中的一种声学混响时间估计方法流程图；

图3是本发明实施例二中的一个带混响语音信号的子带包络波形平均相关系数和声学混响时间之间的经验数学模型函数图；

图4是本发明实施例三中的一种声学混响时间估计装置结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种声学混响时间估计方法流程图，本实施例可适用于估计不同环境下声音混响时间的情况，该方法可以由一种声学混响时间估计装置来执行，该装置可以由软件和/或硬件的方式来实现。如图1所示，该方法包括：

S110、获取待估混响环境中的目标混响语音信息。

待估混响环境即要检测的环境，目标混响语音信息可以是在利用语音信息采集设备采集到的，可以是一段不带混响的声音在待估混响环境中发生发射和吸收后得到的一段带混响的声音。

在执行该方法前，要保证待估混响环境下有且只有一个语音信息，从而保证了目标混响语音信息的单一性，避免其他噪音影响要获取的目标混响声音。

S120、以预设方式对所述目标混响语音信息进行处理，得到所述目标混响语音信息的目标平均相关系数。

所述对所述目标混响语音信息处理方式包括从目标混响语音信息提取语音特征，并对语音特征进行归一化互相关处理得到相关的语音特征参数，根据所述语音特征参数获取目标平均相关系数。

进而将目标平均相关系数作为已知量进行后续计算过程。

S130、根据所述目标平均相关系数和预设声学混响模型确定所述待估混响环境对应的声学混响时间。

预设声学混响模型可通过以下方式获得：模拟多个混响环境并获取所述多个混响环境中每个混响环境对应的混响时间；对于所述每个混响环境，在当前混响环境中播放标准语音信号，在任意位置记录所述标准语音信号对应的混响语音信息样本，以所述预设方式对所述混响语音信息样本进行处理，得到所述混响语音信息样本对应的平均相关系数。

示例性的,可在模拟出的混响环境下,播放一段清晰(不含混响)的语音信号作为标准语音信号(例如说话人说的一句话)，并在某一位置记录受到混响环境影响后的带混响的标准语音信号作为混响语音信息样本。

所述混响时间获取方法可包括切断噪声法、脉冲积分法和施罗德混响时间估计方法等。

以使用切断噪声法获取混响时间为例，首先在混响环境内用声源建立一个稳定的声场，然后使声源突然停止发声，用传声器监视室内声压级的衰变，同时记录衰变曲线，最后从衰变曲线计算声压级下降60dB的时间而测得混响时间。为了避免因声衰变严重地受到无规过程中瞬时起伏的影响，可以对相同的声源和传声器点必须测量多次进行平均，进而得到更加准确的混响时间。

预设声学混响模型的确定需要大量的数据确定，从而保证预设声学混响模型的准确性。

实施例二

图2是本发明实施例二中的一种声学混响时间估计方法流程图，本实施例在实施例一的基础上，进一步阐述了平均相关系数的获取操作，如图2所示，该方法包括：

S210、获取待估混响环境中的目标混响语音信息；

S220、利用带通滤波器将所述目标混响语音信息分隔为至少两个语音分量。

带通滤波器(band-pass filter)是一个允许特定频段的波通过同时屏蔽其他频段的设备。比如RLC振荡回路就是一个模拟带通滤波器。带通滤波器用于将目标混响语音信息中不同声音频率的语音信息分隔开，得到不同的语音分量。

不同语音分量间的频率差值可以根据具体的声音信息设定。

由于人发出的语音的声音频率集中处于80Hz-8000Hz间，按照人耳听觉等ERB(Equivalent rectangular bandwidth)间距的原则设定频率差值，优选的，所述语音分量的个数为8。

S230、对所述至少两个语音分量分别进行取绝对值运算,得到至少两个绝对值波形。

所述绝对值运算即将两个语音分量对应的语音分量波形图中y轴小于0的部分翻转来，进而得到的语音分量中没有负值，便于后续操作。

S240、将所述至少两个绝对值波形分别输入到低通滤波器，得到至少两个时域包络波形。

低通滤波器用于阻止高于截止频率的信号通过，进而获取低于截止频率的信号。截止频率可以根据具体需求设定，经过发明人多次实验，将截止频率设定为50Hz获取到的声音对混响声音时间的获取较有准确，因此，本实施例中将截至频率优选取值为50Hz。时域包络波形根据获取到的低于截止频率的声音信号处理得到。

S250、对所述至少两个时域包络波形中的相邻的时域包络波形进行归一化互相关处理，得到至少一个语音分量系数；

归一化互相关处理是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为标量，进而根据结果标量得到至少一个语音分量系数。

语音分量系数根据频率范围相邻的两个语音分量计算得到，因此，本实施例中语音分量系数的个数优选设定为7。

S260、当所述至少一个语音分量系数中仅包含一个语音分量系数时，将该语音分量系数作为所述目标混响语音信息的目标平均相关系数；当所述至少一个语音分量系数中包含至少两个语音分量系数时，对所述至少两个语音分量系数做平均值运算，得到所述目标混响语音信息的目标平均相关系数。

具体的，当语音分量的个数为2时，所述语音分量系数的个数是1；当语音分量的个数大于2，即语音分量系数的个数大于1时，会对多个语音分量系数取平均值，进而得到目标平均相关系数。

S270、根据所述目标平均相关系数和预设声学混响模型确定所述待估混响环境对应的声学混响时间。

如图3所示，预设声学混响模型可以是一个带混响语音信号的子带包络波形平均相关系数和声学混响时间之间的经验数学模型函数图，该模型是通过发明人在获取海量数据并经过多次实验得到的。优选的，所述预设声学混响模型对应的公式为：

Y＝9.42X-6.48

其中，Y表示声学混响时间，X表示平均相关系数。

本实施例的技术方案，通过将目标混响语音信息分解为多个语音分量，并对各个语音分量对应的语音分量系数做出预设处理，从而得到目标平均相关系数，保证了目标平均相关系数的精确度，从而使得到的目标混响声音更加准确。

实施例三

图4所示为本发明实施例三提供的一种声学混响时间估计装置结构示意图，如图4所示，该声学混响时间估计装置包括：目标混响语音信息获取模块410、目标平均相关系数获取模块420和声学混响时间获取模块430。

其中，目标混响语音信息获取模块410，用于获取待估混响环境中的目标混响语音信息；

目标平均相关系数获取模块420，用于以预设方式对所述目标混响语音信息进行处理，得到所述目标混响语音信息的目标平均相关系数；

声学混响时间获取模块430，根据所述目标平均相关系数和预设声学混响模型确定所述待估混响环境对应的声学混响时间。

进一步的，所述预设声学混响模型通过以下方式获得：

模拟多个混响环境并获取所述多个混响环境中每个混响环境对应的混响时间；

对于所述每个混响环境，在当前混响环境中播放标准语音信号，在任意位置记录所述标准语音信号对应的混响语音信息样本，以所述预设方式对所述混响语音信息样本进行处理，得到所述混响语音信息样本对应的平均相关系数；

根据所有混响语音信息样本对应的平均相关系数以及所述每个混响环境对应的混响时间确定预设声学混响模型。

进一步的，声学混响时间获取模块包括：

绝对值波形获取单元，用于利用带通滤波器将所述目标混响语音信息分隔为至少两个语音分量，对所述至少两个语音分量分别进行取绝对值运算,得到至少两个绝对值波形；

两个时域包络波形获取单元，用于将所述至少两个绝对值波形分别输入到低通滤波器，得到至少两个时域包络波形；

语音分量系数获取单元，用于对所述至少两个时域包络波形中的相邻的时域包络波形进行归一化互相关处理，得到至少一个语音分量系数；

目标平均相关系数获取单元，当所述至少一个语音分量系数中仅包含一个语音分量系数时，将该语音分量系数作为所述目标混响语音信息的目标平均相关系数；当所述至少一个语音分量系数中包含至少两个语音分量系数时，对所述至少两个语音分量系数做平均值运算，得到所述目标混响语音信息的目标平均相关系数。

进一步的，所述语音分量的个数为8。

进一步的，所述预设声学混响模型对应的公式为：

Y＝9.42X-6.48

其中，Y表示声学混响时间，X表示平均相关系数。

本发明实施例所提供的声学混响时间估计装置可以用于执行本发明实施例所提供的声学混响时间估计方法，具备相应的功能和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的声学混响时间估计方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种声学混响时间估计方法和装置 [P] . 中国专利： CN106710602B . 2020.03.17
2. 一种混响时间估计方法及装置 [P] . 中国专利： CN107680603B . 2021.08.31
3. Reverberation time estimation apparatus and reverberation time estimation method [P] . 日本专利： JP5077847B2 . 2012-11-21

机译：混响时间估计装置和混响时间估计方法
4. Method and Apparatus for Estimating Reverberation Time based on Multi-Channel Microphone using Deep Neural Network [P] . 韩国专利： KR101871604B1 . 2018-06-27

机译：深度神经网络的多通道麦克风混响时间估计方法及装置
5. Method and Apparatus for Estimating Reverberation Time based on Multi-Channel Microphone using Deep Neural Network [P] . 韩国专利： KR20180069299A . 2018-06-25

机译：深度神经网络的多通道麦克风混响时间估计方法及装置