法律状态公告日
法律状态信息
法律状态
2019-04-19
授权
授权
2017-07-07
实质审查的生效 IPC(主分类):G01S1/76 申请日:20161230
实质审查的生效
2017-06-13
公开
公开
技术领域
本发明涉及一种声源定位方法,特别涉及一种强混响环境下基于参数化贝叶斯字典学习的声源定位方法。
背景技术
文献“Structured sparsity models for reverberant speech separation,Audio,Speech,and Language Processing,IEEE/ACM Transactions on,vol.22,pp.620-633,2014”借助房间内部采集的多个传声器信号,在房间内外设置多个网格点估计房间形状以及多级虚声源,其次利用房间的虚声源模型估计房间的吸声系数,最后使用凸优化的数据算法来进行室内多源分离的研究。然而,当室内混响较强时,空间内设定网格点数目会极大地增加,且吸声参数未知,该方法所涉及得估计变量较多,计算效率低下,求解算法精度不高,因而无法准确计算获得室内声源的位置。因此,对于室内声源定位,对未知房间的声学参数进行准确估计是合理估计房间声源位置信息的前提条件。
发明内容
为了克服现有声源定位方法精确度差的不足,本发明提供一种强混响环境下基于参数化贝叶斯字典学习的声源定位方法。该方法基于传声器镜像简化字典,在稀疏贝叶斯的框架下,实现声源定位和房间反射系数的同步估计求解。利用本发明方法将字典预先计算出来,完成声源定位和反射系数估计的效率可以得到提升,这样在没有显著提升计算量的情况下,提高了声源定位方法的精度。本发明对复杂室内环境下的声源定位有很大的潜在实用价值,也可作为封闭空间中声学参数估计的方法。
本发明解决其技术问题所采用的技术方案:一种强混响环境下基于参数化贝叶斯字典学习的声源定位方法,其特点是包括以下步骤:
步骤一、定位环境选取能够用于矩形或根据形状直接获取虚源的房间。选定房间内某一维或二维平面进行室内网格划分,假设室内网格点数目为G。
步骤二、构建信号模型:声源定位时需要获得的目标信息是声源在房间中的位置,这一信息的量化离散化为分布在室内空间以及室外镜像空间的有限个网格点,每个网格点的声源幅度为xg。假设声源存在于任意一个网格点内,任意位置的接收信号y(r,f)表示为式(1)
式中,f为当前频率,c为空气中的声速,G为室内网格点数目,βg为对应虚源的反射系数,xg为反映声源位置的向量。在所有的G个网格点上,xg只有很少的一些非零元数,对应于房间空间的实际声源位置和镜像空间的虚声源位置。在构造字典时,只在房间内部设定网格点,每个字典元素为声源存在的内部网格点与接收点镜像之间的通道叠加。由此得到
yf=Afxf(4)
式(2)右端表示传声器及其镜像声能量贡献的总叠加,式(3)为字典原子计算公式,N0为接收点镜像级数,为ns,i阶镜像对应的声压反射系数。整理式(3)得到式(4)。式中,yf∈CM×1,xf∈CG×1,Af∈CM×G。
步骤三、接收点镜像求解:对于尺寸为lx×ly×lz的矩形房间,假设接收点位置为(x0,y0,z0),某级接收点镜像的位置为(xi,yi,zi),l、m、n是界于-∞和+∞之间的整数,则任意接收点镜像的空间坐标表示为
xi=2l·lx±x0
yi=2m·ly±y0(5)
zi=2n·lz±z0
镜像的反射级数由下式给出
N=|2l-Δl|+|2m-Δm|+|2n-Δn|(6)
Δl=1表示求xi式中x0前取负;Δl=0表示求xi式中x0前取正;Δm=1表示求yi式中y0前取负;Δm=0表示求yi式中y0前取正;Δn=1表示求zi式中z0前取负;Δn=0表示求zi式中z0前取正。
步骤四、构造求解字典:按式(3)构造反射系数β的不同量化数值下的字典Af及其对β的一阶导数A'f和二阶导数矩阵A″f。
步骤五、位置向量xf求解:在进行室内声定位时,房间内的网格点数目G不仅远远大于传声器个数M,而且大于声源个数。即xf具有空间稀疏性,通过稀疏贝叶斯方法估计含有声源位置信息的x。观察信号由式(7)采样得到。
IM为M维的单位阵,xf由下式得到:
xf|α~CN(0,Λ-1I)(8)
其中上式中CN表示复高斯分布,Gamma表示伽马分布。上述概率模型通过变分贝叶斯-期望最大化算法求解。其中xf的后验概率通过式(9)得到:
表示对应变量的估计值。
下面直接给出各参数估计的方法,其中服从均值为的Gamma分布。α0服从均值为的高斯分布,Tr表示矩阵的迹。
步骤六、参数β的估计:上述各字典中包含反射系数β参数,估计该参数等价于使式(10)最小化:
该最优化问题通过Newton法求解,迭代公式如下:
式中,A'f表示对对应的参数β求导,A″f表示二阶导数。通过对稀疏贝叶斯框架中的字典引入反射系数作为参数,并通过Newton法迭代解决该问题,通过分步求解,实现在估计声源位置xf的同时,估计出该反射系数β。改参数的估计一方面为房间声学参数估计,同时也得到更准确的房间声学信息,达到更好的声源定位效果。
步骤七、参数β量化:在房间信息完全未知的情况下,β的初值设置为0.5,通过带参数的贝叶斯稀疏方法,分别利用式(9)和式(10)对声源位置xf和反射系数β进行估计,反射系数估计与声源位置的估计是同时进行的,即在式(9)和式(10)之间反复进行,每步迭代都需要估计反射系数并通过量化寻找最接近的字典并进行下一步迭代,β不同将导致字典多次重新计算,带来巨大的计算量。
为了避免重复计算字典,首先将β在其值域范围(0~1)内量化为若干离散数据点,然后将这些离散点的值对应的字典在迭代前计算出来,将计算得到的β量化到对应的离散值上并调用对应的字典可显著减少计算量。
本发明的有益效果是:该方法基于传声器镜像简化字典,在稀疏贝叶斯的框架下,实现声源定位和房间反射系数的同步估计求解。利用本发明方法将字典预先计算出来,完成声源定位和反射系数估计的效率可以得到提升,这样在没有显著提升计算量的情况下,提高了声源定位方法的精度。本发明对复杂室内环境下的声源定位有很大的潜在实用价值,也可作为封闭空间中声学参数估计的方法。
分别对得到的采集信号做不同的信噪比处理并进行定位,选定频率范围为1kHz~2kHz。分别统计本发明方法与文献方法下的计算时间,表1显示了相应方法在同一台计算上完成一次定位任务的耗时情况,本发明方法提供的两种耗时,一个是未量化反射系数条件下计算得到(左),一种是量化反射系数条件下计算得到(右)。
表1不同方法耗时对比
表1表明在准确估计反射系数的同时,计算耗时比文献算法耗时少。本发明方法的计算时间不受房间混响程度的影响,它只于房间划分的网格点数有直接的关系,网格点数目越多,求解向量维度越高,耗费时间越多。
下面结合附图和具体实施方式对本发明作详细说明。
附图说明
图1是本发明强混响环境下基于参数化贝叶斯字典学习的声源定位方法的流程图。
图2是本发明方法用测试系统连接框图。
图3是10*10网格下的声源信息矢量x迭代收敛过程。
图4是20*20网格下的声源信息矢量x迭代收敛过程。
图5是不同信噪比下传感器数目为10*10时的反射系数迭代求解均方误差(MSE)曲线。
图6是不同信噪比下传感器数目为20*20时的反射系数迭代求解均方误差(MSE)曲线。
图中,MSEx,MSEbeta,MSEx0分别对应x、β和文献方法所得x0。
具体实施方式
参照图1-6。本发明强混响环境下基于参数化贝叶斯字典学习的声源定位方法具体步骤如下:
步骤一、定位环境选取:本方法只可用于矩形或其他根据形状可直接获取虚源的房间。选定房间内某一维或二维平面内的进行声源定位的室内网格划分,这里假设室内网格点数目为G。
步骤二、构建信号模型:声源定位时需要获得的目标信息是声源在房间中的位置,这一信息的量化离散化为分布在室内空间以及室外镜像空间的有限个网格点,每个网格点可能的声源幅度为xg。假设声源可能存在于任意一个网格点内,任意位置的接收信号y(r,f)可表示为式(1)
式中f为当前频率,c为空气中的声速,G为网格点的总数目,βg为对应虚源的反射系数,xg为反映声源位置的向量。在所有可能的G个网格点上,xg只有很少的一些非零元数,对应于房间空间的实际声源位置和镜像空间的虚声源位置。在构造字典时,只在房间内部设定网格点,每个字典元素为声源可能存在的内部网格点与接收点镜像之间的通道叠加。因此可得
yf=Afxf(4)
式(2)右端表示为传声器及其镜像的声能量贡献的总叠加,式(3)为字典原子计算公式,N0为接收点镜像级数,为ns,i阶镜像对应的声压反射系数。整理式(3)可得式(4)。式中,yf∈CM×1,xf∈CG×1,Af∈CM×G。
步骤三、接收点镜像求解:对于尺寸为lx×ly×lz的矩形房间,假设接收点位置为(x0,y0,z0),某级接收点镜像的位置为(xi,yi,zi),l、m、n是界于-∞和+∞之间的整数,则任意接收点镜像的空间坐标可表示为
xi=2l·lx±x0
yi=2m·ly±y0(5)
zi=2n·lz±z0
镜像的反射级数可以由下式给出
N=|2l-Δl|+|2m-Δm|+|2n-Δn|(6)
Δl=1表示求xi式中x0前取负;Δl=0表示求xi式中x0前取正;Δm=1表示求yi式中y0前取负;Δm=0表示求yi式中y0前取正;Δn=1表示求zi式中z0前取负;Δn=0表示求zi式中z0前取正。
步骤四、构造求解字典:按式(3)构造反射系数β的不同量化数值下的字典Af及其对β的一阶导数A'f和二阶导数矩阵A″f。
步骤五、位置向量xf求解:在进行室内声定位时,房间内的网格点数目G不仅远远大于传声器个数M,而且大于声源个数。即xf具有空间稀疏性,通过稀疏贝叶斯方法估计含有声源位置信息的x。观察信号由式(7)采样得到。
yf|xf,α0~CN(Afxf,α0-1IM)(7)
IM为M维的单位阵,xf由下式得到:
xf|α~CN(0,Λ-1I)(8)
其中上式中CN表示复高斯分布,Gamma表示伽马分布。上述概率模型可通过变分贝叶斯-期望最大化算法求解。其中xf的后验概率可通过式(9)得到:
表示对应变量的估计值。
下面直接给出各参数估计的方法,其中服从均值为的Gamma分布。α0服从均值为的高斯分布,Tr表示矩阵的迹。
步骤六、参数β的估计:上述各字典中包含反射系数β参数,估计该参数可以等价于使式(10)最小化:
该最优化问题可通过Newton法求解,迭代公式如下:
式中A'f表示对对应的参数β求导,A″f表示二阶导数。通过对稀疏贝叶斯框架中的字典引入反射系数作为参数,并通过Newton法迭代解决该问题,通过分步求解,可实现在估计声源位置xf的同时,估计出该反射系数β。改参数的估计一方面为房间声学参数估计,同时也可得到更准确的房间声学信息,可达到更好的声源定位效果。
步骤七、参数β量化:在房间信息完全未知的情况下,β的初值一般设置为0.5,通过带参数的贝叶斯稀疏方法分别利用式(9)和式(10)对声源位置xf和反射系数β进行估计,反射系数估计与声源位置的估计是同时进行的,即在(9)和(10)>
为了避免重复计算字典,首先将β在其值域范围(0~1)内量化为若干离散数据点(本发明取1000个点的均匀量化方法),然后将这些离散点的值对应的字典在迭代前计算出来,将计算得到的β量化到对应的离散值上并调用对应的字典可显著减少计算量。
应用实施例:
房间为一封闭矩形空间。其长宽高分别为lx=4m,ly=5m,lz=3m。
步骤1:在封闭房间内部选定同一高度,布置15阵元的线性传声器阵列,阵列位置为x=1.44m,z=1.5m,y方向间隔为0.2m,起始端传声器位置为y=0.1m。
步骤2:根据房间尺寸,选定z=1.5m的平面为主要参考区域,x、y方向各划分10段均匀的进行网格划分,即房间内部的网格点为100个(或20段共400点),网格大小为40cm×50cm(20cm×25cm)。网格坐标取网格中心位置坐标。
步骤3:根据房间壁面材料,通过查表获取各壁面吸声系数或直接测量室内混响时间确定房间的平均声压反射系数β0。
步骤4:随机选取一个预划分的网格点作为声源位置,按照附图2连接电脑,以及相应的采集设备。
步骤5:开启所有设备并驱动声源,持续播放预定的白噪声信号并设定所采集时域信号的采样频率并进行录制,保存数据。对各保存数据做短时傅立叶变换,获取各传声器信号的频域表示yf。
步骤6:选定坐标参考点,测量各传声器在房间内的相对位置,根据房间内部网格点划分,求解各传声器镜像的位置信息ri以及各镜像的反射级数ns,i。
步骤7:根据各传声器镜位置ri、镜像反射级数ns,i以及各壁面反射系数初值β0进行量化求解,根据公式(5)求解房间内各网格点对应的字典原子,形成各频率点下的字典Af及其导数矩阵A'f、A”f。
步骤8:基于yf和Af,根据公式(9)获取各单独频率下的位置向量xf以及联合各频率点数据求解的位置向量xt,根据公式(10)进行房间反射系数估计,该步骤一般重复多次直到位置向量xt及反射系数β不在变化。
步骤9:根据求解结果xf、xt中最大值对应的网格点即为该频率点下使用本方法定位得到的声源位置。
本方法中反射系数在不同初值及网格划分情况下迭代收敛的情况参照图3、图4。其中粗虚线是真实值,可以看到不同初值下10*10、20*20网格划分情况下,利用本发明方法最终都能收敛到反射系数的真实值。
机译: 基于贝叶斯峰选择和监测设备的基于贝叶斯峰值选择和相同的监测设备确定方法的方法
机译: 基于朴素贝叶斯滤波方法的语义环境Ubiquitous健康服务推荐个性化内容推荐方法以及基于数字电视的Ubuquitous健康服务平台推荐方法
机译: 基于朴素贝叶斯滤波方法的语义环境Ubiquitous健康服务推荐个性化内容推荐方法以及基于数字电视的Ubuquitous健康服务平台推荐方法