首页> 中文学位 >基于麦克风阵列的声源定位与跟踪算法研究
【6h】

基于麦克风阵列的声源定位与跟踪算法研究

代理获取

摘要

麦克风阵列在视频会议、语音增强、语音识别、说话人识别等领域有着非常广泛的应用。声源定位与跟踪是麦克风阵列系统中的关键技术。然而,在有噪声和混响的环境中,实现实时的、精度较高的声源定位与跟踪是非常困难的。本文围绕混响环境中的声源定位与跟踪问题,进行了深入研究,主要包括两个方面的内容:
   1.基于麦克风阵列的声源定位
   相位变换加权的可控响应功率(SRP-PHAT: Steered Response Power-Phase Transform)声源定位算法在混响环境中有较强的鲁棒性因而成为了目前最为流行的声源定位算法之一。但该算法计算量很大,难以实现实时声源定位。此外,在强混响环境中,尤其对于小型麦克风阵列,该算法的定位精度仍然不高。针对SRP-PHAT算法的缺点,本文提出以下几种改进算法:
   (1)基于离散时延的SRP-PHAT快速算法。SRP-PHAT函数值等于所有麦克风对的互相关函数之和。由于接收信号采样率有限,必须提高互相关函数采样率才能保证定位精度。本文提出的算法首先将接收信号变换至频域,然后在频域补零至L倍,再利用IFFT得到采样率为原始采样率L倍的互相关函数。仿真结果表明,该算法可将计算量降低一个数量级而保持原算法的鲁棒性。
   (2)基于正交线阵的SRP-PHAT快速算法。该算法利用正交线阵,将原算法中二维的计算转变成两个一维的计算,因此大大减少了计算量。对于一个M元的正交线阵,该算法的计算量为原算法的1/M。仿真结果表明,该算法能保持与原算法几乎相同的定位性能。
   (3)基于小型均匀圆阵的鲁棒声源定位算法。该算法首先计算SRP-PHAT空间谱,然后选取SRP值最高的500个点,运用AC(Agglomerative Clustering)聚类将这些点分成若干类,选取点数最多的类中SRP值最高的点作为声源位置估计。该算法利用了均匀圆阵的特点来定位,因此在混响环境中鲁棒性较好。实验表明,相比于传统的SRP-PHAT算法,该算法可将定位成功率提高3%~5%。
   (4)基于子带SRP的多声源定位算法。该算法将信号划分为若干个子带,然后计算子带SRP并且将每个子带最高SRP值点作为初始估计。根据频域稀疏性假设,这些初始估计中包含了多个声源的位置,利用AC聚类可得到多个声源位置估计。实验表明,在2~3个人同时说话的情况下,该算法比传统的SRP-PHAT多声源定位算法性能更好。
   2.基于麦克风阵列的声源跟踪
   粒子滤波是解决声源跟踪问题的重要工具。语音中的静音间隙和定位函数对声源跟踪算法性能影响很大,基于这两点考虑,本文提出两种改进的粒子滤波声源跟踪算法:
   (1)基于粒子滤波的静音检测与声源跟踪算法。该算法用SRP-PHAT做定位函数,利用粒子状态观测值方差来做静音检测,当检测到静音帧时,仅根据声源动态方程来估计目标位置。由于该算法在做静音检测时充分利用了已有的计算结果,因此几乎不增加计算量。仿真结果表明,该算法能有效减小静音期间的跟踪误差。
   (2)结合了两种定位函数的粒子滤波声源跟踪算法。常规可控波束形成(SBF:Steered Beamformer)和SRP-PHAT是两种常用的定位函数,前者对噪声鲁棒而后者对混响鲁棒。在本文提出的算法中,分别用这两种定位函数来构造似然函数,并分别评价粒子权重,将两种粒子权重归一化后求其平均值得到新的粒子权重。该算法结合了两种定位函数的优点,因此有更好的鲁棒性。仿真结果表明,该算法在低信噪比、强混响的环境中,能明显提高跟踪精度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号