首页> 中文学位 >基于神经网络的鲁棒双耳声源定位研究
【6h】

基于神经网络的鲁棒双耳声源定位研究

代理获取

目录

第一个书签之前

展开▼

摘要

声源定位技术作为语音信号处理系统的重要前端,在视频会议、助听器、机器人听觉等方面有广泛的应用。声源定位算法包括基于麦克风阵列的定位算法和基于双耳的定位算法。基于双耳的声源定位模拟人耳听觉感知的特性,从而实现定位,但以往的双耳声源定位算法在混响与噪声中定位性能显著下降。本文结合近年来兴起的神经网络,以双耳空间信息为基础,研究鲁棒的双耳声源定位算法。本文主要分析和实现了两种基于神经网络的双耳声源定位算法:基于子带深度神经网络的双耳声源定位算法和基于长短期记忆网络的双耳声源定位算法。 (1)基于子带深度神经网络的双耳声源定位算法。基于子带深度神经网络DNN(DeepNeural Networks)的双耳声源定位算法是对原有基于DNN定位算法的改进。原有算法是基于全频带的,而子带定位算法模拟人耳的时频分析特性,将双耳声信号划分为多个子带,利用子带的双耳空间定位特征参数互相关函数CCF(Cross Correlation Function)和耳间强度差IID(Interaural IntensityDifference),建立子带DNN。在子带内,将声源定位看做多分类问题,同时根据乘积规则和求和平均的两种子带结果融合方法,实现最终的声源方位估计。在多种混响和噪声环境下的仿真测试表明,基于子带DNN的定位算法对噪声和混响有很强的鲁棒性。 (2)基于长短期记忆网络的双耳声源定位算法。基于声信号前、后帧的相关性,将长短期记忆网络LSTM(Long Short-Term Memory)作为声源定位问题中的多分类器。LSTM可以结合过去时刻信息对当前时刻的数据做出预测,本文将前、后帧声信号的双耳空间定位特征参数作为LSTM中前、后时间节点的序列信息,建立顶层为softmax回归结构的LSTM定位网络。定位特征数据是全频带上的IID和CCF参数,并对CCF做子带信噪比估计的加权处理。在不同关联帧数下的仿真测试表明,关联帧数的增加使算法的性能不断提升,算法在极低信噪比和强混响下都有很高的定位准确率。

著录项

  • 作者

    王茜茜;

  • 作者单位

    东南大学;

  • 授予单位 东南大学;
  • 学科 信息与通信工程
  • 授予学位 硕士
  • 导师姓名 周琳;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    神经网络; 鲁棒; 声源;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号