Multi-Speaker DOA Estimation Using Deep Convolutional Networks Trained With Noise Signals

Chakrabarty Soumitro; Habets Emanuel A. P.

首页> 外文期刊>Selected Topics in Signal Processing, IEEE Journal of >Multi-Speaker DOA Estimation Using Deep Convolutional Networks Trained With Noise Signals

【24h】

Multi-Speaker DOA Estimation Using Deep Convolutional Networks Trained With Noise Signals

机译：使用受噪声信号训练的深度卷积网络进行多扬声器DOA估计

获取原文

获取原文并翻译 | 示例

开具论文收录证明 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

Supervised learning-based methods for source localization, being data driven, can he adapted to different acoustic conditions via training and have been shown to be robust to adverse acoustic environments. In this paper, a convolutional neural network (CNN) based supervised learning method for estimating the direction of arrival (DOA) of multiple speakers is proposed. Multi-speaker DOA estimation is formulated as a multi-class multi-label classification problem, where the assignment of each DOA label to the input feature is treated as a separate binary classification problem. The phase component of the short-time Fourier transform (STFT) coefficients of the received microphone signals are directly fed into the CNN, and the features for DOA estimation are learnt during training. Utilizing the assumption of disjoint speaker activity in the STFT domain, a novel method is proposed to train the CNN with synthesized noise signals. Through experimental evaluation with both simulated and measured acoustic impulse responses, the ability of the proposed DOA estimation approach to adapt to unseen acoustic conditions and its robustness to unseen noise type is demonstrated. Through additional empirical investigation, it is also shown that with an array of M microphone our proposed framework yields the best localization performance with M-1 convolution layers. The ability of the proposed method to accurately localize speakers in a dynamic acoustic scenario with varying number of sources is also shown.

机译：在数据驱动下，基于监督的基于学习的源定位方法可以通过训练适应不同的声学条件，并且已经证明对不利的声学环境具有鲁棒性。本文提出了一种基于卷积神经网络（CNN）的监督学习方法，用于估计多个说话者的到达方向（DOA）。多扬声器DOA估计被公式化为多类多标签分类问题，其中将每个DOA标签到输入特征的分配视为一个单独的二进制分类问题。接收到的麦克风信号的短时傅立叶变换（STFT）系数的相位分量直接馈入CNN，并在训练过程中学习DOA估计的特征。利用STFT域中说话人活动不相交的假设，提出了一种用合成噪声信号训练CNN的新方法。通过对模拟和测量的声脉冲响应进行实验评估，证明了所提出的DOA估计方法能够适应看不见的声学条件，并具有针对看不见的噪声类型的鲁棒性。通过其他的实证研究，还表明，使用M个麦克风阵列，我们提出的框架在M-1卷积层上可产生最佳的定位性能。还显示了所提出方法在具有变化数量的源的动态声学场景中准确定位扬声器的能力。

著录项

来源
《Selected Topics in Signal Processing, IEEE Journal of》 |2019年第1期|8-21|共14页
作者
Chakrabarty Soumitro; Habets Emanuel A. P.;
展开▼
作者单位

Int Audio Labs Erlangen, D-91058 Erlangen, Germany;

Int Audio Labs Erlangen, D-91058 Erlangen, Germany;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类
关键词
Source localization; multiple speakers; convolutional neural networks;

机译：源本地化;多个扬声器;卷积神经网络;

相似文献

外文文献
中文文献
专利

1. Multi-Speaker DOA Estimation Using Deep Convolutional Networks Trained With Noise Signals [J] . Chakrabarty Soumitro, Habets Emanuel A. P. Selected Topics in Signal Processing, IEEE Journal of . 2019,第1期

机译：使用具有噪声信号训练的深卷积网络的多扬声器DOA估计
2. DOA Robust Estimation of Echo Signals Based on Deep Learning Networks With Multiple Type Illuminators of Opportunity [J] . Hu Bo, Liu Mingqian, Yi Fei, Quality Control, Transactions . 2020,第期

机译：基于深度学习网络的多种机会照明器的回波信号的DOA鲁棒估计
3. Synchronized perturbation elimination and DOA estimation via signal selection mechanism and parallel deep capsule networks in multipath environment [J] . Ying CHEN, Cong WANG, Kunlai XIONG, 中国航空学报（英文版） . 2021,第012期

机译：通过信号选择机制和多径环境中的并行深胶囊网络同步扰动消除和DOA估计
4. Broadband doa estimation using convolutional neural networks trained with noise signals [C] . Soumitro Chakrabarty, Emanuel A. P. Habets IEEE Workshop on Applications of Signal Processing to Audio and Acoustics . 2017

机译：使用受噪声信号训练的卷积神经网络进行宽带doa估计
5. Going Deeper with Recurrent Convolutional Neural Networks for Classifying P300 BCI Signals [D] . Maddula, Ramesh Krishna. 2017

机译：利用递归卷积神经网络对P300 BCI信号进行分类
6. A Novel Approach to 3D-DOA Estimation of Stationary EM Signals Using Convolutional Neural Networks [O] . Dong Chen, Young Hoon Joo 2020

机译：卷积神经网络用于静止电磁信号3D-DOA估计的新方法
7. Broadband DOA estimation using Convolutional neural networks trained with noise signals [O] . Chakrabarty, Soumitro, Habets, Emanuël. A. P. 2017

机译：使用卷积神经网络训练的宽带DOa估计有噪音信号

Multi-Speaker DOA Estimation Using Deep Convolutional Networks Trained With Noise Signals

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅