Towards Scaling Up Classification-Based Speech Separation

Wang Y.; Wang D.

首页> 外文期刊>Audio, Speech, and Language Processing, IEEE Transactions on >Towards Scaling Up Classification-Based Speech Separation

【24h】

Towards Scaling Up Classification-Based Speech Separation

机译：逐步扩大基于分类的语音分离

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Formulating speech separation as a binary classification problem has been shown to be effective. While good separation performance is achieved in matched test conditions using kernel support vector machines (SVMs), separation in unmatched conditions involving new speakers and environments remains a big challenge. A simple yet effective method to cope with the mismatch is to include many different acoustic conditions into the training set. However, large-scale training is almost intractable for kernel machines due to computational complexity. To enable training on relatively large datasets, we propose to learn more linearly separable and discriminative features from raw acoustic features and train linear SVMs, which are much easier and faster to train than kernel SVMs. For feature learning, we employ standard pre-trained deep neural networks (DNNs). The proposed DNN-SVM system is trained on a variety of acoustic conditions within a reasonable amount of time. Experiments on various test mixtures demonstrate good generalization to unseen speakers and background noises.

机译：已经证明将语音分离作为二进制分类问题是有效的。尽管使用内核支持向量机（SVM）在匹配的测试条件下实现了良好的分离性能，但在涉及新扬声器和环境的不匹配条件下进行分离仍然是一个巨大的挑战。解决不匹配问题的一种简单而有效的方法是将许多不同的声学条件包括在训练集中。但是，由于计算复杂性，对于内核计算机而言，大规模培训几乎是棘手的。为了能够在相对较大的数据集上进行训练，我们建议从原始声学特征中学习更多的线性可分离和区分性特征，并训练线性SVM，这比内核SVM更容易，更快地进行训练。对于特征学习，我们采用标准的预训练深度神经网络（DNN）。拟议的DNN-SVM系统在合理的时间内在各种声学条件下进行了训练。在各种测试混合物上进行的实验证明，可以很好地概括看不见的说话者和背景噪音。

著录项

来源
《Audio, Speech, and Language Processing, IEEE Transactions on》 |2013年第7期|1381-1390|共10页
作者
Wang Y.; Wang D.;
展开▼
作者单位

Department of Computer Science and Engineering, The Ohio State University, Columbus, OH, USA;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类
关键词
Acoustics; Feature extraction; Kernel; Neural networks; Noise; Speech; Training; Computational auditory scene analysis (CASA); deep belief networks; feature learning; monaural speech separation; support vector machines;

机译：声学;特征提取;核心;神经网络;噪声;言语;训练;计算听觉场景分析（CASA）;深入的信仰网络;特征学习;单声道语音分离支持向量机;

相似文献

外文文献
中文文献
专利

1. Voiced/unvoiced speech classification-based adaptive filtering of decomposed empirical modes for speech enhancement [J] . Khaldi Kais, Boudraa Abdel-Ouahab, Turki Monia Signal Processing, IET . 2016,第1期

机译：基于浊音/清音语音分类的自适应经验模式自适应滤波，用于语音增强
2. A Classification-Based Non-local Means Adaptive Filtering for Speech Enhancement and Its FPGA Prototype [J] . Srinivas Nagapuri, Pradhan Gayadhar, Kumar Puli Kishore Circuits, systems, and signal processing . 2020,第5期

机译：基于分类的非本地方法自适应滤波，用于语音增强及其FPGA原型
3. Binaural Classification-Based Speech Segregation and Robust Speaker Recognition System [J] . Venkatesan R., Ganesh A. Balaji Circuits, systems, and signal processing . 2018,第8期

机译：基于双分类的语音分离和健壮的说话人识别系统
4. Integrating Spectrotemporal Context into Features Based on Auditory Perception for Classification-based Speech Separation [C] . Xiang Li, Xihong Wu, Jing Chen IEEE International Conference on Acoustics, Speech and Signal Processing . 2019

机译：基于听觉感知的时空语境特征融合基于分类的语音分离
5. Classification-based techniques for digital coding of speech-plus-noise. [D] . El-Maleh, Khaled Helmi. 2004

机译：基于分类的语音加噪声数字编码技术。
6. Correction: Improved binaural speech reception thresholds through small symmetrical separation of speech and noise [O] . 2021

机译：校正：通过小对称分离和噪音的小对称分离改进双耳语音接收阈值
7. Exploring monaural features for classification-based speech segregation [O] . Yuxuan Wang, Kun Han, Deliang Wang 2013

机译：探索基于分类的语音隔离的单声道功能

Towards Scaling Up Classification-Based Speech Separation

摘要

著录项

相似文献

相关主题

期刊订阅