首页> 外文会议>European Signal Processing Conference >Integrating Denoising Autoencoder and Vector Taylor Series with Auditory Masking for Speech Recognition in Noisy Conditions

【24h】

Integrating Denoising Autoencoder and Vector Taylor Series with Auditory Masking for Speech Recognition in Noisy Conditions

机译：将降噪自动编码器和矢量泰勒级数与听觉掩蔽相集成，以在嘈杂的条件下进行语音识别

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

We propose a new front-end feature compensation technique to improve the performance of Automatic Speech Recognition (ASR) systems in noisy environments. First, a Time Delay Neural Network (TDNN) based Denoising Autoencoder (DAE) is considered to compensate the noisy features. The DAE provides good gain in performance when it has been trained using the noise present in the test utterances (“seen” conditions). However, if the noise present in the test utterance is different to what was used in the training of the DAE (“un-seen” conditions), then the performance degrades to a great extent. To improve the ASR performance in such unseen conditions, a model compensation technique, namely the Vector Taylor Series with Auditory Masking (VTS-AM) is used. We propose a new Signal-to-Noise Ratio (SNR) based measure, which can reliably choose the type of compensation to be used for best performance gain. We show that the proposed technique improves the ASR performance significantly on noise corrupted TIMIT and Librispeech databases.

机译：我们提出了一种新的前端特征补偿技术，以改善嘈杂环境中自动语音识别（ASR）系统的性能。首先，基于时延神经网络（TDNN）的降噪自动编码器（DAE）被认为可以补偿噪声特征。当使用测试话语（“可见”条件）中存在的噪声训练DAE时，DAE可以提供良好的性能。但是，如果测试话语中出现的噪声与DAE训练中使用的噪声不同（“看不见”的条件），则性能将大大降低。为了在这种看不见的情况下提高ASR性能，使用了一种模型补偿技术，即带有听觉掩蔽的矢量泰勒级数（VTS-AM）。我们提出了一种新的基于信噪比（SNR）的度量，该度量可以可靠地选择要用于获得最佳性能增益的补偿类型。我们表明，所提出的技术大大改善了ASR性能，对噪声损坏的TIMIT和Librispeech数据库进行了改进。

著录项

来源
《European Signal Processing Conference》|2018年|2305-2309|共5页
会议地点
作者
A. Biswajit Das; Ashish Panda;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
Signal to noise ratio; Speech recognition; Noise measurement; Training; Databases; Psychoacoustic models; Taylor series;

机译：信噪比;语音识别;噪声测量;训练;数据库;心理声学模型;泰勒级数;

相似文献

外文文献
中文文献
专利

1. A Feature Compensation Approach Using High-Order Vector Taylor Series Approximation of an Explicit Distortion Model for Noisy Speech Recognition [J] . Du J., Huo Q. Audio, Speech, and Language Processing, IEEE Transactions on . 2011,第8期

机译：高阶向量泰勒级数逼近的显式失真模型用于噪声语音识别的特征补偿方法
2. Using vector Taylor series with noise clustering for speech recognition in non-stationary noisy environments [J] . Zhao Xianyu, Ou Zhijian, Wang Zuoying High Technology Letters . 2006,第1期

机译：使用矢量泰勒级数和噪声聚类在非平稳噪声环境中进行语音识别
3. Vector Taylor series based model adaptation using noisy speech trained hidden Markov models [J] . Chung Yongjoo Pattern recognition letters . 2016,第maya1期

机译：基于矢量泰勒级数的模型自适应，使用经噪声训练的隐马尔可夫模型进行
4. Integrating Denoising Autoencoder and Vector Taylor Series with Auditory Masking for Speech Recognition in Noisy Conditions [C] . A. Biswajit Das, Ashish Panda European Signal Processing Conference . 2018

机译：将去噪自动化器和矢量泰勒系列与嘈杂的条件中的语音掩模相结合
5. A Study of Auditory Speech Processing using Brainstem Evoked Responses under Quiet and Noisy Conditions. [D] . Laroche, Marilyn. 2011

机译：在安静和嘈杂的条件下使用脑干诱发反应进行听觉语音处理的研究。
6. Robust EEG-Based Decoding of Auditory Attention With High-RMS-Level Speech Segments in Noisy Conditions [O] . Lei Wang, Ed X. Wu, Fei Chen 2020

机译：基于危险的eeg的eeg的解码在嘈杂的条件下具有高rms级语音段的听觉注意力
7. Speech recognition in noisy environments using first-order vector Taylor series [O] . Do Yeong Kim, Chong Kwan Un, Nam Soo Kim 1998

机译：使用一阶向量泰勒级数在嘈杂环境中进行语音识别
8. Auditory Modeling for Noisy Speech Recognition [R] . 2000

机译：噪声语音识别的听觉建模

Integrating Denoising Autoencoder and Vector Taylor Series with Auditory Masking for Speech Recognition in Noisy Conditions

摘要

著录项

相似文献

相关主题

期刊订阅