首页> 外文期刊>電子情報通信学会技術研究報告 >複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討
【24h】

複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討

机译:单模式学习中具有多重混响特性的语音在未知混响环境中鲁棒语音识别的研究

获取原文
获取原文并翻译 | 示例
       

摘要

残響環境下では音声認識性能は著しく著しく劣化する.これに対し,人工残響インパルス応答をクリーン音声に畳み込んで学習することで,認識率が向上することが知られている.しかし,どのような残響インパルス応答を畳み込んで学習すべきか,という点に関しては十分に議論がなされていない.本研究では,人工残響インパルス応答の残響時間パラメータと認識率の関係を残響音声認識評価基盤(CENSREC-4)を用いて詳細に調べ,認識率が大きく変わる残響時間パラメータの範囲がテスト環境より短い残響時間に分布していることを述べる.また,その範囲に基づいて人工残響インパルス応答を選択しマルチコンディション学習を行うことが,未知残響環境に対して頑健な音声認識であることを示す.%In reverberant environment, speech recognition accuracy is seriously degraded. An effective method is to train acoustic models using reverberant speech which are generated from clean speech data and reverberant impulse response. It is not clear, however, what kind of impulse response is suitable for environmental variations. In this research, we show the range of reverberant time that changes speech recognition accuracy drastically through evaluation with CENSREC-4. Then we point out that the range of reverberant time which is effective for model training is shorter than that of test conditions. We also show the multi-condition training is effective for speech recognition under unknown environments using speech data of the range of reverberant time we showed.
机译:在混响环境中,语音识别性能会大大降低。另一方面,已知通过将人工混响脉冲响应卷积为干净的语音来学习人工混响脉冲响应,从而提高了识别率。但是,关于应将哪种混响脉冲响应进行卷积以进行学习的讨论不足。在这项研究中,使用混响语音识别评估平台(CENSREC-4)详细研究了人工混响脉冲响应的混响时间参数与识别率之间的关系,并且混响时间参数的范围在识别率发生较大变化的范围内比测试环境要短。描述了混响时间的分布。我们还表明,基于范围选择人工混响脉冲响应并执行多条件学习对于未知混响环境来说是鲁棒的语音识别。 %在混响环境中,语音识别精度会大大降低。一种有效的方法是使用由干净语音数据和混响冲动响应生成的混响语音训练声学模型,但尚不清楚哪种冲激响应适合于本研究通过CENSREC-4的评估,揭示了回响时间的范围会极大地改变语音识别的准确性,然后指出,对模型训练有效的回响时间范围比测试条件要短。我们还展示了多条件训练对于使用我们展示的混响时间范围的语音数据在未知环境下的语音识别是有效的。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号