...
首页> 外文期刊>電子情報通信学会技術研究報告. 音声. Speech >音声·非音声の信頼度を利用した雑音に頑健な音声認識デコーダの検討
【24h】

音声·非音声の信頼度を利用した雑音に頑健な音声認識デコーダの検討

机译:使用语音和非语音可靠性检查对噪声具有鲁棒性的语音识别解码器

获取原文
获取原文并翻译 | 示例
           

摘要

音声·非音声を判別するVoice Activity Detection(VAD)は,実環境で音声認識を行う上で基盤となる技術である.従来のフロントエンドでVADを行う音声認識手法とは異なるアプローチとして,音声·非音声の信頼度を利用して仮説スコアを調整する音声認識手法を提案する.また信頼度を高精度に計算するため音声·非音声のGMMを入力された発話·環境にオンラインで適応する手法を提案する.さらに適応データの信頼度に応じて更新するGMM のパラメータを重み付けして頑健な教師なし適応を行う手法,GMMから計算された統計量をキャッシュすることで,適応に関する計算量を削減する手法を提案する.Drivers’ Japanese Speech Corpus in a Car Environment(DJSC)を用いた実験で,従来のフロントエンドでVADを行う認識手法と比べて,大幅な認識精度の向上が得られることを確認した.さらに,信頼度に応じてGMMの更新パラメータを重み付けすることで,教師なし適応を行うためのパラメータの変動に対する頑健性を向上できること,統計量をキャッシュすることで,適応に関する計算量を大幅に削減できることを確認した.これらの結果から,本論文で提案する音声·非音声の信頼度を利用する適応的な音声認識手法を用いることで,雑音環境下における認識精度の大幅な改善を少ない計算量で実現できることを確認した.
机译:区分语音和非语音的语音活动检测(VAD)是在真实环境中进行语音识别的基本技术。作为与在前端执行VAD的常规语音识别方法不同的方法,我们提出了一种语音识别方法,该方法使用语音和非语音的可靠性来调整假设分数。我们还提出了一种将语音和非语音GMM在线适应输入语音和环境的方法,以高精度计算可靠性。此外,我们提出了一种方法,该方法通过根据自适应数据的可靠性对要更新的GMM参数进行加权来执行鲁棒的无监督自适应,以及通过缓存从GMM计算出的统计信息来减少与自适应相关的计算量的方法。去做。在使用驾驶员在汽车环境中的日语语音语料库(DJSC)的实验中,证实了与在前端执行VAD的常规识别方法相比,可以显着提高识别精度。此外,通过根据可靠性对GMM的更新参数进行加权,可以提高针对无监督自适应的参数波动的鲁棒性,并且通过缓存统计信息,可以大大减少与自适应相关的计算量。我确认可以做到。从这些结果可以证实,通过使用利用本文中提出的语音和非语音的可靠性的自适应语音识别方法,可以通过少量的计算就可以在嘈杂的环境中实现识别精度的显着提高。做到了。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号