音声·非音声を判別するVoice Activity Detection(VAD)は,実環境で音声認識を行う上で基盤となる技術である.従来のフロントエンドでVADを行う音声認識手法とは異なるアプローチとして,音声·非音声の信頼度を利用して仮説スコアを調整する音声認識手法を提案する.また信頼度を高精度に計算するため音声·非音声のGMMを入力された発話·環境にオンラインで適応する手法を提案する.さらに適応データの信頼度に応じて更新するGMM のパラメータを重み付けして頑健な教師なし適応を行う手法,GMMから計算された統計量をキャッシュすることで,適応に関する計算量を削減する手法を提案する.Drivers’ Japanese Speech Corpus in a Car Environment(DJSC)を用いた実験で,従来のフロントエンドでVADを行う認識手法と比べて,大幅な認識精度の向上が得られることを確認した.さらに,信頼度に応じてGMMの更新パラメータを重み付けすることで,教師なし適応を行うためのパラメータの変動に対する頑健性を向上できること,統計量をキャッシュすることで,適応に関する計算量を大幅に削減できることを確認した.これらの結果から,本論文で提案する音声·非音声の信頼度を利用する適応的な音声認識手法を用いることで,雑音環境下における認識精度の大幅な改善を少ない計算量で実現できることを確認した.
展开▼