大語彙の単語(キーワード)入力タスクに対し,認識精度の影響による入力効率の低下を抑えることを目標としたGUI併用の音声入力インタフェースを提案する.この音声入力インタフェースは,発話の認識結果をもとに生成される複数候補リストを利用者に提示し,そこから利用者が選択するGUI(Graphical User Interface)の仕組みを併用することを前提とする.この様なユーザインタフェースシステムの有効性は認識結果のN-best,候補のみを提示する場合,その有効性は音声認識システムの利用者や環境による認識精度の違いに大きく影響される.我らの方法は,認識性能が高くない意環境下での入力効率を向上させるため,GUIとして提示される複数候補の中に,一般的な認識結果のN-best候補だけでなく検索(絞り込み)候補を含めるアプローチに基づく.検索候補は,事前に定義された共通部分単語とN-best出力結果から動的に作成される.本稿では,共通部分単語の定義や,表示する候補リストの構成法の違いによる性能比較について報告する.雑音環境を想定した約13000語の単語入力タスクに対して評価実験を行った結果,提案するインタフェースは認識結果のN-best候補のみを提示するベースライン手法を上回る性能を示し,入力の効率が改善された.一方,共通部分単語や構成法の違いはインタフェースの性能に影響を与えるが,いずれもベースライン手法より高い性能を示した.
展开▼