大語彙の単語(キーワード)入力タスクに対し,認識精度の影響こよる入力効率の低下を抑えることを目標としたGUI併用の音声入力インタフェースを提案する.この音声入力インタフェースは,発話の認識結果をもとに生成される複数候補リストを利用者に提示し,そこから利用者が選択するGUI(Graphical User Interface)の仕組みを併用することを前提とする.この様なユーザインタフェースシステムの有効性は認識結果のN-best候補のみを提示する場合その有効性は音声認識システムの利用者や環境による認識精度の違いに大きく影響される.我らの方法は.認識性能が高くない悪環境下での入力効率を向上させるため,GUIとして提示される複数候補の中に,一般的な認識結果のN-best候補だけでなく検索(絞り込み)候補を含めるアプローチに基づく.検索候補は,事前に定義された共通部分単語とN-best出力結果から動的に作成される.本稿では,共通部分単語の定義や,表示する候補リストの構成法の違いによる性能比較について報告する.雑音環境を想定した約13000語の単語入力タスクに対して評価実験を行った結果,提案するインタフェースは認識結果のN-best候補のみを提示するベースライン手法を上回る性能を示し,入力の効率が改善された.一方,共通部分単語や構成法の違いはインタフェースの性能に影響を与えるが,いずれもベースライン手法より高い性能を示した.%In this paper, we propose a new user interface based on a combination of speech input and graphical user interface(GUI) to restrain decrease of input effeciency by influence of recognition accuracy. A new speech interface is based on combination using GUI which can make users select candidates from multiple candidates list made by recognition results. But, an effectiveness of these user interfaces is strongly influenced by a difference of recognition accuracy from a user or an environment with typical speech recognition systems if they simply display N-best candidates of recognition results only. To improve input effeciency under adverse conditions (where the recognition accuracy is not veryrnhigh), our method uses not only N-best candidates from the recognition result but search candidates which can narrow candidates. The search candidates are dynamically made from N-best output result and common word parts defined in advance. In this paper, we compare different methods of extracting common word parts and two methods of generating candidates list. We carried out an experiment of word input task for about 13,000 vocabulary words in several adverse conditions, and evaluated the performance of our GUI-assisted speech interface system by simulating a GUI-assisted (multimodal) isolated-word input task. As a result, the proposed systems indicated inprovement for input effeciency and performance over the baseline system. Although the difference of a definition of common word parts and a way to make candidates list influenced to performance of interface system, all of proposed systems still show better performance than the baseline's.
展开▼